План лекций

Строки: база, полиномиальные хеши (9 октября 2017)

Цель: отобразить строки в целые числа, чтобы сравнивать их на равенство за O(1)
Вычисление хеша: h[i+1] = h[i]*P + s[i] ; substr(i, len) = h[i+len] - h[i]*deg[len]. При P > |Σ| инъекция. А теперь вычисления делаем по модулю.
Коллизии: Pr(s₁,...,s_n различны → h₁,...h_n различны) ≥ 1 - n(n-1)/(2M)

Lm: если (P,MOD) фиксировано, MOD простое, мы берём случайный многочлен, то вероятность, что P − корень, равна 1/MOD
Lm: если многочлен и MOD фиксированы, MOD простое, мы берём случайное P, то вероятность, что P − корень, ≤ degree/MOD
Lm: если MOD фиксирован, MOD простое, мы берём случайное P и случайный многочлен, то вероятность, что P − корень равна 1/MOD
Анонс "строка Туэ-Морса", "тест против (P,MOD)-хеша".
Что делать с коллизиями? Выбирать случайную точку P или случайный простой MOD! Лучше P.

− Перерыв −

В C++ есть встроенный unordered_set<string>; hash<string>().
Lm: сколько корней у случайного многочлена? Ответ: 1
Всё-таки, нужна ли простота? По не простому модулю у многочлена может быть очень много корней. Пример: x³² ≡ 0(mod 2³²).
Окончание доказательства:

Строка Туэ-Морса (__builtin_popcount(i) mod 2, или рекурсивно: S_n = S_n-1 + not S_n-1). Оценка длины строки, чтобы была коллизия.
[skipped] Тест против (P,MOD)-хеша. Алгоритм Капуна.