WikiSort.ru - Программирование

Префиксное дерево (также бор^[1], луч^[2], нагруженное дерево^[3], англ. trie^[4]) — структура данных, позволяющая хранить ассоциативный массив, ключами которого являются строки. Представляет собой корневое дерево, каждое ребро которого помечено каким-то символом так, что для любого узла все рёбра, соединяющие этот узел с его сыновьями, помечены разными символами. Некоторые узлы префиксного дерева выделены (на рисунке они подписаны цифрами) и считается, что префиксное дерево содержит данную строку-ключ тогда и только тогда, когда эту строку можно прочитать на пути из корня до некоторого (кстати, единственного для этой строки) выделенного узла. В некоторых приложениях удобно считать все узлы дерева выделенными.

Таким образом, в отличие от бинарных деревьев поиска, ключ, идентифицирующий конкретный узел дерева, не явно хранится в данном узле, а неявно задаётся положением данного узла в дереве. Получить ключ можно выписыванием подряд символов, помечающих рёбра на пути от корня до узла. Ключ корня дерева — пустая строка. Часто в выделенных узлах хранят дополнительную информацию, связанную с ключом, и обычно выделенными являются только листья и, возможно, некоторые внутренние узлы.

Операции над префиксным деревом

Выделяют три основные операции над префиксным деревом: проверка наличия ключа в дереве, удаление ключа из дерева и вставка нового ключа (возможно, с какой-то дополнительной связанной информацией). Каждая из этих операций очевидным образом реализуется с помощью спуска по дереву из корня, но эффективность такой реализации напрямую зависит от организации навигации по узлам. Для последующего анализа различных подходов к этой проблеме обозначим через $n$ длину строки, которую запрашивают/удаляют/вставляют, а через $\sigma$ обозначим размер алфавита, то есть количество различных символов на рёбрах данного префиксного дерева. Пусть данный узел $x$ имеет $k$ сыновей (при этом, очевидно, $k\leq \sigma$ ). Обозначим через $x_{1},x_{2},\ldots ,x_{k}$ ссылки на этих сыновей, а через $a_{1},a_{2},\ldots ,a_{k}$ — символы, которые помечают рёбра, соединяющие $x$ с соответствующими сыновьями.

Наиболее простой способ организовать навигацию в $x$ — хранить динамический массив пар $(a_{i},x_{i})$ . При таком подходе все три операции выполняются за $O(n\sigma )$ . Если же вставка и удаление не используются, то лучше отсортировать пары по ключу $a_{i}$ и тогда операцию проверки наличия ключа в префиксном дереве можно будет выполнять за $O(n\log \sigma )$ с помощью бинарного поиска в узлах.
Можно добиться времени выполнения $O(n\log \sigma )$ для всех трёх операций, если хранить пары $(a_{i},x_{i})$ отсортированными по ключу $a_{i}$ в каком-либо сбалансированном бинарном дереве поиска, например, в красно-чёрном дереве или АВЛ-дереве. В большинстве языков программирования реализация какого-то сбалансированного дерева поиска входит в стандартную библиотеку в виде ассоциативного массива.
Другой популярный способ организации навигации в $x$ — хранить пары $(a_{i},x_{i})$ по ключу $a_{i}$ в хеш-таблице. При таком подходе все три операции выполняются за ожидаемое время $O(n)$ (в то время как два предыдущих варианта имеют гарантированное время выполнения). Во многих языках программирования хеш-таблицы входят в стандартную библиотеку. Можно ещё улучшить временные гарантии, заменив хеш-таблицу хешированием кукушки или другой аналогичной структурой: такой хеш позволяет выполнять запрос и удаление ключей за гарантированное время $O(n)$ и только лишь вставка выполняется за ожидаемое время $O(n)$ .

Сжатое префиксное дерево

Рассмотрим префиксное дерево, содержащее все суффиксы строки $\underbrace {aa\cdots a} _{k{\text{ раз}}}b\underbrace {aa\cdots a} _{k{\text{ раз}}}b$ , имеющей длину $n=2k+2$ . Нетрудно видеть, что это дерево имеет не менее $k^{2}=\Theta (n^{2})$ узлов и занимает, таким образом, $\Theta (n^{2})$ памяти. В данном примере такое расточительное потребление памяти вызвано наличием большого числа узлов, обладающих лишь одним сыном. Для борьбы с этой проблемой Дональдом Моррисоном^[5] была разработана модификация префиксного дерева, называемая сжатое префиксное дерево (также встречаются варианты компактное префиксное дерево, базисное дерево, сжатый бор, компактный бор, сжатый луч, сжатое нагруженное дерево; сам Моррисон^[5] называл свою структуру «PATRICIA tree» и это название до сих пор иногда встречается).

Определение и способы хранения

Пример сжатого префиксного дерева для русского языка.

Сжатое префиксное дерево, содержащее заданные строки $s_{1},s_{2},\ldots ,s_{k}$ , — это минимальное по числу узлов дерево, каждое ребро которого помечено непустой строкой (а не символом, как в обычном префиксном дереве) так, что любая строка $s_{i}$ может быть прочитана на пути из корня до какого-то (выделенного) узла, и для любого узла первые символы на всех метках на рёбрах узел-сын различны. Например, изображённое на рисунке сжатое префиксное дерево содержит восемь слов русского языка и выделенными узлами в нём являются только листья.

Нетрудно видеть, что сжатое префиксное дерево получается из обычного префиксного дерева, содержащего ключи $s_{1},s_{2},\ldots ,s_{k}$ , путём последовательного удаления каждого узла (кроме корня), который имеет лишь одного сына и не является выделенным, но при этом отец и сын удаляемого узла соединяются и образовавшееся ребро помечается строкой, полученной соединением меток на рёбрах отец-узел и узел-сын (хотя такой метод построения сжатого префиксного дерева не рекомендуется).

Эффективность сжатого префиксного дерева проистекает из способа представления меток на рёбрах. Поскольку каждая метка $t$ является подстрокой какой-то строки $s_{h}$ , можно представить $t$ с помощью тройки чисел $(h,i,j)$ , где $s_{h}[i..j]=t$ (здесь $s_{h}[i..j]$ обозначает подстроку строки $s_{h}$ , начинающуюся в позиции $i$ и заканчивающуюся в позиции $j$ ). Отметим, что если все строки $s_{h}$ являются подстроками какой-то одной заданной строки $s$ , то метки можно представлять парами чисел $(i,j)$ , соответствующими подстрокам $s[i..j]$ . Навигация в узлах организуется теми же способами, что и в обычном префиксном дереве, но символами-ссылками служат первые символы в метках на рёбрах узел-сын: например, в сжатом префиксном дереве на рисунке узел, соответствующий строке «вест», имеет трёх сыновей и символами-ссылками в данном узле служат «и», «н», «ь», которые являются первыми символами в метках «иб», «ник», «ь» на рёбрах узел-сын. Можно показать, что сжатое префиксное дерево для набора строк $s_{1},s_{2},\ldots ,s_{k}$ имеет всего не более $2k$ узлов и, таким образом, занимает $O(k)$ памяти, если не считать память необходимую для хранения самих строк $s_{1},s_{2},\ldots ,s_{k}$ .

Операции над сжатым префиксным деревом

Операции запроса, удаления и вставки в сжатом префиксном дереве можно выполнять так же как и в обычном префиксном дереве при помощи спуска из корня. При этом алгоритм становится несколько более сложным из-за необходимости при спуске по рёбрам, помеченным строками длины два и более, читать содержимое метки из соответствующей подстроки одной из строк $s_{1},s_{2},\ldots ,s_{k}$ . Теоретически время работы такого алгоритма можно оценить так же, как и для обычного префиксного дерева (то есть как $O(n\sigma )$ , $O(n\log \sigma )$ , $O(n)$ в зависимости от организации навигации в узлах), но на практике операции над сжатым префиксным деревом нередко оказываются быстрее из-за того, что большая часть пути от корня до узла проходит по рёбрам и нет необходимости часто обращаться к структурам данных в узлах.

Если длины всех строк $s_{i}$ сравнительно невелики (например, в пределах длины одной кэш линии, которая на многих современных процессорах составляет 64 байта), то кэш промахов, вызванных частыми перескоками между различными метками, можно избежать с помощью другого метода спуска по дереву (заметим, что как раз этот метод был описан в статье Моррисона^[5]). Для примера рассмотрим алгоритм поиска длиннейшего префикса заданной строки $t$ , который можно прочитать на пути из корня до какого-то узла в данном сжатом префиксном дереве; остальные операции можно реализовать по аналогии.

Алгоритм заключается в том, чтобы первым проходом опросить только узлы дерева, пропуская рёбра, и, таким образом, спустившись как можно ниже в дереве, найти строку $s_{i}$ из множества $s_{1},s_{2},\ldots ,s_{k}$ , имеющую самый длинный общий префикс со строкой $t$ . Затем нужно вычислить общий префикс $t$ и $s_{i}$ обычным наивным алгоритмом и вернуть результат. В представленном ниже C-подобном псевдокоде s[i] обозначает строку $s_{i}$ , root обозначает корень дерева, и каждый узел x содержит следующие поля/методы: x->len — длина метки на ребре от x к отцу x; x->child(c) — ссылка на сына узла x, соединённого с x ребром с меткой, начинающейся с символа c, или nullptr, если такого сына нет; x->src — число, такое что строка на пути от корня к x является префиксом строки $s_{x{-}{>}src}$ .

size_t find_longest_prefix(string t) {
  struct node_t *x = root;
  for (size_t i = 0; i < t.length(); i += x->len)
    if (x->child(t[i]) != nullptr) x = x->child(t[i]);
    else break;
  return длина общего префикса t и s[x->src];
}

Приложения

Структура широко применяется в алгоритмах поиска и других приложениях.

Префиксное дерево используется в алгоритме Ахо — Корасик для поиска нескольких строк в заданной строке.
Также префиксное дерево используется в алгоритме Лемпеля — Зива — Велча.
Сжатое префиксное дерево, содержащее все суффиксы заданной строки, называется суффиксным деревом и играет важнейшую роль в алгоритмах поиска.
Сжатое префиксное дерево используется, в частности, для синтаксического анализа естественных языков^[6].
Сжатое префиксное дерево является одной из структур данных ядра Linux^[7].

Примечания

↑ В первом переводе монографии Кнута.
↑ В последующих переводах монографии Кнута.
↑ Ахо, Хопкрофт, Ульман, 2003, с. 152.
↑ Fredkin, 1960.
1 2 3 Morrison, 1968.
↑ Pymorphy 2 https://habrahabr.ru/post/176575/
↑ Robert Love. Linux Kernel Development. Third Edition. 2010.

Литература

Кнут Д. Э. Искусство программирования. Том 3. Сортировка и поиск = The Art of Computer Programming. Volume 3. Sorting and Searching / под ред. В. Т. Тертышного (гл. 5) и И. В. Красикова (гл. 6). — 2-е изд. — Москва: Вильямс, 2007. — Т. 3. — 832 с. — ISBN 5-8459-0082-1.
Ахо А. В., Хопкрофт Дж. Э., Ульман Дж. Д. Структуры данных и алгоритмы = Data Structures and Algorithms / под ред. С. Н. Тригуба; пер. с англ. А. А. Минько. — М.: Вильямс, 2003. — 384 с. — ISBN 5-8459-0122-7.
Crochemore M., Rytter W. Jewels of Stringology. — Singapore: World Publishing Scientific Co. Pte. Ltd., 2002. — 306 с. — ISBN 981-02-4782-6.
Fredkin E. Trie Memory // Communications of the ACM. — 1960. — Т. 3, № 9. — С. 490–499. — DOI:10.1145/367390.367400.
Morrison D. R. Practical Algorithm to Retrieve Information Coded in Alphanumeric // Journal of the ACM. — 1968. — Т. 15, № 4. — С. 514–534. — DOI:10.1145/321479.321481.

Ссылки

Bentley, Jon; Sedgewick, Robert (1998-04-01). «Ternary Search Trees». Dr. Dobb’s Journal (Dr Dobb’s). Archived from the original on 2008-06-23.
Algorithms and Data Structures Research & Reference Material: Tries, by Lloyd Allison, Monash University.
Algorithms and Data Structures Research & Reference Material: PATRICIA, by Lloyd Allison, Monash University.
Patricia Tree, NIST Dictionary of Algorithms and Data Structures.
Crit-bit trees, by Daniel J. Bernstein.
Radix Tree API in the Linux Kernel, by Jonathan Corbet.
Kart (key alteration radix tree), by Paul Jarc.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] В первом переводе монографии Кнута.

[2] В последующих переводах монографии Кнута.

[_a8105114bc0b2c37-3] Ахо, Хопкрофт, Ульман, 2003, с. 152.

[_f60620b4d6ac75a6-4] Fredkin, 1960.

[_a043b91b33b59748-5] 1 2 3 Morrison, 1968.

[6] Pymorphy 2 https://habrahabr.ru/post/176575/

[7] Robert Love. Linux Kernel Development. Third Edition. 2010.

Дерево (структура данных)
Двоичное дерево поиска Дерево (теория графов) Древовидная структура
Двоичные деревья	Двоичное дерево T-дерево
Самобалансирующиеся двоичные деревья	АА-дерево АВЛ-дерево Красно-чёрное дерево Расширяющееся дерево Дерево со штрафами Декартово дерево Дерево Фибоначчи B-деревья
B-деревья	B-дерево 2-3-дерево B+-дерево B*-дерево B^x-дерево UB-дерево 2-3-4 дерево (a,b)-дерево Танцующее дерево
Префиксные деревья	Суффиксное дерево Базисное дерево Ternary search tree
Двоичное разбиение пространства	k-мерное дерево VP-дерево
Недвоичные деревья	Дерево квадрантов Октодерево Sparse Voxel Octree Экспоненциальное дерево PQ-дерево
Разбиение пространства	R-дерево R-дерево Гильберта R+-дерево R*-дерево X-дерево M-дерево Дерево Фенвика Дерево отрезков
Другие деревья	Куча Дерево хешей Finger tree Metric tree Дерево покрытий BK-tree Doubly-chained tree iDistance Link-cut tree LSM-дерево
Алгоритмы	Поиск в ширину Поиск в глубину DSW-алгоритм Алгоритм связующего дерева