Bardzo oszczędne drzewa (II)

Skoro dotychczas szło nam tak dobrze, spróbujmy pójść za ciosem i zaproponować bardzo oszczędną reprezentację drzew już niekoniecznie binarnych (ale wciąż ukorzenionych)...

Przykład takiego drzewa można znaleźć na rysunku 1. Tym razem będziemy nawigować po drzewie za pomocą operacji: $\text{[math]}$ oraz $\text{[math]}$ (ta ostatnia polega na przejściu do najbliższego po prawej brata danego węzła). Aby operacja $\text{[math]}$ miała sens, musimy też umieć dla każdego węzła wyznaczyć jego stopień, czyli liczbę synów (operacja $\text{[math]}$ ). Spróbujmy ustalić, jak oszczędną reprezentację mamy tu w ogóle szansę uzyskać. W tym celu, podobnie jak w przypadku binarnym, musimy stwierdzić, ile jest różnych drzew dowolnych o $\text{[math]}$ węzłach. Zliczać będziemy drzewa z nienumerowanymi węzłami i w których porządek synów węzła ma znaczenie. Niech $\text{[math]}$ oznacza liczbę takich drzew (patrz Rys. 2). Jeśli przez $\text{[math]}$ oznaczymy liczbę węzłów w poddrzewie skrajnie lewego syna korzenia $\text{[math]}$ otrzymamy następujący wzór rekurencyjny na $\text{[math]}$ :

display-math

Mamy ponadto $\text{[math]}$ Porównując ten wzór z definicją rekurencyjną liczb Catalana, otrzymujemy, że $\text{[math]}$ Stąd, podobnie jak poprzednio, w oszczędnej reprezentacji drzew dowolnych powinno nam wystarczyć $\text{[math]}$ bitów.

Przy konstrukcji ciągu kodowego znów ponumerujemy wszystkie węzły drzewa poziomami, a w ramach poziomów od lewej do prawej (Rys. 1). Wypiszmy teraz w jednym ciągu stopnie wszystkich węzłów – dla powyższego przykładu będzie to:

display-math

Chcielibyśmy, żeby taki właśnie ciąg był naszym ciągiem kodowym. Niestety, nie jest to możliwe: występuje w nim $\text{[math]}$ liczb, z których każda jest z zakresu od 0 do $\text{[math]}$ więc reprezentacja takiego ciągu wymagałaby rzędu $\text{[math]}$ bitów. Aby sobie z tym poradzić, zastosujemy pozornie beznadziejny manewr: zapiszemy wszystkie stopnie unarnie, czyli każdy stopień zamienimy na ciąg jedynek odpowiedniej długości zakończony zerem. Ponieważ suma stopni węzłów to zaledwie $\text{[math]}$ w ten sposób uzyskamy ciąg złożony z $\text{[math]}$ bitów, np.:

display-math

Ze względów technicznych wygodnie nam będzie jeszcze dodać do drzewa sztuczny korzeń, którego jedynym synem będzie faktyczny korzeń drzewa. Odpowiada to dopisaniu na początku ciągu jedynki i zera:

display-math

Taki ciąg kodowy o długości $\text{[math]}$ wraz ze strukturą danych do wykonywania operacji rank/select będzie naszą bardzo oszczędną reprezentacją drzewa.

Spróbujmy uzasadnić, że podana reprezentacja umożliwia efektywne wykonywanie wszystkich potrzebnych operacji. Zauważmy przede wszystkim, że w ciągu kodowym występuje $\text{[math]}$ jedynek, które w naturalny sposób odpowiadają węzłom drzewa: węzeł o numerze $\text{[math]}$ reprezentuje $\text{[math]}$ -ta jedynka w ciągu, będąca zarazem odpowiednią jedynką w ciągu opisującym stopień jego ojca. Każdemu węzłowi, oprócz już przydzielonego numeru czarnego, przypiszemy znów numer kolorowy. Będzie to pozycja w ciągu kodowym odpowiadającej mu jedynki. Widać natychmiast, że za pomocą operacji rank oraz select możemy bez problemu przeliczać numery czarne na kolorowe i odwrotnie.

Wiedząc teraz, gdzie w ciągu kodowym znajduje się jedynka odpowiadająca danemu węzłowi, możemy zliczyć zera występujące wcześniej w ciągu i w ten sposób wyznaczyć numer jego ojca. Prawy brat węzła będzie ni mniej, ni więcej jak sąsiednią jedynką w ciągu kodowym. Natomiast ciąg jedynek odpowiadający synom węzła możemy zidentyfikować, znajdując $\text{[math]}$ -sze i $\text{[math]}$ -te zero w ciągu, gdzie $\text{[math]}$ jest numerem czarnym tego węzła. Z tego ciągu łatwo odzyskamy zarówno numer lewego syna węzła, jak i łączną liczbę jego synów, czyli stopień węzła.

Dopracowanie szczegółów implementacji operacji pozostawiamy Czytelnikowi, który, wyposażony w strukturę danych rank/select, wykona to bez większego trudu.

Implementacja operacji rank i select. Przyszła pora, aby uzupełnić powyższe rozważania opisem implementacji pomocniczej struktury danych. Zajmijmy się najpierw operacją $\text{[math]}$ Zauważmy, że wystarczy umieć odpowiadać na zapytania dla $\text{[math]}$ gdyż $\text{[math]}$

Nasz ciąg bitów $\text{[math]}$ podzielimy na bloki: najpierw na duże bloki o długości $\text{[math]}$ a w drugiej kolejności na małe bloki o długości $\text{[math]}$ W zapisach tych $\text{[math]}$ oznacza część całkowitą logarytmu o podstawie dwójkowej z $\text{[math]}$ Zakładamy dla uproszczenia, że $\text{[math]}$ jest całkowite. Bloki w podziale są rozłączne i składają się z kolejnych elementów ciągu. Ponadto, jeśli ostatni blok okaże się krótszy, uzupełniamy go sztucznymi zerami aż do pełnej długości. Zauważmy, że $\text{[math]}$ jest całkowitą wielokrotnością $\text{[math]}$ i małe bloki stanowią „podpodział” dużych bloków. Bloki każdego typu numerujemy od jedynki.

Dla każdego dużego bloku w tablicy $\text{[math]}$ zapamiętamy łączną liczbę jedynek w ciągu znajdujących się przed początkiem tego bloku. Elementy tablicy $\text{[math]}$ są mniejsze niż $\text{[math]}$ więc są liczbami złożonymi z co najwyżej $\text{[math]}$ bitów. Łączny rozmiar tej tablicy jest zatem rzędu:

display-math

Dalej, dla każdego małego bloku w podobnej tablicy $\text{[math]}$ zapamiętamy liczbę jedynek znajdujących się przed początkiem tego bloku, ale w ramach dużego bloku zawierającego rozważany mały blok. Tablica $\text{[math]}$ ma $\text{[math]}$ elementów, jednak każdy jej element jest mniejszy niż $\text{[math]}$ Tablica ma więc rozmiar rzędu:

display-math

Obie tablice zajmują zatem $\text{[math]}$ bitów.

Łatwo dostrzec, w jaki sposób możemy użyć podanych tablic do odpowiedzi na zapytanie $\text{[math]}$ Widać też, że potrzebujemy do tego jeszcze jednej informacji: o liczbie jedynek znajdujących się przed danym bitem w ramach jego małego bloku. W tym miejscu wykorzystamy własność, że różnych co do wartości małych bloków nie ma zbyt wiele. Dokładniej, jest tylko $\text{[math]}$ takich bloków i możemy je w naturalny sposób ponumerować kolejnymi liczbami naturalnymi – numerem bloku będzie liczba binarna zawarta w tym bloku. Teraz możemy dla każdego z małych bloków wyznaczyć zawczasu wszystkie wyniki. W tablicy $\text{[math]}$ dla danego numeru małego bloku i dla każdego indeksu w ramach małego bloku zapamiętamy liczbę jedynek na pozycjach poprzedzających ten indeks (wraz z tym indeksem). Tablica ta będzie miała $\text{[math]}$ elementów, każdy nie większy niż $\text{[math]}$ czyli jej łączny rozmiar to:

display-math

Ostatecznie wszystkie przechowywane tablice mają rozmiar $\text{[math]}$ i pozwalają odpowiedzieć na zapytanie $\text{[math]}$ następująco:

display-math

Odpowiedź na zapytanie uzyskujemy więc w czasie stałym, przy założeniu, że standardowe operacje arytmetyczne i bitowe na liczbach nie większych niż $\text{[math]}$ działają w czasie stałym. W tym celu wystarczy ciąg $\text{[math]}$ reprezentować w tablicy liczb całkowitych odpowiadających paczkom kolejnych bitów ciągu (jeszcze łatwiej sobie wyobrazić, że w tablicy pamiętamy po prostu kolejne identyfikatory małych bloków).

Z operacją $\text{[math]}$ można poradzić sobie podobnie, jednak jest to dużo bardziej skomplikowane technicznie. Tym razem bloki nie są stałej długości, lecz wszystkie zawierają tę samą liczbę jedynek. Ponadto są tu potrzebne trzy poziomy podziału na bloki – dokładny opis pomijamy. Natomiast Czytelnika Zainteresowanego pozostawiamy z następującym pytaniem: dlaczego nie dało się rozwiązać problemu zapytań $\text{[math]}$ używając tylko jednego rozmiaru bloków – powiedzmy, $\text{[math]}$

Citius, altius, fortius. W tym artykule opisaliśmy bardzo oszczędne reprezentacje drzew binarnych i dowolnych pozwalające efektywnie realizować podstawowe operacje związane z nawigacją po drzewie. Za pomocą bardziej zaawansowanych narzędzi zaprojektowano inne bardzo oszczędne reprezentacje drzew (bazujące na wyrażeniach nawiasowych równoważnych drzewom), które pozwalają wykonywać całe mnóstwo operacji: wyznaczanie rozmiarów poddrzew, wysokości i głębokości węzłów, znajdowanie najniższych wspólnych przodków (LCA) par węzłów i przodków węzłów na określonej głębokości, zliczanie liści w poddrzewach itd. Co więcej, z podanych tutaj pomysłów rozwinęła się cała dziedzina badań zajmująca się bardzo oszczędnymi strukturami danych. Więcej informacji na ten temat Czytelnik znajdzie w Internecie pod hasłem succinct data structures.