Bardzo oszczędne drzewa (I)

Wiele struktur danych w komputerze można reprezentować w postaci drzewa binarnego. Aby przechować takie drzewo w pamięci komputera, należy dla każdego węzła zapamiętać numer jego lewego i prawego syna oraz, jeśli to potrzebne, numer węzła będącego jego ojcem. Wystarczą nam do tego trzy tablice.

Czy jest to najbardziej oszczędna reprezentacja drzewa binarnego? Jeśli rozważane drzewo ma $\text{[math]}$ węzłów, to łączny rozmiar wszystkich tablic wynosi $\text{[math]}$ a jeśli nie są nam potrzebni ojcowie węzłów, to rozmiar jest równy $\text{[math]}$ Co więcej, tablice lsyn i psyn mają łącznie tylko $\text{[math]}$ niezerowych komórek. Możemy przeanalizować to jeszcze dokładniej i spojrzeć na liczbę bitów w reprezentacji. Numery węzłów są u nas liczbami całkowitymi z zakresu od 1 do $\text{[math]}$ więc do reprezentacji każdego z nich w systemie binarnym wystarczy $\text{[math]}$ cyfr. To oznacza, że cała reprezentacja wymaga z grubsza $\text{[math]}$ bitów pamięci, gdzie $\text{[math]}$ jest stałą równą 1, 2 lub 3, zależnie od tego, które tablice przechowujemy. Kombinując dalej, można zauważyć, że do przechowywania małych numerów węzłów nie jest potrzebne aż $\text{[math]}$ bitów, jednak to spostrzeżenie nie pozwoli nam na pewno istotnie zredukować łącznej liczby bitów w reprezentacji.

A czy jest możliwe uzyskanie reprezentacji drzewa binarnego za pomocą istotnie mniej niż $\text{[math]}$ bitów? Aby odpowiedzieć na to pytanie, warto zadać inne: ile jest różnych drzew binarnych (ukorzenionych, nieetykietowanych) o $\text{[math]}$ węzłach? Oznaczmy tę liczbę przez $\text{[math]}$ (patrz Rys. 3). Spróbujmy ułożyć wzór rekurencyjny na $\text{[math]}$ Drzewo o $\text{[math]}$ węzłach składa się z korzenia i dwóch jego poddrzew. Oznaczmy przez $\text{[math]}$ liczbę węzłów w lewym poddrzewie $\text{[math]}$ Wówczas:

display-math

Dodając do tego wzoru warunek początkowy $\text{[math]}$ otrzymujemy rekurencję definiującą tzw. liczby Catalana, o znanym wzorze ogólnym:

display-math

Znajomość wartości $\text{[math]}$ pozwala podać teoretyczne oszacowanie dolne na liczbę bitów w reprezentacji drzewa binarnego o $\text{[math]}$ węzłach. Otóż żeby każde drzewo binarne dało się reprezentować za pomocą $\text{[math]}$ bitów, musi zachodzić $\text{[math]}$ gdyż w przeciwnym razie pewne dwa różne drzewa miałyby tę samą reprezentację. Ponieważ współczynnik dwumianowy występujący we wzorze na $\text{[math]}$ majoryzuje pozostałe współczynniki występujące w sumie:

display-math

a $\text{[math]}$ występujące w mianowniku jest niższego rzędu niż $\text{[math]}$ więc możemy z niezłą dokładnością asymptotyczną przybliżyć $\text{[math]}$ przez $\text{[math]}$

Stąd wysnuwamy wniosek, że do reprezentacji drzew binarnych powinno nam wystarczyć mniej więcej $\text{[math]}$ bitów. Oczywiście, taka reprezentacja istnieje. Wystarczy wszystkie $\text{[math]}$ -węzłowe drzewa binarne ponumerować kolejnymi liczbami naturalnymi. Wówczas reprezentacją danego drzewa będzie jego numer, czyli liczba naturalna o co najwyżej $\text{[math]}$ bitach. Taka reprezentacja, jakkolwiek niezwykle oszczędna, jest, niestety, dużo mniej wygodna niż nasza początkowa reprezentacja wykorzystująca $\text{[math]}$ bitów. Nie pozwala ona nawigować po drzewie, tj. identyfikować węzłów drzewa i poruszać się po nich w naturalny sposób, czyli w kierunku do synów lub do ojca węzła. Okazuje się jednak, że istnieje inna, sprytna reprezentacja drzew binarnych, która wykorzystuje mniej więcej tyle samo bitów – dokładniej $\text{[math]}$ bitów, czyli więcej tylko o składnik niższego rzędu – i umożliwia łatwą nawigację po drzewie. W dalszej części artykułu przedstawimy taką właśnie bardzo oszczędną reprezentację.

Rank i select Na początek wprowadzimy pomocniczą strukturę danych operującą na ciągach binarnych. Chcielibyśmy umieć obsługiwać dwa typy zapytań dotyczące takich ciągów: wyznaczanie $\text{[math]}$ -tej jedynki (względnie $\text{[math]}$ -tego zera) w ciągu – operacja $\text{[math]}$ oraz sprawdzanie, ile jedynek (względnie ile zer) znajduje się w ciągu do ustalonej pozycji – operacja $\text{[math]}$ Formalnie, niech $\text{[math]}$ będzie ustalonym ciągiem zero-jedynkowym. Wówczas dla $\text{[math]}$ oraz $\text{[math]}$ zapytania mają postać:

$pict$

Okazuje się, że istnieje struktura danych, która poza ciągiem $\text{[math]}$ zużywa $\text{[math]}$ bitów pamięci i pozwala odpowiadać na określone tu zapytania w czasie stałym. Odtąd będziemy używać tej struktury danych jako czarnej skrzynki (ang. black box).

Bardzo oszczędna reprezentacja drzew. Użyjemy teraz naszej pomocniczej struktury danych do konstrukcji bardzo oszczędnej reprezentacji drzew binarnych. Zacznijmy od uzupełnienia drzewa binarnego tzw. węzłami zewnętrznymi, tak aby każdy węzeł wewnętrzny miał dokładnie dwóch synów (Rys. 4). Węzły wewnętrzne drzewa ponumerujmy poziomami, a w ramach poziomów od lewej do prawej (czarne numery na rysunku 4). Ponadto w ten sam sposób ponumerujmy wszystkie węzły drzewa (kolorowe numery na rysunku 4).

Obejdźmy teraz wszystkie węzły drzewa w porządku numerów „kolorowych” i dla każdego z nich zapiszmy cyfrę 1, jeśli jest on węzłem wewnętrznym, a 0 w przeciwnym przypadku:

display-math

Tak otrzymany ciąg binarny wraz z powiązaną z nim strukturą danych do wykonywania operacji rank/select będzie stanowił bardzo oszczędną reprezentację drzewa, tzw. ciąg kodowy. Każdy węzeł uzupełnionego drzewa poza korzeniem jest synem jednego z $\text{[math]}$ węzłów wewnętrznych. Stąd łączna liczba węzłów drzewa, a zarazem liczba bitów w ciągu kodowym to $\text{[math]}$

Sprawdźmy teraz, na ile użyteczny jest nasz ciąg kodowy. Każdy węzeł wewnętrzny drzewa $\text{[math]}$ ma dwa numery, czarny $\text{[math]}$ i kolorowy $\text{[math]}$ Aby przeliczyć numer czarny na kolorowy, wystarczy znaleźć $\text{[math]}$ -tą jedynkę w ciągu kodowym, czyli wykonać operację $\text{[math]}$ :

display-math

Przyporządkowanie odwrotne wykonujemy za pomocą operacji $\text{[math]}$ :

display-math

Musimy jeszcze opisać sposób poruszania się po drzewie. Jest on zaskakująco prosty:

display-math

Innymi słowy, lewym synem węzła o numerze czarnym $\text{[math]}$ jest węzeł o numerze kolorowym $\text{[math]}$ i podobnie w przypadku prawego syna; natomiast w przypadku ojca robimy odwrotnie: dla węzła o numerze kolorowym $\text{[math]}$ ojcem jest węzeł o numerze czarnym $\text{[math]}$

Podane wzory zasługują na wyjaśnienie. Skoncentrujemy się na pierwszym z nich (dla operacji $\text{[math]}$ ), pozostałe otrzymuje się analogicznie. Aby go uzasadnić, wystarczy zbadać, ile węzłów uzupełnionego drzewa występuje w porządku kolejnych poziomów przed lewym synem węzła $\text{[math]}$ Każdy taki węzeł jest albo samym korzeniem drzewa, albo synem jednego z węzłów wewnętrznych o czarnych numerach $\text{[math]}$ Zauważmy, że do tej drugiej grupy zaliczają się tak węzły wewnętrzne (w tym te o numerach czarnych $\text{[math]}$ ), jak i zewnętrzne. Wszystkich tych węzłów jest $\text{[math]}$ więc rzeczywiście numerem kolorowym lewego syna węzła $\text{[math]}$ jest $\text{[math]}$

Podsumujmy to, co wiemy o naszej reprezentacji. Ma ona rozmiar $\text{[math]}$ i pozwala identyfikować węzły drzewa i przemieszczać się w górę i w dół drzewa w czasie stałym. Nie wykazaliśmy jeszcze tylko, że jest ona poprawna, czyli że różne drzewa uzyskują różne reprezentacje. To jednakże wynika z faktu, że na podstawie reprezentacji drzewa, nawigując po nim, możemy jednoznacznie odtworzyć jego kształt. Tak więc nasza reprezentacja spełnia wszystkie oczekiwane własności.

Rank i select

$pict$

Bardzo oszczędna reprezentacja drzew

Użyjemy teraz naszej pomocniczej struktury danych do konstrukcji bardzo oszczędnej reprezentacji drzew binarnych. Zacznijmy od uzupełnienia drzewa binarnego tzw. węzłami zewnętrznymi, tak aby każdy węzeł wewnętrzny miał dokładnie dwóch synów (Rys. 4). Węzły wewnętrzne drzewa ponumerujmy poziomami, a w ramach poziomów od lewej do prawej (czarne numery na rysunku 4). Ponadto w ten sam sposób ponumerujmy wszystkie węzły drzewa (kolorowe numery na rysunku 4).

Obejdźmy teraz wszystkie węzły drzewa w porządku numerów „kolorowych” i dla każdego z nich zapiszmy cyfrę 1, jeśli jest on węzłem wewnętrznym, a 0 w przeciwnym przypadku: