Kwadraty

Tym razem zajmiemy się trochę innymi kwadratami niż zazwyczaj. Chodzi mianowicie o napisy postaci $\text{[math]}$ czyli sklejenie jakiegoś słowa (ciągu liter) $\text{[math]}$ z nim samym. Przykładowymi kwadratami występującymi w języku polskim są słowa mama, kankan, rowerowe, wałowało, esemesem.

Jeśli rozważamy jakieś słowo, może nas interesować, czy jest ono kwadratem, ale także czy jakieś jego podsłowo (tzn. spójny fragment) jest kwadratem. Jeżeli nie, to słowo takie nazywamy bezkwadratowym. Zastanówmy się przez chwilę nad tym, jak konstruować słowa bezkwadratowe.

Najprościej wybrać słowo, w którym wszystkie litery są różne, np. abcde... Gdyby liter w alfabecie było nieskończenie wiele, to moglibyśmy w ten sposób skonstruować dowolnie długie słowo bezkwadratowe. Nie da się ukryć, że nie jest to zbyt ciekawy przykład. No to może spróbujmy wygenerować długie słowo bezkwadratowe nad jakimś mniejszym alfabetem?

Alfabet jednoliterowy na pewno nam nie pomoże. Załóżmy więc, że mamy do dyspozycji dwie litery, a i b. Widać, że każde dwie kolejne litery w słowie bezkwadratowym muszą być różne, a zatem nasze słowo musi zaczynać się jakoś tak: aba... lub bab... Niestety, w obu tych przykładach nie możemy dołożyć już żadnej litery, gdyż wówczas otrzymamy kwadrat $\text{[math]}$ lub odpowiednio $\text{[math]}$ To oznacza, że najdłuższe słowo bezkwadratowe nad alfabetem dwuliterowym ma tylko trzy litery.

Kolejna próba: alfabet trzyliterowy. Znów konstruujemy słowo, biorąc zawsze kolejną literę różną od poprzedniej. Daje to zawsze dwie możliwości wyboru. W takim razie dodajmy warunek, że każda kolejna litera musi być różna od środkowej litery dotychczasowego słowa – dokładniej, przy wyznaczaniu $\text{[math]}$ -tej litery interesuje nas litera o indeksie $\text{[math]}$ przy czym litery słowa numerujemy od zera. Jeżeli to kryterium wciąż dopuszcza dwie możliwości, to wybieramy tę spośród niezabronionych liter, która występuje wcześniej w alfabecie. W ten sposób otrzymujemy takie oto słowo:

display-math

Okazuje się, że dowolnie długie słowo wygenerowane w ten sposób jest bezkwadratowe. Można ten fakt udowodnić formalnie, jednak w tym artykule zastosujemy podejście informatyczne natury eksperymentalnej: weźmiemy odpowiednio długie słowo tej postaci (np. złożone z miliona liter) i sprawdzimy za pomocą programu komputerowego, czy jest w tym słowie jakieś kwadratowe podsłowo. Jeśli okaże się, że nie, to zapewne wszystkie takie słowa są bezkwadratowe...

Nie jest wcale łatwo zaproponować efektywny, a zarazem nieskomplikowany algorytm sprawdzający, czy dane słowo jest bezkwadratowe – zachęcamy Czytelnika do próby samodzielnego zmierzenia się z tym problemem. Poniżej przedstawiamy elegancki algorytm o złożoności czasowej $\text{[math]}$ przy czym $\text{[math]}$ to długość badanego słowa $\text{[math]}$ wzorowany na trudno dostępnej i trochę zapomnianej pracy M. Maina i R. Lorentza sprzed 25 lat.

Zacznijmy od prostego sprawdzenia, czy w słowie $\text{[math]}$ znajduje się jakaś para równych kolejnych liter – to eliminuje nam kwadraty słów długości 1. W głównej części algorytmu wykonujemy $\text{[math]}$ kroków; w $\text{[math]}$ -tym kroku (dla $\text{[math]}$ ) sprawdzamy, czy słowo $\text{[math]}$ zawiera podsłowo kwadratowe $\text{[math]}$ takie że długość $\text{[math]}$ (oznaczenie: $\text{[math]}$ ) należy do przedziału domknięto-otwartego $\text{[math]}$ Wykonując taki krok, zakładamy, że $\text{[math]}$ nie zawiera podsłów kwadratowych o długości połówki krótszej niż rozważane w tym kroku. Naszym celem jest wykonanie każdego kroku w złożoności czasowej $\text{[math]}$

Poszukiwania żądanego kwadratu rozpoczynamy od podziału słowa $\text{[math]}$ na bloki długości $\text{[math]}$ (jeżeli nie dzieli się równo, to końcowej, krótszej grupy liter nie rozpatrujemy). Zauważmy, że jeżeli w $\text{[math]}$ występuje kwadrat $\text{[math]}$ taki że $\text{[math]}$ to pierwsze wystąpienie $\text{[math]}$ w ramach $\text{[math]}$ musi zawierać co najmniej jeden z bloków podziału. Oznaczmy ten blok przez $\text{[math]}$ To samo podsłowo pojawia się także na pozycji $\text{[math]}$ słowa $\text{[math]}$ choć to drugie wystąpienie nie musi już być blokiem podziału.

W naszym algorytmie rozważamy każdy kolejny blok $\text{[math]}$ i poszukujemy wszystkich jego wystąpień w $\text{[math]}$ zaczynających się na pozycjach z przedziału $\text{[math]}$ Co ciekawe, takie wystąpienia mogą być co najwyżej dwa. Faktycznie, żadne dwa wystąpienia $\text{[math]}$ w ramach $\text{[math]}$ nie mogą na siebie nachodzić ani nawet się stykać, gdyż wówczas wyznaczałyby one kwadrat słowa o długości nie większej niż $\text{[math]}$ (dlaczego?). Stanowiłoby to sprzeczność z założeniem, że $\text{[math]}$ nie zawiera kwadratu krótszego niż $\text{[math]}$

Dla każdego wystąpienia $\text{[math]}$ w $\text{[math]}$ na pozycji $\text{[math]}$ musimy jakoś sprawdzić, czy wystąpienia z pozycji $\text{[math]}$ oraz $\text{[math]}$ wyznaczają jakiś kwadrat $\text{[math]}$ taki że $\text{[math]}$ Poszukując takiego kwadratu, wystarczy skupić się na badaniu równości par liter słowa $\text{[math]}$ o indeksach oddalonych o $\text{[math]}$ Najpierw sprawdzamy, czy $\text{[math]}$ $\text{[math]}$ i tak dalej, aż natrafimy na parę różnych liter albo aż dalszym indeksem dojdziemy do pozycji $\text{[math]}$ co oznacza, że znaleźliśmy kwadrat. Następnie powtarzamy to postępowanie, ale tym razem idąc do przodu, tzn. sprawdzamy, jak długo zachodzi $\text{[math]}$ dla $\text{[math]}$ Tym razem możemy zatrzymać się, jeśli liczba wykonanych tutaj kroków powiększona o liczbę kroków wykonanych wcześniej jest nie mniejsza niż $\text{[math]}$ patrz rysunek. Jeżeli nie dojdziemy do wartości $\text{[math]}$ to łatwo zauważyć, że rozważana para wystąpień podsłowa $\text{[math]}$ nie wyznacza kwadratu.

Na tym rozumowaniu oparty jest poniższy pseudokod algorytmu wykrywania kwadratu w słowie $\text{[math]}$

function CzyJestKwadrat(s, n)
for

\text{[math]}

\text{[math]}

do
if

\text{[math]}

then return true;

\text{[math]}

while

\text{[math]}

\text{[math]}

while

\text{[math]}

\text{[math]}

wystąpienia

\text{[math]}

zaczynające się
na pozycjach z przedziału [j + 2l, j + 4l);
for each

\text{[math]}

do
lewo := długość najdłuższego wspólnego sufiksu słów

\text{[math]}

\text{[math]}

prawo := długość najdłuższego wspólnego prefiksu
słów

\text{[math]}

\text{[math]}

if lewo + prawo

\text{[math]}

then return true;

\text{[math]}

\text{[math]}

return false;
end function

Zastanówmy się nad złożonością czasową tego algorytmu, przy okazji uzupełniając szczegóły techniczne jego implementacji. Pierwszym interesującym miejscem jest wyznaczanie zbioru $\text{[math]}$ Znane są różne efektywne algorytmy wyszukiwania wzorca (u nas jest to słowo $\text{[math]}$ ) w tekście (u nas: zadany fragment słowa $\text{[math]}$ ), np. algorytmy Knutha–Morrisa–Pratta, Boyera–Moore’a itp. W tym miejscu czeka nas jednak kolejne zaskoczenie: otóż w naszym programie w ogóle nie musimy używać żadnego z tych wysublimowanych algorytmów! Zaczynamy od sprawdzenia, literka po literce, czy $\text{[math]}$ pasuje do $\text{[math]}$ od pozycji $\text{[math]}$ Jak w pewnym momencie zakończymy to sprawdzanie (albo znajdując wystąpienie $\text{[math]}$ albo wskutek natrafienia na parę różnych liter na odpowiadających pozycjach), to kolejną próbę przypasowania słowa $\text{[math]}$ wykonujemy od pierwszej pozycji w $\text{[math]}$ następującej za wszystkimi przejrzanymi. Faktycznie, wystąpienie słowa $\text{[math]}$ w $\text{[math]}$ nie może nachodzić na żadne inne wystąpienie niepustego prefiksu słowa $\text{[math]}$ w $\text{[math]}$ gdyż wówczas $\text{[math]}$ zawierałoby kwadrat jakiegoś prefiksu słowa $\text{[math]}$ a przecież $\text{[math]}$ W ten sposób znajdujemy szukane co najwyżej dwa elementy zbioru $\text{[math]}$ w czasie $\text{[math]}$

Kolejny ciekawy moment to wyznaczanie wartości lewo i prawo, wykonywane troszkę inaczej niż w opisie słownym algorytmu. Uzasadnienie poprawności pomijamy, przyjrzyjmy się kwestii złożoności czasowej. Łączna liczba operacji wykonywanych tutaj może być całkiem duża. Zauważmy jednak, że jeśli przy wyznaczaniu wspólnego sufiksu i prefiksu wykonamy więcej niż $\text{[math]}$ operacji, to na pewno zaraz potem zakończymy działanie algorytmu, więc możemy sobie ten jeden raz pozwolić na wykonanie nawet i rzędu $\text{[math]}$ operacji. W przeciwnym razie liczba tych operacji nie przekroczy $\text{[math]}$ która to wartość – przypomnijmy – jest nie większa niż $\text{[math]}$ czyli jest rzędu $\text{[math]}$

Widzimy zatem, że wnętrze wewnętrznej pętli while wykonujemy – poza ewentualnie jedynym jej obrotem, kończącym cały algorytm – w czasie $\text{[math]}$ Pętla ta wykonuje $\text{[math]}$ obrotów, co pokazuje, że koszt czasowy jednego obrotu zewnętrznej pętli while to $\text{[math]}$ Ta, z kolei, wykonuje co najwyżej $\text{[math]}$ obrotów, skąd wnosimy, że rzeczywiście opisany algorytm ma złożoność czasową $\text{[math]}$

Na koniec pytanie do Czytelnika: czy można ten algorytm jakoś łatwo przerobić, tak aby wykrywał wszystkie kwadraty w słowie?