Omega

Entropia: nieporządek czy fantazja?

Termin entropia występuje w tak wielu dziedzinach nauki, że nie mogło zabraknąć go i w rachunku prawdopodobieństwa. Na ogół dużą entropię kojarzymy słusznie z nieporządkiem, wręcz bałaganem (który ma jedną miłą cechę – jest stanem stabilnym, co nie powinno dziwić, bo w pobliżu maksimum entropii żadne wysiłki już jej znacząco nie zwiększą).

W teorii prawdopodobieństwa może lepiej mówić o niepewności lub różnorodności, związanej z rozkładem. Dla prostoty zajmiemy się rozkładami dyskretnymi: niech liczby $\text{[math]}$ wyznaczają rozkład prawdopodobieństwa, zatem $\text{[math]}$ $\text{[math]}$ dla $\text{[math]}$ Wartości liczbowe skojarzone z prawdopodobieństwami $\text{[math]}$ są zupełnie nieistotne; zresztą nie muszą to być liczby, a mogą to być, na przykład, imiona pań, które pojawiły się na pewnym protokole egzaminacyjnym. Imion tych było $\text{[math]}$ Gdybyśmy chcieli odgadnąć, jak ma na imię losowo wybrana dziewczyna, znając możliwe imiona i zadając pytania, na które można odpowiedzieć tak/nie, to 5 pytań mogłoby nie wystarczyć ( $\text{[math]}$ ), ale 6 pytań wystarczy na pewno, bo wszystkich możliwych ciągów odpowiedzi jest $\text{[math]}$ Czytelnik na pewno wie, jak rozsądnie zadawać pytania, żeby ich średnia liczba mieściła się pomiędzy 5 i 6.

Kluczową rolę w tym rozumowaniu odgrywała nierówność

display-math

równoważna z

display-math

czyli

display-math

Można zatem podejrzewać, że logarytm dwójkowy z liczby możliwości $\text{[math]}$ faktycznie jakoś mierzy różnorodność. Ale przecież nie wzięliśmy pod uwagę tego, że imiona występują z rozmaitymi częstościami. W naszym protokole cztery najczęstsze imiona to Anna – 14%, Joanna, Katarzyna i Magdalena – po 8%. Jak można z tego skorzystać przy zadawaniu pytań?

Rozważmy prostszą sytuację. Jeśli są tylko cztery imiona: Agnieszka, Barbara, Celina i Dorota, pojawiające się jednakowo często, to średnio (i zawsze) potrzebne są 2 pytania. Niech teraz A ma częstość 50%, B – 25%, C i D – po 12,5%. Każdy widzi, że z prawdopodobieństwem $\text{[math]}$ wystarczy jedno pytanie, $\text{[math]}$ – dwa, $\text{[math]}$ – trzy. Średnio jest $\text{[math]}$ pytania.

Zapiszmy tę średnią tak:

$pict$

Średnia liczba pytań okazała się równa

display-math

i to jest właśnie entropia rozkładu prawdopodobieństwa. Można udowodnić, że

display-math

(*)

zatem entropia $\text{[math]}$ jest dolnym ograniczeniem średniej liczby pytań $\text{[math]}$ Entropia jest największa, gdy wszystkie $\text{[math]}$ są równe. Wynika to z wklęsłości funkcji $\text{[math]}$ i nierówności Jensena:

display-math

gdzie liczby $\text{[math]}$ są dodatnie i dają w sumie 1.

W takim razie

$pict$

Jasne jest, że $\text{[math]}$ gdy $\text{[math]}$ $\text{[math]}$

W przypadku 45. imion z protokołu faktyczna entropia jest równa 4,76, podczas gdy maksymalna możliwa to $\text{[math]}$ ; niewielka różnica obu liczb świadczy o dużej fantazji rodziców przy nadawaniu imion dziewczynkom.

Pozostaje pytanie, czy jest prosty sposób na zadawanie pytań tak, by spełniona była nierówność (*). O tym za miesiąc – doprowadzi nas to do tak zwanego kodu Huffmana (dajemy słowo honoru, że Leonardo da Vinci nie mógł go znać).