Omega
Entropia: nieporządek czy fantazja?
Termin entropia występuje w tak wielu dziedzinach nauki, że nie mogło zabraknąć go i w rachunku prawdopodobieństwa. Na ogół dużą entropię kojarzymy słusznie z nieporządkiem, wręcz bałaganem (który ma jedną miłą cechę – jest stanem stabilnym, co nie powinno dziwić, bo w pobliżu maksimum entropii żadne wysiłki już jej znacząco nie zwiększą).
W teorii prawdopodobieństwa może lepiej mówić o niepewności lub
różnorodności, związanej z rozkładem. Dla prostoty zajmiemy się
rozkładami dyskretnymi: niech liczby
wyznaczają rozkład
prawdopodobieństwa, zatem
dla
Wartości liczbowe skojarzone z prawdopodobieństwami
są zupełnie nieistotne; zresztą nie muszą to być liczby, a mogą to być,
na przykład, imiona pań, które pojawiły się na pewnym protokole
egzaminacyjnym. Imion tych było
Gdybyśmy chcieli odgadnąć,
jak ma na imię losowo wybrana dziewczyna, znając możliwe imiona i zadając
pytania, na które można odpowiedzieć tak/nie, to 5 pytań mogłoby nie
wystarczyć (
), ale 6 pytań wystarczy na pewno, bo wszystkich
możliwych ciągów odpowiedzi jest
Czytelnik na pewno wie,
jak rozsądnie zadawać pytania, żeby ich średnia liczba mieściła się pomiędzy
5 i 6.
Kluczową rolę w tym rozumowaniu odgrywała nierówność

równoważna z

czyli

Można zatem podejrzewać, że logarytm dwójkowy z liczby możliwości
faktycznie jakoś mierzy różnorodność. Ale przecież nie
wzięliśmy pod uwagę tego, że imiona występują z rozmaitymi częstościami.
W naszym protokole cztery najczęstsze imiona to Anna – 14%, Joanna, Katarzyna
i Magdalena – po 8%. Jak można z tego skorzystać przy zadawaniu
pytań?

Rozważmy prostszą sytuację. Jeśli są tylko cztery imiona: Agnieszka,
Barbara, Celina i Dorota, pojawiające się jednakowo często, to średnio
(i zawsze) potrzebne są 2 pytania. Niech teraz A ma częstość 50%, B –
25%, C i D – po 12,5%. Każdy widzi, że z prawdopodobieństwem
wystarczy jedno pytanie,
– dwa,
– trzy. Średnio jest
pytania.
Zapiszmy tę średnią tak:

Średnia liczba pytań okazała się równa

i to jest właśnie entropia rozkładu prawdopodobieństwa. Można udowodnić, że
![]() | (*) |
zatem entropia
jest dolnym ograniczeniem średniej liczby pytań
Entropia jest największa, gdy wszystkie
są równe.
Wynika to z wklęsłości funkcji
i nierówności
Jensena:

gdzie liczby
są dodatnie i dają w sumie 1.
W takim razie

Jasne jest, że
gdy
W przypadku 45. imion z protokołu faktyczna entropia jest równa 4,76,
podczas gdy maksymalna możliwa to
; niewielka różnica
obu liczb świadczy o dużej fantazji rodziców przy nadawaniu imion
dziewczynkom.
Pozostaje pytanie, czy jest prosty sposób na zadawanie pytań tak, by spełniona była nierówność (*). O tym za miesiąc – doprowadzi nas to do tak zwanego kodu Huffmana (dajemy słowo honoru, że Leonardo da Vinci nie mógł go znać).