Przeskocz do treści

Delta mi!

Omega

Entropia: nieporządek czy fantazja?

Rafał Sztencel

o artykule ...

  • Publikacja w Delcie: grudzień 2006
  • Publikacja elektroniczna: 08-04-2011
  • Autor: Rafał Sztencel
    Notka biograficzna: Rafał Sztencel (1953-2008) - były pracownik Instytutu Matematyki UW i wieloletni współpracownik Delty.

Termin entropia występuje w tak wielu dziedzinach nauki, że nie mogło zabraknąć go i w rachunku prawdopodobieństwa. Na ogół dużą entropię kojarzymy słusznie z nieporządkiem, wręcz bałaganem (który ma jedną miłą cechę – jest stanem stabilnym, co nie powinno dziwić, bo w pobliżu maksimum entropii żadne wysiłki już jej znacząco nie zwiększą).

W teorii prawdopodobieństwa może lepiej mówić o niepewności lub różnorodności, związanej z rozkładem. Dla prostoty zajmiemy się rozkładami dyskretnymi: niech liczby math wyznaczają rozkład prawdopodobieństwa, zatem math  math dla math Wartości liczbowe skojarzone z prawdopodobieństwami math są zupełnie nieistotne; zresztą nie muszą to być liczby, a mogą to być, na przykład, imiona pań, które pojawiły się na pewnym protokole egzaminacyjnym. Imion tych było math Gdybyśmy chcieli odgadnąć, jak ma na imię losowo wybrana dziewczyna, znając możliwe imiona i zadając pytania, na które można odpowiedzieć tak/nie, to 5 pytań mogłoby nie wystarczyć ( math), ale 6 pytań wystarczy na pewno, bo wszystkich możliwych ciągów odpowiedzi jest math Czytelnik na pewno wie, jak rozsądnie zadawać pytania, żeby ich średnia liczba mieściła się pomiędzy 5 i 6.

Kluczową rolę w tym rozumowaniu odgrywała nierówność

display-math

równoważna z

display-math

czyli

display-math

Można zatem podejrzewać, że logarytm dwójkowy z liczby możliwości math faktycznie jakoś mierzy różnorodność. Ale przecież nie wzięliśmy pod uwagę tego, że imiona występują z rozmaitymi częstościami. W naszym protokole cztery najczęstsze imiona to Anna – 14%, Joanna, Katarzyna i Magdalena – po 8%. Jak można z tego skorzystać przy zadawaniu pytań?

obrazek

Rozważmy prostszą sytuację. Jeśli są tylko cztery imiona: Agnieszka, Barbara, Celina i Dorota, pojawiające się jednakowo często, to średnio (i zawsze) potrzebne są 2 pytania. Niech teraz A ma częstość 50%, B – 25%, C i D – po 12,5%. Każdy widzi, że z prawdopodobieństwem math wystarczy jedno pytanie, math – dwa, math – trzy. Średnio jest math pytania.

Zapiszmy tę średnią tak:

pict

Średnia liczba pytań okazała się równa

display-math

i to jest właśnie entropia rozkładu prawdopodobieństwa. Można udowodnić, że

display-math(*)

zatem entropia math  jest dolnym ograniczeniem średniej liczby pytań math Entropia jest największa, gdy wszystkie math są równe. Wynika to z wklęsłości funkcji math i nierówności Jensena:

display-math

gdzie liczby math są dodatnie i dają w sumie 1.

W takim razie

pict

Jasne jest, że math  gdy math  math

W przypadku 45. imion z protokołu faktyczna entropia jest równa 4,76, podczas gdy maksymalna możliwa to math; niewielka różnica obu liczb świadczy o dużej fantazji rodziców przy nadawaniu imion dziewczynkom.

Pozostaje pytanie, czy jest prosty sposób na zadawanie pytań tak, by spełniona była nierówność (*). O tym za miesiąc – doprowadzi nas to do tak zwanego kodu Huffmana (dajemy słowo honoru, że Leonardo da Vinci nie mógł go znać).