Przeskocz do treści

Delta mi!

Liczenie ryb w jeziorze metodą statystyczną i śliczną, choć probabilistyczną

Wojciech Niemiro

o artykule ...

  • Publikacja w Delcie: lipiec 2017
  • Publikacja elektroniczna: 30 czerwca 2017
  • Autor: Wojciech Niemiro
    Afiliacja: Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika, Toruń; Instytut Matematyki Stosowanej i Mechaniki, Uniwersytet Warszawski
  • Wersja do druku [application/pdf]: (142 KB)

W jeziorze pływa |r ryb, ale liczby r nie znamy. Chcielibyśmy tę liczbę oszacować, nie uciekając się do osuszenia jeziora. Powiedzmy, że dysponujemy wędką, puszką farby i odrobiną wiedzy ze statystyki. Łowimy sobie jedną rybkę po drugiej i wrzucamy z powrotem do jeziora, krzywdy żadnej rybce nie czyniąc. Przed wrzuceniem do wody malujemy rybce kreseczkę na ogonku...

obrazek

Rybka złowiona powtórnie otrzymuje drugą kreseczkę. Jeśli zdarzy się złowić tę samą rybkę trzeci raz, domalowujemy trzecią kreseczkę i tak dalej. Wyniki naszych połowów zapisujemy w postaci ciągu x = (x1,...,xn), gdzie |x i oznacza liczbę kresek na ogonku i-tej złowionej ryby przed wrzuceniem do jeziora. Jeśli, na przykład,

x = (1,1,2,1,3,1,1,1,1,2,1,1,2,3,4,1,1,1,1,2,1,1,2,3,2),

to powtarzaliśmy połów 25 razy, złowiliśmy 15 różnych ryb, w tym jedną czterokrotnie, dwie trzykrotnie i trzy dwukrotnie. Jasne, że ciąg  x zawiera pewną informację o nieznanej liczbie |r. Duża liczba wyrazów ciągu różnych od jedynki (czyli ryb złowionych wielokrotnie) wskazuje na to, że |r jest "prawdopodobnie małe". Postaram się pokazać, jak to intuicyjne rozumowanie uściślić i sformułować wnioski w bardziej konkretnej, ilościowej postaci. Przy okazji zaprezentuję kilka ważnych idei, stojących u podstaw statystyki matematycznej.

Model probabilistyczny

Oczywiście, życie w jeziorze jest bardziej skomplikowane niż matematyka. Żeby coś obliczyć i przeprowadzić porządne rozumowanie, trzeba przyjąć szereg upraszczających założeń.

  • Załóżmy, że liczba |r jest niezmienna (ryby nie giną ani nie rozmnażają się).
  • Pomiędzy kolejnymi połowami ryby całkowicie "mieszają się". Mówiąc dokładniej, zakładamy, że w każdym kolejnym połowie prawdopodobieństwo wyciągnięcia każdej z ryb jest jednakowe, równe 1/r.

Wyidealizowany model pozwala obliczyć prawdopodobieństwo otrzymania konkretnego wyniku połowu. Niech symbol Pr(x) oznacza prawdopodobieństwo otrzymania wyniku x przy założeniu, że nieznana liczba ryb jest równa |r. Dla przykładowych danych przytoczonych powyżej mamy

Pr(x) = Pr(1,1,2,1,3,1,1,1,1,2,1,1,2,3,4,1,1,1,1,2,1,1,2,3,2) = r r− 1 2 r− 2 1 r − 3 r − 4 11 3 10 = - ⋅---- ⋅-⋅ ----⋅ -⋅-----⋅-----⋅...⋅-- ⋅--⋅--= r r r r r r r r r r r(r−-1)⋅...⋅(r-−14)- = r25 ⋅(2⋅1 ⋅6 ⋅7⋅2 ⋅2⋅10 ⋅11 ⋅3 ⋅10) = (r) = ---15⋅1108800, r25

gdzie użyliśmy oznaczenia |(r)m= r(r −1) ⋅...⋅(r − m Zauważmy, że 15 jest liczbą jedynek w ciągu x (liczbą różnych złowionych ryb). Łatwo wyjaśnić wyżej napisany wzór, przyglądając się kolejnym ułamkom w drugiej linii:

1.
Pierwszy wyraz ciągu, x1, zawsze musi być równy 1 : na początku w jeziorze pływa r ryb i wszystkie są nieoznakowane. Pierwszy czynnik jest równy  r |r = 1.
2.
Po pierwszym połowie w jeziorze pływa r −1 ryb nieoznakowanych i jedna ryba oznaczona jedną kreską. Stąd prawdopodobieństwo otrzymania |x2 = 1 (wyłowienia nowej rybki) wynosi  r− 1 --r-.
3.
Jeśli |x = 1 1 i |x = 1, 2 to po drugim połowie w jeziorze pływa r −2 ryb nieoznakowanych i dwie ryby oznaczone jedną kreską. Prawdopodobieństwo otrzymania x3 = 2 (wyłowienia oznakowanej rybki) wynosi więc 2r.
4.
Jeśli |x1 = 1,x2 = 1 i |x3 = 2, to po trzecim połowie w jeziorze pływa r− 2 ryb nieoznakowanych. Prawdopodobieństwo otrzymania |x4 = 1 (wyłowienia jednej z tych nieoznakowanych) wynosi |r−2-. r
5.
Jeśli x1 = 1,x2 = 1,x3 = 2 i x4 = 1, to po czwartym połowie w jeziorze pływa jedna ryba oznaczona dwiema kreskami. Prawdopodobieństwo otrzymania |x5 = 3 (wyłowienia właśnie tej rybki) wynosi 1. r

I tak dalej. Proponuję, żeby Czytelnik samodzielnie prześledził pochodzenie dalszych ułamków w naszym wzorze.

Wiarygodność

Wielkość Pr(x) jest funkcją dwóch argumentów: |x jest wynikiem doświadczenia losowego, a r jest nazywane parametrem. Możliwe są dwa punkty widzenia, charakteryzujące dwie różne dziedziny matematyki.

  • Jeśli r jest ustalone (w domyśle - znane), to |P (x) r rozważane jako funkcja argumentu x nazywa się prawdopodobieństwem (dokładniej - rozkładem prawdopodonieństwa). To jest punkt widzenia probabilistów.
  • Jeśli x jest ustalone (w domyśle - znane), to |Pr(x) rozważane jako funkcja argumentu |r nazywa się wiarygodnością. To jest punkt widzenia statystyków matematycznych.

W języku potocznym prawdopodobieństwo i wiarygodność są niemal synonimami, ale w naszych rozważaniach różnica między tymi pojęciami jest istotna. Zadanie, które postawiliśmy na początku tego artykułu: oszacowanie nieznanej liczby |r na podstawie obserwacji x - należy do domeny statystyki.

obrazek

Wykres wiarygodności dla m i |n 25. Grubsza czarna linia wskazuje ENW ˆr 21.

Wykres wiarygodności dla m i |n 25. Grubsza czarna linia wskazuje ENW ˆr 21.

Nasuwa się pomysł, że rozsądnym oszacowaniem parametru r jest taka wartość |ˆr, która maksymalizuje wiarygodność

Pˆr(x) = maxr Pr(x).

Mówimy, że ˆr jest estymatorem największej wiarygodności (ENW). Wróćmy do naszego przykładu. Dla ciągu x, przytoczonego na początku artykułu, wiarygodność osiąga maksimum dla |r = 21. Chciałoby się powiedzieć, że "21 jest najbardziej prawdopodobną liczbą ryb". Ale, ale! Nie wolno tak mówić! W naszym modelu |r nie jest wynikiem jakiegoś doświadczenia losowego, a więc nie można mówić o "prawdopodobieństwie otrzymania |r". Wobec tego statystycy mówią: "21 jest najbardziej wiarygodną liczbą ryb". Jest to wybieg językowy, który ukrywa dość zawiłą i niewygodną interpretację ENW. "Najbardziej prawdopodobny" po prostu znaczy "najczęściej pojawiający się w wielokrotnych powtórzeniach doświadczenia losowego". Ale co znaczy "najbardziej wiarygodny"?

  • ENW to jest taka wartość parametru, dla której, jeśliby wielokrotnie powtarzać doświadczenie losowe, to częściej otrzymywalibyśmy taki wynik, jaki w rzeczywistości otrzymaliśmy, w porównaniu z innymi możliwymi wartościami parametru.

Dostateczność

Jak wynika z naszych dotychczasowych rozważań, wzór na wiarygodność w naszym rybackim zadaniu ma postać

Pr(x) = Pr(x1,...,xn) = (r)m-⋅g(x), rn

gdzie m jest liczbą jedynek w ciągu |x, zaś |g(x) jest funkcją |x, niezależącą od nieznanego |r. Co prawda, ta funkcja jest raczej skomplikowana, ale nie będzie nam potrzebna! Zauważmy, że ENW możemy obliczyć, maksymalizując wyrażenie |Pr(x) z pominiętym czynnikiem |g(x). W rezultacie otrzymane oszacowanie ˆr = ˆr(x) zależy tylko od |m Okazuje się, że tylko m, liczba jedynek, zawiera informację o nieznanej liczbie |r, wszystkie inne wielkości związane z wektorem |x = (x1,...,xn) są nieistotne! Mówimy, że m jest statystyką dostateczną. Następujące piękne rozumowanie przekona nas, że tak jest naprawdę. Ponieważ mamy

P(x r) = L(r,m(x))

dla pewnej funkcji |L(r,m), to zgodnie z definicją prawdopodobieństwa warunkowego

pict

Prawdopodobieństwo warunkowe P | (x m) r nie zależy od r, | dlatego na końcu opuściliśmy indeks r. Przeprowadźmy następujące doświadczenie myślowe. Wyobraźmy sobie, że po dokonaniu połowu zapamiętaliśmy liczbę |m a potem zgubiliśmy kartkę z zapisanym wektorem x. Możemy odtworzyć zgubiony wynik doświadczenia, znając tylko m. Wylosujemy mianowicie fikcyjny wynik  ′ |x z prawdopodobieństwem  ′ |P(x m), bo do tego nie jest potrzebna znajomość r. Chwila zastanowienia prowadzi do wniosku, że x′ ma ten sam rozkład prawdopodobieństwa co x. Skoro sposób naszego losowania nie zależał już od |r, to uzyskany wynik nie mógł ze sobą nieść żadnej dodatkowej informacji o r. W tej sytuacji cała nasza wiedza o tym parametrze musi być "ukryta" w liczbie |m!

Na zakończenie dodam, że tytuł tego artykułu zapożyczyłem z pięknego opowiadania Stanisława Lema O królewiczu Ferrycym i królewnie Krystali - opowieść z cyklu Dzieła Cyfrotikon, czyli o dewijacyach, superfiksacyach, a waryacyach serdecznych.