O rybach i ufności
W poprzednim numerze Delty przedstawiliśmy zgrabną metodę szacowania liczby ryb pływających w stawie. Przypomnijmy doświadczenie, na którym ta metoda się opierała: najpierw łowimy rybkę, potem rysujemy jej kreskę na ogonku, następnie na kartce zapisujemy liczbę kresek, jakie widzimy na ogonku trzymanej w ręce rybki, po czym wrzucamy ją z powrotem do stawu i całą procedurę powtarzamy razy.
Niech będzie (nieznaną) liczbą ryb pływających w jeziorze. Poprzednio wykazaliśmy, że prawdopodobieństwo uzyskania na kartce konkretnego ciągu wynosi gdzie jest liczbą jedynek w tym ciągu (tzn. liczbą różnych, złowionych przez nas ryb), zaś jest czynnikiem niezależnym od Wynika stąd, że jest statystyką dostateczną i zawiera całą dostępną nam informację o Niech oznacza prawdopodobieństwo wyłowienia dokładnie różnych ryb. Nietrudno przekonać się, że gdzie jest liczbą podziałów zbioru -elementowego na rozłącznych podzbiorów (na tyle sposobów możemy złowić różnych ryb przy połowach). Wybierzmy teraz "małą" liczbę (na przykład ) i zdefiniujmy przedział w następujący sposób:
Wynika stąd, że
(1) |
Nierówność (1) mówi o tym, że z "dużym prawdopodobieństwem" losowa wielkość należy do przedziału który zależy od nieznanego Na rysunku pionowe odcinki przedstawiają przedziały obliczone dla i różnych wartości (od 1 do 50). Przykładowo, dla mamy i
Przedstawione zależności wynikają z patrzenia na nasz rysunek pionowo, czyli dla różnych, ale ustalonych wartości To jest punkt widzenia probabilisty. Punkt widzenia statystyka jest poziomy. Rozpatrujemy ustaloną (bo zaobserwowaną) wartość Zdefiniujmy dwie zależne od liczby "na osi poziomej":
Na przykład, dla mamy i Przedział na "wysokości" jest na rysunku wyróżniony.
Doszliśmy teraz do najważniejszego miejsca naszych rozważań. Chwila zastanowienia prowadzi do wniosku, że następujące dwa warunki są równoważne:
W istocie, wynika to z definicji i z faktu, że obie funkcje są niemalejące, co nietrudno sprawdzić. Wynika stąd zatem, że dla każdego
(2) |
Nierówność (2) mówi o tym, że dla dowolnego przedział zawiera nieznaną liczbę z dużym prawdopodobieństwem. Ten przedział możemy obliczyć, bo znamy Wspaniale! Wróćmy do naszych przykładowych danych, które pojawiły się na początku artykułu. Dla (i ustalonego ), przypomnijmy, A więc wydaje się, że następujące stwierdzenie jest zgodne z tym, co było powiedziane.
): Przedział zawiera nieznaną liczbę z prawdopodobieństwem co najmniej
Ale, ale, chyba się zagalopowaliśmy. Jeśli liczba nie jest zmienną losową, to powyższe zdanie jest bezsensowne. Przedział albo zawiera albo nie. Jak się jezioro osuszy, to się wyjaśni. Bez osuszania jeziora musimy nasz wniosek sformułować inaczej.
(: Przedział jest przedziałem ufności dla nieznanej liczby na poziomie ufności
Jeśli o prawdopodobieństwie nie możemy mówić, to zastępujemy termin "prawdopodobieństwo" terminem "ufność". Matematyczną definicją przedziału ufności jest nierówność (2). Kłopot w tym, że prawdopodobieństwo we wzorze (2) opisuje niepewność wyniku doświadczenia, w tym przypadku wyłowienia różnych ryb, przed wykonaniem doświadczenia (przed połowem). Jak więc interpretować przedział obliczony po wyłowieniu ryb?
- Przedział ufności na poziomie jest to przedział obliczony na podstawie wyniku doświadczenia losowego w taki sposób, że jeśliby powtarzać doświadczenie wielokrotnie, to dla przynajmniej doświadczeń, przedział obliczony tą samą metodą zawierałby nieznany parametr.
Zwróćmy uwagę, jaką rolę w interpretacji przedziału ufności odgrywają zdania warunkowe i tryb przypuszczający. Jest to charakterystyczny dla Statystyka sposób myślenia - po wykonaniu doświadczenia losowego zastanawia się on: "z jakim prawdopodobieństwem to czy tamto by się mogło zdarzyć, gdyby nie to, że już się zdarzyło".