O rybach i ufności
W poprzednim numerze Delty przedstawiliśmy zgrabną metodę szacowania liczby ryb pływających w stawie. Przypomnijmy doświadczenie, na którym ta metoda się opierała: najpierw łowimy rybkę, potem rysujemy jej kreskę na ogonku, następnie na kartce zapisujemy liczbę kresek, jakie widzimy na ogonku trzymanej w ręce rybki, po czym wrzucamy ją z powrotem do stawu i całą procedurę powtarzamy razy.

Niech będzie (nieznaną) liczbą ryb pływających w jeziorze. Poprzednio wykazaliśmy, że prawdopodobieństwo uzyskania na kartce konkretnego ciągu
wynosi
gdzie
jest liczbą jedynek w tym ciągu (tzn. liczbą różnych, złowionych przez nas ryb), zaś
jest czynnikiem niezależnym od
Wynika stąd, że
jest statystyką dostateczną i zawiera całą dostępną nam informację o
Niech
oznacza prawdopodobieństwo wyłowienia dokładnie
różnych ryb. Nietrudno przekonać się, że
gdzie
jest liczbą podziałów zbioru
-elementowego na
rozłącznych podzbiorów (na tyle sposobów możemy złowić
różnych ryb przy
połowach). Wybierzmy teraz "małą" liczbę
(na przykład
) i zdefiniujmy przedział
w następujący sposób:


Konstrukcja przedziału ufności dla i
na poziomie
Pionowe linie są przedziałami o prawdopodobieństwie (co najmniej) 90%. Przedział dla
został wyróżniony tylko dla ułatwienia objaśnień. Poziomy odcinek jest przedziałem ufności.
Wynika stąd, że
![]() |
(1) |
Nierówność (1) mówi o tym, że z "dużym prawdopodobieństwem" losowa wielkość
należy do przedziału
który zależy od nieznanego
Na rysunku pionowe odcinki przedstawiają przedziały obliczone dla
i różnych wartości
(od 1 do 50). Przykładowo, dla
mamy
i
Przedstawione zależności wynikają z patrzenia na nasz rysunek pionowo, czyli dla różnych, ale ustalonych wartości To jest punkt widzenia probabilisty. Punkt widzenia statystyka jest poziomy. Rozpatrujemy ustaloną (bo zaobserwowaną) wartość
Zdefiniujmy dwie zależne od
liczby "na osi poziomej":

Na przykład, dla mamy
i
Przedział
na "wysokości"
jest na rysunku wyróżniony.
Doszliśmy teraz do najważniejszego miejsca naszych rozważań. Chwila zastanowienia prowadzi do wniosku, że następujące dwa warunki są równoważne:

W istocie, wynika to z definicji i z faktu, że obie funkcje
są niemalejące, co nietrudno sprawdzić. Wynika stąd zatem, że dla każdego
![]() |
(2) |
Nierówność (2) mówi o tym, że dla dowolnego przedział
zawiera nieznaną liczbę
z dużym prawdopodobieństwem. Ten przedział możemy obliczyć, bo znamy
Wspaniale! Wróćmy do naszych przykładowych danych, które pojawiły się na początku artykułu. Dla
(i ustalonego
), przypomnijmy,
A więc wydaje się, że następujące stwierdzenie jest zgodne z tym, co było powiedziane.
): Przedział zawiera nieznaną liczbę
z prawdopodobieństwem co najmniej
Ale, ale, chyba się zagalopowaliśmy. Jeśli liczba nie jest zmienną losową, to powyższe zdanie jest bezsensowne. Przedział
albo zawiera
albo nie. Jak się jezioro osuszy, to się wyjaśni. Bez osuszania jeziora musimy nasz wniosek sformułować inaczej.
(: Przedział jest przedziałem ufności dla nieznanej liczby
na poziomie ufności
Jeśli o prawdopodobieństwie nie możemy mówić, to zastępujemy termin "prawdopodobieństwo" terminem "ufność". Matematyczną definicją przedziału ufności jest nierówność (2). Kłopot w tym, że prawdopodobieństwo we wzorze (2) opisuje niepewność wyniku doświadczenia, w tym przypadku wyłowienia różnych ryb, przed wykonaniem doświadczenia (przed połowem). Jak więc interpretować przedział
obliczony po wyłowieniu
ryb?
- Przedział ufności na poziomie
jest to przedział obliczony na podstawie wyniku doświadczenia losowego w taki sposób, że jeśliby powtarzać doświadczenie wielokrotnie, to dla przynajmniej
doświadczeń, przedział obliczony tą samą metodą zawierałby nieznany parametr.
Zwróćmy uwagę, jaką rolę w interpretacji przedziału ufności odgrywają zdania warunkowe i tryb przypuszczający. Jest to charakterystyczny dla Statystyka sposób myślenia - po wykonaniu doświadczenia losowego zastanawia się on: "z jakim prawdopodobieństwem to czy tamto by się mogło zdarzyć, gdyby nie to, że już się zdarzyło".