Testy serii

W języku potocznym spotykamy się czasem ze słowem seria, które może oznaczać zbiór jednakowych lub w pewien sposób powiązanych ze sobą przedmiotów, jak np. seria znaczków pocztowych czy seria wyrobów przemysłowych. Serią nazywamy również ciąg następujących po sobie czynności lub zdarzeń - w tym sensie rozumie się tzw. czarną serię wypadków, serię wystrzałów itp. Pojęcie serii okazuje się być przydatne także w matematyce. Zanim przedstawimy ciekawe zastosowania serii do konstrukcji użytecznych testów statystycznych, uściślijmy, co będziemy rozumieć pod pojęciem serii.

Załóżmy, że mamy $|n$ obiektów dwojakiego rodzaju, w tym $|n1⩾ 1$ obiektów pierwszego oraz $n2 ⩾ 1$ obiektów drugiego rodzaju, przy czym $n1 + n2 = n.$ Przyjmijmy ponadto, że jesteśmy w stanie w jakiś sposób uporządkować te obiekty. Odtąd natura owych obiektów nie będzie mieć już dla nas znaczenia. Nie będziemy ich też rozróżniać, pamiętając jedynie to, jakiego są one rodzaju. W ten sposób otrzymujemy pewien ciąg symboli, np.:

,N,N,N,N,F,N,F,N,N,N,F,N,F,N,N,N,N,N,F,F. N

Powyższy ciąg odzwierciedla wyniki pojedynków tenisowych między Rogerem Federerem i Rafaelem Nadalem (w turniejach wielkoszlemowych, ATP i Pucharu Davisa) w ciągu ostatnich dziewięciu lat, przy czym symbole $|F$ i $N$ oznaczają, odpowiednio, zwycięstwo Federera i Nadala.

Mając taki ciąg symboli, serią nazywamy podciąg symboli tego samego rodzaju, który poprzedza i po którym występuje symbol innego rodzaju (lub żaden symbol, w przypadku pierwszej i ostatniej serii). Łatwo zauważyć, że w rozważanym powyżej ciągu mamy 10 serii:

,N,N,N,N,N,N,N,N,N,N N------------,F,N-,F,N-------,F,N-,F,N------------,F,F.

Okazuje się, że liczba serii występujących w badanym ciągu obiektów dostarcza informacji, które mogą być przydatne we wnioskowaniu statystycznym, co wykażemy, przedstawiając konstrukcję dwóch testów i ilustrując ich działanie na przykładach.

Rozpoczniemy od testu równości dwóch rozkładów. Załóżmy, że mamy dwie niezależne próbki losowe $1,...,Xn1 X$ i $Y1,...,Yn2$ składające się z niezależnych obserwacji. Interesuje nas, czy rozkłady, z których pochodzą te próbki, różnią się istotnie. Zakładając, że wśród obserwacji nie ma powtarzających się wartości, możemy ustawić je w ciąg rosnący. Jeśli teraz pominiemy wartości obserwacji, a pozostawimy tylko etykiety, wskazujące, czy dany pomiar związany był z pierwszą czy z drugą próbką, otrzymamy ciąg $|n$ symboli złożony z iksów i igreków, gdzie $n = n + n . 1 2$ Przykładowo, dla $|n1 = 5$ oraz $|n2 = 4,$ moglibyśmy otrzymać

,Y,X,X,Y,Y,X,X, Y ,X

(1)

co oznaczałoby, że najmniejsza obserwacja należy do próbki igreków, druga co do wielkości - do iksów itd., aż po największą obserwację, która także pochodzi z pierwszej próbki. Zauważmy, że to, jak rozłożą się iksy i igreki, może nam sporo powiedzieć na temat rozkładów obu próbek. Faktycznie, gdybyśmy otrzymali

,X,X,X,X,Y,Y,Y,Y, X

(2)

byłby to sygnał sugerujący, że iksy są zasadniczo mniejsze niż igreki. Z kolei następująca konfiguracja

,X,X,X,X,Y,Y Y,Y ,X

(3)

wskazywałaby, że igreki pochodzą z rozkładu charakteryzującego się większym rozrzutem niż rozkład iksów. Natomiast ciąg postaci

,Y,X,Y,X,Y,X,Y,X X

świadczyłby o dobrym wymieszaniu obserwacji obu próbek. Ostatni przykład, w przeciwieństwie do dwóch poprzednich, mógłby sugerować, że obie próbki pochodzą z tego samego rozkładu. Zauważmy, że w tym ostatnim ciągu występuje aż 9 serii, podczas gdy w ciągach (2) i (3) mieliśmy, odpowiednio, tylko 2 i 3 serie. Biorąc pod uwagę wspomniane wyżej interpretacje poszczególnych ciągów, możemy wysnuć przypuszczenie, że gdy w ciągu otrzymanym z połączenia obu próbek jest mało serii, to wskazuje to raczej na istotne różnice między rozkładami obu próbek, podczas gdy duża liczba serii może sugerować, że obie próbki pochodzą de facto z tego samego rozkładu. Tego typu spostrzeżenia nasunęły Abrahamowi Waldowi i Jakubowi Wolfowitzowi pomysł konstrukcji następującego testu statystycznego: jeśli liczba serii występujących w ciągu otrzymanym z połączonych próbek jest mała, to odrzucamy hipotezę mówiącą o braku różnic między rozkładami, natomiast w przeciwnym przypadku, tzn. gdy liczba serii jest duża, nie mamy podstaw do odrzucenia rozważanej hipotezy, co w praktyce oznacza stwierdzenie braku istotnej różnicy między rozkładami.

W tym miejscu konieczne jest poczynienie pewnych uwag. Po pierwsze, musimy być świadomi, że nawet gdyby obie próbki pochodziły z tego samego rozkładu, możliwe jest otrzymanie konfiguracji zawierającej małą liczbę serii, a więc np. tego typu, jak w (2) i (3). Na szczęście, jak się okazuje, jest to mało prawdopodobne. Druga uwaga dotyczy interpretacji słów duża bądź mała liczba serii. Co to, tak naprawdę, znaczy? Owszem, w rozważanym przykładzie maksymalna możliwa liczba serii wynosi 9, ale czy liczba serii równa 6, jak w przypadku (1), oznacza już dużą czy wciąż jeszcze małą liczbę serii? Do odpowiedzi na to pytanie posłuży nam rachunek prawdopodobieństwa.

Niech $|R$ oznacza liczbę serii występujących w rozważanym ciągu symboli. Oczywiście, liczba serii nie może być mniejsza niż liczba różnych symboli w ciągu, a zarazem większa niż łączna liczba obserwacji w obu próbkach, tzn. $2 ⩽R ⩽ n.$ Jako kryterium rozdzielające małą i dużą liczbę serii przyjmiemy pewną wartość krytyczną $kα,$ czyli taką największą liczbę całkowitą, dla której - przy założeniu prawdziwości testowanej hipotezy (o braku różnic między rozkładami obu próbek) - zachodzi

P(R ⩽ kα)⩽ α ,

gdzie $α$ jest tzw. poziomem istotności, czyli przyjętym z góry ograniczeniem na prawdopodobieństwo odrzucenia hipotezy, gdy faktycznie jest ona prawdziwa (zwyczajowo przyjmowaną wartością poziomu istotności jest $|0,05$ ).

Innymi słowy, policzywszy, ile serii $| R$ występuje w ciągu utworzonym z połączonych próbek oraz dysponując wartością krytyczną $kα,$ nasz test równości rozkładów wygląda następująco:

jeśli $| R ⩽ kα,$ wówczas odrzucamy hipotezę o równości rozkładów,
jeśli $|R > k α,$ to nie mamy podstaw do odrzucenia weryfikowanej hipotezy.

Pozostaje nam teraz wskazać metodę wyznaczania wartości krytycznych $|kα.$ Pomocne będą w tym dwa twierdzenia.

Twierdzenie 1. Niech $R1$ i $|R2$ oznaczają, odpowiednio, liczbę serii obiektów pierwszego i drugiego rodzaju w ciągu utworzonym przez $n1$ obiektów pierwszego rodzaju i $|n2$ obiektów drugiego rodzaju. Wówczas, przy założeniu równości rozkładów obu próbek, zachodzi

n1− 1 n2− 1 P(R = r ,R = r ) = c(r1−1)(r2−1), 1 1 2 2 (n1+n2) n1

(4)

gdzie $|r1 = 1,...,n1,r2 = 1,...,n2,$ przy czym $r1 = r2$ lub $|r1 = r2 ±1$ oraz $|c = 2,$ gdy $|r1 = r2,$ zaś $c = 1,$ gdy $r1 = r2± 1.$

Dowód. Zakładając równość rozkładów obu próbek, wszystkie możliwe układy $|n1$ elementów pierwszego rodzaju i $n2$ elementów drugiego rodzaju są tak samo prawdopodobne. Takich rozróżnialnych układów jest $|(n1+n2), n1$ zatem mamy już mianownik wyrażenia (4). Aby otrzymać licznik, zauważmy, że liczba różnych sposobów otrzymania $|r1$ serii z $n1$ obiektów pierwszego typu wynosi $n1− 1 |(r1−1).$ Łatwo to dostrzec, wyobrażając sobie, że mamy rozmieścić $n1$ białych kul w $r1$ komórkach w ten sposób, aby w każdej komórce znalazła się przynajmniej jedna kula. Można to zrealizować, na przykład, tak, że między ustawione w linii białe kule wstawia się $|r1−1$ przegród. Ponieważ mamy $n1 − 1$ możliwych miejsc, w które można wstawić przegrodę, otrzymujemy owe $n −1 (r11−1)$ potencjalnych układów.

To samo rozumowanie można, oczywiście, powtórzyć wobec $|n2$ obiektów drugiego rodzaju, które tworzą $|r2$ serii. Wobec tego łączna liczba rozróżnialnych układów, zaczynająca się serią obiektów pierwszego rodzaju, wynosi $n1−1 n2−1 (r1−1)(r2−1).$ Tyle samo układów otrzymamy, gdy ciąg serii rozpoczyna seria obiektów drugiego rodzaju. Ponieważ zaś serie obiektów pierwszego i drugiego rodzaju muszą występować na przemian, w konsekwencji musi zachodzić $|r = r ±1 1 2$ albo $r = r . 1 2$ Jeśli zachodzi $r1 = r2− 1,$ to ciąg serii rozpoczyna seria obiektów drugiego rodzaju. Gdy $r1 = r2 + 1,$ to jako pierwsza występuje seria obiektów pierwszego rodzaju. Natomiast w sytuacji, gdy $|r1 = r2,$ jako pierwsza w ciągu może pojawić się zarówno seria pierwszego, jak i drugiego rodzaju, co sprawia, że liczbę rozróżnialnych układów należy podwoić. W ten sposób otrzymujemy licznik wyrażenia (4), co kończy dowód.

Twierdzenie 2. Przy założeniu równości rozkładów obu próbek rozkład łącznej liczby serii $R,$ w ciągu utworzonym przez $|n1$ obiektów pierwszego rodzaju i $|n2$ obiektów drugiego rodzaju, jest dany wzorem

n1−1 n2− 1 2(r~2−1)(-r~2−1)- P(R = r) = (n1+n2) , n1

(5)

gdy $r$ jest parzyste oraz

n− 1 n− 1 n −1 n −1 ( r−11 ~2)( r−23 ~2)+ ( r−1 3 ~2)( r2−1 ~2) P(R = r) = -------------n1+n2--------------, ( n1 )

(6)

gdy $r$ jest nieparzyste. Wzory te są prawdziwe dla $|2⩽ r ⩽n + n . 1 2$

Dowód. Powyższe twierdzenie wynika bezpośrednio z twierdzenia 1. Istotnie, jeśli $|r$ jest parzyste, to liczba serii obu rodzajów obiektów musi być taka sama, tzn. $|r1 = r2 = r, 2$ co po podstawieniu do wzoru (4) daje (5). Natomiast, gdy $| r$ jest nieparzyste, wówczas $| r±1 r1 = r2± 1 = 2$ i sumując oba te przypadki, na mocy (4) otrzymujemy (6).

Jak można wykorzystać powyższe wyniki we wnioskowaniu statystycznym? Wyobraźmy sobie, na przykład, że w pewnym supermarkecie postanowiono zbadać, czy istnieje związek między ceną produktów chemicznych a czasem, jaki klient poświęca, oglądając dany produkt, zanim podejmie decyzję o zakupie. W tym celu zarejestrowano długość czasu, przez jaki klienci oglądali jeden z dwóch środków czyszczących, sprzedawanych w opakowaniach o tej samej pojemności, ale różniących się ceną. Losowo wybrane wyniki zawiera poniższa tabela.

$|Produkt--|-----------------Czas-(w--sekundach)-------------------| |---------|-----------------------------------------------------| |droższy | 7,24 9,79 11,23 13,11 22,82 23,47 32,69 33,04 | |---------|48,96---53,53--58,46--60,36----------------------------| |tańszy | 8,02 16,31 17,56 19,36 20,93 21,39 27,92 29,16 | | | | -----------31,08--31,78--33,94---35,8--39,04--42,92---46,79---------$

Ustawmy wszystkie pomiary w ciąg rosnący, pamiętając przy tym, do której grupy cenowej należy każdy z nich. Jeśli teraz pominiemy wartości pomiarów, a pozostawimy tylko etykiety wskazujące, czy dany pomiar związany był z produktem droższym (ozn. $D$ ), czy tańszym (ozn. $T$ ), otrzymamy następujący ciąg symboli:

,D,D,D,D,D,D,D D ,T-,D-----,T,T-,T-,T-,T-,D---,T-,T-,T-,T,D----,T,T-,T,T-,T,D---------.

Jak widać, ciąg ten zawiera 9 serii. Korzystając z twierdzenia 2, możemy łatwo obliczyć prawdopodobieństwa możliwych wartości liczby serii w 27-elementowym ciągu otrzymanym z $n1 = 12$ elementów pierwszego rodzaju i $|n2 = 15$ elementów drugiego rodzaju - przybliżone wyniki znajdują się na tutaj (zachęcam Czytelnika do skontrolowania choćby kilku z nich).

Sumując wartości obliczonych prawdopodobieństw, dostaniemy $|P(R ⩽ 9) = 0,026$ oraz $P(R ⩽10) = 0,064,$ z czego wynika, że np. dla poziomu istotności $α = 0,05$ wartość krytyczna testu wynosi $|k0,05 = 9.$ A ponieważ w przeprowadzonym doświadczeniu otrzymaliśmy 9 serii, na mocy opisanej powyżej reguły decyzyjnej odrzucamy hipotezę o równości rozkładów. Zatem rozkłady odpowiadające badanym produktom różnią się, co oznacza, że istnieje związek między ceną produktów chemicznych a czasem, jaki klient poświęca, oglądając dany produkt, zanim podejmie decyzję o jego zakupie.

Test równości rozkładów nie jest jedynym interesującym testem wykorzystującym pojęcie serii. Innym ciekawym narzędziem statystycznym jest test losowości.

Wyobraźmy sobie, że obserwujemy wchodzących do kina, notując płeć kolejnych osób. Załóżmy, że ostatnie 10 osób wygenerowało następujący ciąg: $K, K, K, K, K,$ $,M,M,M,M M$ gdzie symbole $|K$ i $M |$ oznaczają, odpowiednio, kobietę i mężczyznę. Tego typu ciąg trudno byłoby uznać za losowy, gdyż odpowiadałby on sytuacji, w której do kina wchodzą najpierw kobiety, a potem mężczyźni. Równie mało losowy byłby ciąg $,M,M,M,M,K,K,K,K,K.M$ W obu przypadkach ciągi zawierałyby jedynie po dwie serie. A zatem mała liczba serii wskazywałaby na duże zgrupowanie podobnych obiektów, co kłóciłoby się z losowością. Zwróćmy jednak uwagę, iż diametralnie inny ciąg: $,K,M,K,M,K,M,K,M, K, M$ byłoby równie trudno uznać za losowy. Sugerowałby on bowiem, iż do kina wchodziły pary. Tak więc tym razem duża liczba serii (w rozważanym ciągu jest ich 10) także wskazywałaby na brak losowości, jakkolwiek innej natury, niż to miało miejsce w poprzednich przykładach.

Naturalne pytanie, jakie nasuwa się w tym miejscu, brzmi zatem: Kiedy dany ciąg możemy uznać za losowy? Na tak postawione pytanie łatwiej odpowiedzieć przez dopełnienie, określając, kiedy ciąg nie jest losowy. Mianowicie, powszechnie przyjmuje się, że ciąg jest nielosowy, jeśli tworzy jakąś strukturę. Takie określenie interesującego nas pojęcia może nie wszystkich zadowala, ale jest dość intuicyjne. O ile jednak stosunkowo łatwo analizować w tym kontekście ciągi krótkie i wyraźnie ustrukturyzowane, jak choćby te wskazane powyżej, do badania losowości dowolnych ciągów przydają się rozmaite metody statystyczne. Należy do nich również test losowości wykorzystujący liczbę serii. Tym razem jednak, w przeciwieństwie do omawianego wcześniej testu równości dwóch rozkładów, odrzucamy hipotezę o losowości, jeśli liczba serii jest zarówno zbyt mała, jak i zbyt duża. A to oznacza, że do podjęcia decyzji potrzebne są dwie wartości krytyczne: dolna $d α$ i górna $|g . α$ Wyznaczamy je ze wzorów podanych w twierdzeniu 2, przy czym $|dα$ oznacza taką największą liczbę całkowitą, dla której - przy założeniu prawdziwości testowanej hipotezy o losowości - zachodzi

P(R ⩽ d ) ⩽ α, α 2

natomiast $gα$ oznacza taką najmniejszą liczbę całkowitą, dla której - przy założeniu prawdziwości testowanej hipotezy o losowości - zachodzi

α- P(R ⩾ gα)⩽ 2,

gdzie $α$ jest przyjętym poziomem istotności.

Dysponując tak wyznaczonymi wartościami krytycznymi oraz policzywszy, ile serii $R$ występuje w badanym ciągu, nasz test losowości przebiega następująco:

jeśli $R ⩽ d α$ lub $R ⩾ g , α$ wówczas odrzucamy hipotezę o losowości ciągu obserwacji,
jeśli $d < R < g , α α$ to nie mamy podstaw do odrzucenia weryfikowanej hipotezy.

Zachęcamy Czytelników, aby spróbowali zbadać, czy ciąg wyników meczów rozegranych przez Federera i Nadala, od którego rozpoczęliśmy nasze rozważania, jest losowy.

Wspomnijmy jeszcze tylko, że oprócz liczby serii ciekawe może być również to, jak długie są poszczególne serie, jaki jest rozmiar najdłuższej serii, itd. Tego typu informacje mogą także okazać się przydatne do testowania losowości.

Na zakończenie podkreślmy jeszcze jedną, niezwykle ważną cechę omawianych testów serii, jaką jest ich nieparametryczność. Pojęcie to nieco lepiej oddaje język angielski poprzez określenie distribution-free, oznaczające procedurę, która nie zależy od rozkładu badanej próbki. W statystyce jest to bardzo pożądana własność, otwierająca szerokie pole do potencjalnych zastosowań danej procedury, wolnej od rozmaitych, często kłopotliwych ograniczeń.