Fenomen rozkładu Benforda

Większość osób świadomych powiązań między światem matematyki a rzeczywistością zgodzi się, że na każdym kroku spotykamy się z rachunkiem prawdopodobieństwa. Oprócz niektórym dobrze znanych zagadnień związanych z grami losowymi pewne prawidłowości probabilistyczne możemy spotkać również w bardziej niespodziewanych miejscach.

Przypadek czy coś więcej?

Wykonamy trzy eksperymenty na różnych, niepowiązanych seriach danych. W każdym z eksperymentów wyznaczymy częstość występowania każdej cyfry na najbardziej znaczącej pozycji w pewnym zbiorze wartości liczbowych. Wyniki przedstawimy za pomocą tabeli i wykresu.

Eksperyment I. Ze zbioru liczb naturalnych z zakresu od 1 do 9999 losujemy liczbę $p,$ wykorzystując generator liczb losowych o rozkładzie równomiernym. Następnie z zakresu liczb naturalnych od 1 do $p$ losujemy, również wykorzystując rozkład równomierny, liczbę $r.$ Całą tę operację powtarzamy $100000$ razy, otrzymując w ten sposób listę $R$ wszystkich wylosowanych liczb $r.$ Dla każdej cyfry wyznaczamy (procentowo) jej częstość występowania na najbardziej znaczącej pozycji w elementach listy $|R$ - przybliżone wyniki prezentuje poniższa tabela i wykres na rysunku 1.

$-------------------------------------------------------------------------- ---------cyfra-----------1------2-----3----4-----5----6----7-----8----9--- częstośćwystąpienia [%] 24,27 18,40 14,61 11,65 9,32 7,46 6,08 4,74 3,47 --------------------------------------------------------------------------$

Eksperyment II. W drugim eksperymencie posłużymy się układem okresowym pierwiastków chemicznych, a dokładniej, jednym z parametrów każdego pierwiastka - masą atomową. Podobnie jak w eksperymencie pierwszym, interesuje nas jedynie pierwsza cyfra każdej liczby reprezentującej masę atomową. Częstość występowania wszystkich cyfr na tej pozycji (w przybliżeniu) można odczytać z poniższej tabeli i wykresu na rysunku 2.

$------------------------------------------------------------------------- ---------cyfra------------1-----2----3----4-----5----6-----7----8-----9-- -częstośćwystąpienia-[%]---44,94--19,10--5,62--4,49--6,74--4,49--4,49--4,49--5,62-$

Eksperyment III. Ostatni eksperyment ma charakter geograficzny - posłużymy się tutaj powierzchnią w $km2$ wszystkich państw świata. Znów badamy tylko częstość występowania poszczególnych cyfr na najbardziej znaczącej pozycji; przybliżone wyniki zawarte zostały w tabeli i na rysunku 3.

$-------------------------------------------------------------------------- ---------cyfra-----------1-----2-----3-----4-----5----6-----7----8----9--- -częstośćwystąpienia-[%]---29,96--19,41--10,97--10,97--6,75--6,75-5,49--3,38--5,91-$

Przyjrzyjmy się wynikom przeprowadzonych eksperymentów. Wykresy są niczym innym, jak empirycznie wyznaczonymi funkcjami gęstości prawdopodobieństwa dla następującego zadania: losujemy liczbę z danego zbioru i pytamy, z jakim prawdopodobieństwem jej pierwszą cyfrą będzie 1, z jakim 2, itd. Wykonaliśmy eksperymenty zupełnie niepowiązane, wyznaczone zaś funkcje gęstości prawdopodobieństwa wydają się podejrzanie podobne $...$ Widać, że (na ogół) im niższa cyfra, tym bardziej prawdopodobne jest jej wystąpienie na początku losowej liczby ze zbioru danych.

Tablice logarytmiczne

Charakterystyczna zależność, jaką udało nam się spostrzec, została po raz pierwszy odnotowana w 1881 roku przez kanadyjskiego astronoma i matematyka Simona Newcomba. Przebywając w bibliotece United States Naval Observatory, Newcomb zauważył, że strony tablic logarytmicznych są brudniejsze na początku i coraz czystsze na logarytmicznych częściej szukają liczb rozpoczynających się od niższych cyfr - te znajdują się na początku tablic. Swoje odkrycie (bez dowodu ogólnej prawidłowości) opublikował na stronach American Journal of Mathematics. Jego artykuł [4] nie spotkał się jednak z szerokim zainteresowaniem i niezwykle ciekawe zjawisko zostało zapomniane na 57 lat.

W 1938 roku Frank Benford, inżynier General Electric, nie zdając sobie sprawy z istnienia pracy Newcomba, dokonał tego samego odkrycia na podstawie stanu czystości tablic logarytmicznych. Zafascynowany tym zjawiskiem Benford zaczął sprawdzać, czy jego teoria znajduje potwierdzenie również w innych zbiorach danych, m.in. w powierzchniach rzek, liczbach drukowanych w gazetach, czy nawet cenach. Wyniki swoich badań przedstawił w artykule [1] wydrukowanym w Proceedings of the American Philosophical Society. Podobnie jak w artykule Newcomba, formalny dowód nie został przedstawiony.

Prawo Benforda

W ten sposób świat dowiedział się o niezwykłej prawidłowości, która obecnie nosi nazwę prawa Benforda, rozkładu Benforda lub prawa pierwszych (znaczących) cyfr. Dyskretny rozkład Benforda opisany jest zależnością

1 P(x) = log10(1+ --), x

(1)

gdzie $x$ oznacza pierwszą znaczącą cyfrę ( $x = 1,2,...,9$ ), natomiast $|P(x)$ oznacza prawdopodobieństwo, z jakim cyfra $x$ będzie pierwszą cyfrą liczby. Przybliżone prawdopodobieństwo wystąpienia poszczególnych cyfr na najbardziej znaczącej pozycji przedstawia poniższa tabela, a funkcję gęstości prawdopodobieństwa - rysunek 4.

$---------------------------------------------------------- ----x-------1----2-----3-----4----5----6----7-----8----9-- P--x---[%]---30,1--17,61-12,49--9,69--7,92--6,69--5,80--5,12--4,58-$

Możemy teraz porównać wyniki przeprowadzonych przez nas eksperymentów z zależnością (1) - graficznie przedstawia to rysunek 5.

Skoro prawo Benforda działa dla trzech niezależnych zbiorów danych, to powinno działać również wtedy, gdy rozpatrzymy wyniki wszystkich eksperymentów jednocześnie, co pokazuje rysunek 6. Korzystając z mocniej zróżnicowanych danych, otrzymaliśmy wyniki bardziej zbliżone do przewidywań teoretycznych.

Uniwersalność prawa Benforda

Ważnym pytaniem jest, czy prawo Benforda jest uniwersalne: czy uzyskalibyśmy taki sam rozkład prawdopodobieństwa, gdybyśmy przeskalowali dane w zbiorze testowym? Na przykład, czy w eksperymencie III rozkład zmieni się, jeśli zastosujemy inne jednostki powierzchni, na przykład jardy, stopy lub mile kwadratowe? W 1961 roku Roger Pinkham stwierdził, że jeżeli prawo Benforda rzeczywiście występuje, to powinno mieć własność uniwersalności - wyniki powinny być takie same, niezależnie od tego, jakie miary stosujemy w danym zagadnieniu (zob. [5]). Sprawdźmy to zatem, modyfikując eksperyment III: powierzchnie państw przeliczamy z kilometrów kwadratowych na angielskie mile kwadratowe i sprawdzamy częstotliwość występowania cyfr na najbardziej znaczącej pozycji.

Z wykresu na rysunku 7 widać, że skalowanie danych prawie nie wpłynęło na rozkład prawdopodobieństwa. Niewielkie rozbieżności wynikają z faktu, iż dane te nie tworzą idealnego rozkładu Benforda.

Czy prawo Benforda działa zawsze?

Przytoczone eksperymenty pokazują, że prawo Benforda sprawdza się (z większą lub mniejszą dokładnością) dla wyników działań na liczbach naturalnych, parametrów pierwiastków chemicznych i danych geograficznych. Dodatkowo w artykule Benforda [1] można znaleźć szereg innych zbiorów danych, w których odnajdujemy tę prawidłowość. Możemy się zatem pokusić o pytanie, czy rozkład Benforda działa dla każdych zebranych danych liczbowych? Odpowiedź, oczywiście, brzmi: nie! W eksperymencie III posłużyliśmy się danymi geograficznymi: powierzchnią w $2 km$ wszystkich państw świata. Badamy zatem dane, na które ma wpływ wiele czynników. Powierzchnia poszczególnych państw jest bardzo zróżnicowana - od Rosji o powierzchni $2 |17075400 km$ po Watykan - $2 |0,44 km .$ Jeżeli za bardzo zawęzimy zakres danych, okaże się, że prawo Benforda nie ma dla nich zastosowania. Na przykład, badając długości samochodów osobowych lub wysokość dorosłej żyrafy stwierdzimy, że niewiele z nich zaczyna się od cyfry 1. Wynika to z faktu, iż wartości tych danych są silnie ograniczone innymi czynnikami. Mało która żyrafa, zwłaszcza dorosła, mierzy poniżej 2 metrów. Może warto zatem pamiętać o prawie Benforda, rzucając sześcienną kostką do gry? Niestety, także nie. Każda liczba oczek ma takie samo prawdopodobieństwo wylosowania. Powtarzając wielokrotnie losowanie, uzyskamy rozkład prawdopodobieństwa zbliżony do równomiernego. W 1995 roku amerykański profesor matematyki z Georgia Institute of Technology, Theodore P. Hill, przedstawił dowód prawa Benforda na łamach magazynu Statistical Science w tekście A statistical derivation of the significant-digit law [3].

Tylko ciekawostka?

Prawo Benforda jest samo w sobie bardzo ciekawym zjawiskiem, a w niektórych dziedzinach ma zastosowanie praktyczne. Służy jako narzędzie do sprawdzania poprawności obliczeń, prawdziwości danych statystycznych czy wykrywania oszustw w zeznaniach podatkowych i rozliczeniach finansowych.

Za pomocą prawa Benforda sprawdza się dokładność działania modeli matematycznych opisujących ewolucję danych z różnych dziedzin, na przykład modeli zmian populacji. Dla danych wejściowych spełniających prawo Benforda powinniśmy otrzymać dane wyjściowe, które również tę zależność spełniają. Jeżeli tak nie jest, oznacza to, że zastosowany model (algorytm) zakłócił "naturalny" rozkład danych. Najpopularniejszym zastosowaniem prawa Benforda jest sprawdzanie poprawności zeznań podatkowych i rozliczeń. Okazuje się, że fałszerze bardzo często wybierają liczby rozpoczynające się od 4, 5 i 6 zamiast od 1, 2 i 3! Stąd, jeśli rozkład częstości występowania cyfr na pierwszych pozycjach nie jest zbliżony do rozkładu Benforda, to sprawdzający powinien zwrócić na to rozliczenie większą uwagę. Z całą pewnością o prawie Benforda nie wiedział skarbnik stanu Arizona, James Nelson, którego fałszerstwa na kwotę bliską 2 mln dolarów zostały wykryte przy zastosowaniu prawa pierwszych cyfr.