Nie takie sztuczne neurony
Niemal każdy wykład wprowadzający w zagadnienie sztucznych sieci neuronowych zaczyna się anegdotą o zaczerpnięciu tego pojęcia z anatomii mózgu...
Najprostszy model matematycznej jednostki zwanej "sztucznym neuronem" opisuje równanie:
W analogii do biologicznych komórek neuronowych mamy do czynienia z sumą informacji (przesyłanej z komórek presynaptycznych do postsynaptycznych) z odpowiednimi wagami (siła połączeń synaptycznych), na którą działa funkcja nieliniowa (uwolnienie potencjału czynnościowego po osiągnięciu wartości progowej).
Historia wzajemnych wpływów uczenia maszynowego i neuronauki jest jednak znacznie dłuższa i o wiele bardziej skomplikowana. Szczególnie wyraźnie zaznacza się to w ostatnich latach, gdy niezwykłą popularność zdobywają tzw. głębokie sieci neuronowe (deep neural networks). Swoją strukturą coraz bardziej przypominają one skomplikowane układy przetwarzające informacje w mózgu. W niedawnym wydaniu periodyku naukowego Neuron rolę współpracy naukowców z tych dwóch obszarów wiedzy podkreślał sam Demmis Hassabis, współzałożyciel DeepMind. Dla przypomnienia, ta należąca do Google firma zasłynęła opracowaniem programu AlphaGo, który jako pierwszy automat wygrał (w 2016 roku) z arcymistrzem gry w Go, Lee Sedolem. Ciekawostką jest fakt, że AlphaGo został uhonorowany za to przez południowokoreańską federację dziewiątym danem. Gra planszowa Go uznawana jest przez ekspertów za najtrudniejszą na świecie!
Jednym z najprostszych modeli matematycznych znajdującym zastosowanie w obu wspomnianych dziedzinach jest tzw. sieć Hopfielda. W oryginalnym sformułowaniu dyskretna sieć Hopfielda składa się z neuronów, z których każdy łączy się z każdym i może przybrać jeden z dwóch stanów: lub Przez oznaczać będziemy stan -tego neuronu w chwili Wagę połączenia między -tym i -tym neuronem oznaczamy przez Zakładamy, że wagi są symetryczne oraz że neuron nie wpływa sam na siebie Stan jednostki w chwili w zależności od stanu układu w chwili opisuje się równaniem:
gdzie funkcja przyjmuje wartość gdy jej argument jest większy od zera, bądź w przeciwnym przypadku. Wyrażenie można interpretować jako ekscytację jednostki - to znaczy, że w zależności od znaku ekscytacji nastąpi aktywacja bądź deaktywacja jednostki. Wyrażenie to będziemy oznaczać przez
Dla tak zdefiniowanej sieci określamy energię układu jako:
Zakładamy, że aktualizacja stanu następuje w sposób asynchroniczny, to znaczy żadne dwa neurony nie są włączane bądź wyłączane w tym samym momencie. Wówczas zmiana energii przy aktualizacji jednostki wynosi:
Teraz rozpatrzmy dwa przypadki. Kiedy uczenie nie następuje, nie zmienia się stan układu, czyli Mamy zatem czyli W przeciwnym przypadku musimy rozważyć kolejne dwie możliwości. Ponieważ nastąpiła zmiana układu:
- dla mamy a ;
- dla mamy a
Za każdym razem wyrażenie ma przeciwny znak do wartości ekscytacji. Pokazaliśmy zatem, że W każdym przypadku energia będzie maleć, a że liczba stanów sieci jest skończona, w skończonym czasie zbiegnie do stanu minimum lokalnego (tzn. niemożliwego do "poprawienia" poprzez opisaną aktywność neuronów). Będzie to tzw. stan stabilny.
Jak w takim razie sieć Hopfielda może się czegokolwiek "nauczyć"? W najprostszym wydaniu rzecz opiera się na regule uczenia Hebba, opracowanej już w latach 50. XX wieku przez kanadyjskiego psychologa Donalda Hebba. Mówi ona o tym, że jeśli neuron systematycznie pobudza neuron to połączenie synaptyczne między nimi staje się silniejsze (po angielsku często jest to podawane w zgrabnej formie: fire together, wire together). Ta prosta hipoteza została potwierdzona kilkanaście lat po jej sformułowaniu, poprzez odkrycie paradygmatu długotrwałych wzmocnień synaptycznych. Niewątpliwą zaletą reguły Hebba jest fakt, iż w prosty sposób łączy idee z neurobiologii i psychologii, a także stanowi dobry model pamięci asocjacyjnej. Szczególnym przykładem takiej pamięci może być warunkowanie zastosowane w słynnym eksperymencie Pawłowa. Powtarzana ekspozycja psa na miskę z jedzeniem wraz z dźwiękiem dzwonka skutkuje wzmożonym wydzielaniem śliny w reakcji wyłącznie na dźwięk dzwonka.
Regułę Hebba do zapamiętania wzorca opisanego binarnym wektorem można zapisać jako:
Zwróćmy uwagę, że przy tak dobranych wagach najmniejsza wartość energii określonej wzorem przyjmowana jest dla Ponieważ opisany wcześniej proces uczenia stabilizuje się w minimach lokalnych, możemy mieć nadzieję, że będzie on "zbliżać" wektor do
W ogólności, możemy zapamiętać więcej niż jeden wzór. Na przykład, dla wzorców reguła Hebba przyjmuje postać:
co jest odpowiednikiem pamięci skojarzeniowej. Można udowodnić, że pojemność takiej sieci to Oznacza to, że sieć złożona z 1000 węzłów jest w stanie zapamiętać maksymalnie około 138 wzorców. Grafika na marginesie pokazuje przykład rekonstrukcji litery "C" dla sieci pamiętającej trzy wzorce. Osiągnięcie lokalnego minimum w sieci Hopfielda jest gwarantowane. Często zdarza się jednak utknięcie w minimum fałszywym, a zatem rozpoznanie wzorca, którego de facto sieć nie była nauczona. Nie zmienia to jednak faktu, iż z powodzeniem sieci te stosuje się do odszumiania obrazów, dekonwolucji danych, rozpoznawania wzorców, a także w problemach optymalizacyjnych.
Co najważniejsze jednak, idee Donalda Hebba przyczyniły się do powstania modelu równoległego rozproszonego przetwarzania informacji, czyli tzw. koneksjonimzu, spopularyzowanego w latach 80. przez naukowców Uniwersytetu Stanforda: Jamesa McClellanda i Davida Rumelharta. Sieć Hopfielda jest najlepszym przykładem takiego modelu. Istnieje przekonanie, że właśnie z koneksjonizmu wyewoluowała dziedzina głębokich sieci neuronowych. Nic dziwnego, skoro do zwolenników tej idei należy sam Geoffrey Hinton, absolwent psychologii kognitywnej, uważany za ojca chrzestnego deep learning'u. Przykłady interakcji neuronauki i uczenia maszynowego można mnożyć bez końca. Nie wspomniałem tu, na przykład, o klasyfikatorach, wykorzystywanych do dekodowania sygnałów pochodzących z mózgu. Na uwagę zasługują również próby interpretacji działania sztucznych sieci neuronowych, gdzie wykorzystywane są modele kognitywne. Cieszy więc zacieśnianie się współpracy między badaczami obu dziedzin, co pomaga w wypracowaniu wspólnego języka. Cel przecież jest zbieżny: zrozumieć, jak uczy się człowiek, by sprawniej mogła uczyć się maszyna.