Przeskocz do treści

Delta mi!

Nowe pomysły

Przyszłość sztucznej inteligencji

Paweł Wawrzyński

o artykule ...

  • Publikacja w Delcie: sierpień 2018
  • Publikacja elektroniczna: 31 lipca 2018
  • Autor: Paweł Wawrzyński
    Afiliacja: Instytut Informatyki, Wydział Elektroniki i Technik Informacyjnych, Politechnika Warszawska
  • Wersja do druku [application/pdf]: (76 KB)

W 1970 roku jeden z pionierów sztucznej inteligencji, Marvin Minsky, napisał na łamach Life Magazine, że w ciągu 8 lat pojawią się maszyny o inteligencji porównywalnej z ludzką lub ją przewyższające. Jednak takie maszyny nie pojawiły się ani do roku 1978, ani przez kolejne 40 lat. A jednak w ciągu ostatnich lat można zobaczyć znaczne przyspieszenie w dziedzinie sztucznej inteligencji: autonomiczne samochody, programy wygrywające z ludzkimi arcymistrzami w Go - ostatnią grę, w którą człowiek dotychczas był lepszy, czy roboty humanoidalne śmiało przemierzające gruzowiska. Być może prognoza Minskiego, choć znacznie opóźniona, ziści się na naszych oczach?

obrazek

Czego potrzebujemy, aby komputer przejawiał inteligencję porównywalną z ludzką? Wydawać by się mogło, że w pierwszej kolejności potrzebujemy do tego logiki. Tak wydawało się pionierom w tej dziedzinie. W 1955 roku Allen Newell i Herbert Simon przedstawili program Logic Theory Machine, który był w stanie udowodnić 38 z pierwszych 52 twierdzeń zawartych w klasycznym traktacie Bertranda Russella i Alfreda Whiteheada Principia Mathematica. Wydawało się wtedy, że sztuczna inteligencja już puka do wrót. Okazało się jednak, że logika formalna może być co najwyżej pobocznym narzędziem do budowy sztucznej inteligencji. Na inteligencję bowiem składają się także przewidywanie, planowanie, adaptacja, klasyfikacja, pozyskiwanie wiedzy na podstawie obserwacji i doświadczenia. Umiejętności daje się sprowadzić do operacji logicznych, ale to tak, jakby ktoś chciał budować dom, klejąc ziarenka piasku - da się, ale są lepsze sposoby.

Front rozwoju sztucznej inteligencji jest obecnie zlokalizowany na zagadnieniach rozpoznawania i klasyfikacji obrazów i ludzkiej mowy. Jest to związane nawet nie tyle z pojawieniem się nowych koncepcji, co raczej pojawieniem się kart graficznych setki razy zwiększających dostępną moc obliczeniową oraz internetu udostępniającego ogromne ilości obrazów i dźwięku. W rezultacie wcześniej skonstruowane, a teraz odpowiednio dopracowane algorytmy rozpoznawania i klasyfikacji mogą być wytrenowane właśnie do rozpoznawania obrazu i dźwięku, co kapitalnie przybliża sztuczną inteligencję do aktywności do tej pory zarezerwowanych dla ludzi.

Konsekwencje tego przełomu będziemy niebawem oglądać na każdym kroku. Przedsmakiem tego są rozwijane właśnie przez Googla i Teslę samochody autonomiczne. Dobrze demonstrują one istotę przełomu, który właśnie się dokonuje. Sterownik autonomicznego samochodu musi w pierwszej kolejności "rozumieć", co się wokół niego dzieje. Do tego potrzebuje kamer i sztucznych sieci neuronowych, które rozpoznają sens obrazów, jakie te kamery rejestrują. Te sieci neuronowe zaś muszą być wyuczone na podstawie ogromnej ilości wcześniej zarejestrowanych nagrań.

obrazek

Rozpowszechnienie się autonomicznych samochodów wydaje się wyłącznie kwestią czasu. Kolejnym krokiem będzie pojawienie się robotów mobilnych wykonujących w otoczeniu człowieka rozmaite proste do zautomatyzowania czynności, jak sprzątanie podłóg i ulic.

Kolejny przełom dokonujący się na naszych oczach dotyczy rozpoznawania ludzkiej mowy i przetwarzania tekstu. Każdy, kto ma telefon komórkowy z systemem operacyjnym Android, MacOS lub Windows Phone, może ze swoim telefonem porozmawiać. Nie będzie to specjalnie wyrafinowana rozmowa: właściciel powie swojemu telefonowi frazę, która albo należy do listy takich, które telefon zrozumie jako komendę i wykona, albo telefon jej nie zrozumie i uruchomi wyszukiwarkę, która poszuka stron zawierających tę frazę.

Na coraz wyższym poziomie stoi przetwarzanie tekstu pisanego. Jeśli piszemy mail do korporacji, np. do naszego banku, to mamy dużą szansę na to, że zostanie on zakwalifikowany do odpowiedniej tematyki przez program, który w pewnym zakresie "zrozumie", o co nam chodzi. Rozwijającą się technologią są chat-boty. Jeśli firma prowadzi obsługę klienta on-line w okienku przeglądarki internetowej, to zgłaszający się tą drogą do niej klient trafia niekiedy na chat-bota, który rozpoczyna konwersację z nim i dopiero kiedy ta konwersacja ewidentnie go przerasta (co obecnie dzieje się dosyć szybko), włącza się człowiek.

Jakie narzędzia stoją za przetwarzaniem tekstu, zarówno mówionego, jak i pisanego? Są to sztuczne sieci neuronowe. Całkiem podobne do tych, które przetwarzają obrazy. Różnica polega na tym, że z obrazami radzą sobie sieci bez połączeń zwrotnych. Obraz jest statyczny i dlatego interpretująca go sieć neuronowa nie musi mieć własnej dynamiki. Tymczasem mowa jest procesem dynamicznym i rozumiejąca go sieć neuronowa także musi mieć dynamikę, czyli musi mieć połączenia zwrotne, zatem musi być siecią rekurencyjną.

W ciągu najbliższych lat sterowanie rozmaitymi urządzeniami elektronicznymi przy użyciu komend głosowych będzie stawało się coraz powszechniejsze. Automaty będą witać nas, gdy będziemy dzwonić do infolinii, czytać i odpowiadać na nasze maile. Technologia prowadzenia rozmowy z człowiekiem dotyczącej ograniczonej tematyki jest bowiem opanowana. Jak szybko jednak te ograniczenia na tematykę rozmowy będą się poszerzać?

Na razie nic nie wskazuje na to, abyśmy w najbliższej przyszłości mogli pogadać sobie z jakimś urządzeniem na dowolny temat, który nas akurat interesuje. Prowadzenie takiej konwersacji, podobnie jak np. tłumaczenie tekstu na inny język, jest bowiem problemem AI-trudnym. Problem ma taki charakter, kiedy do jego rozwiązania potrzebna jest ogólna wiedza zbliżona do tej, jaką musi dysponować człowiek do odnajdowania się w swoim świecie (być może "ogarniania się" byłoby nawet trafniejszym określeniem niż "odnajdowania się"). Rzecz jednak w tym, że jest to przeogromna wiedza, dotycząca różnych aspektów funkcjonowania świata. Współcześnie nie mamy nawet wyobrażenia, jak miałby funkcjonować sztuczny rezerwuar takiej wiedzy i jego sprzężenie z narzędziami, które już mamy opanowane, a które służą np. do rozpoznawania obrazów i mowy.

obrazek

Poszczególne predyspozycje, które składają się na ludzką inteligencję, na przykład, to rozwiązywanie problemów, planowanie, rozumienie mechanizmów rządzących obserwowanymi zdarzeniami, ich selektywne zapamiętywanie, aby przywołać je, kiedy to będzie potrzebne do rozwiązywania problemów czy podejmowania decyzji. Jeśli przyjrzymy się metodom sztucznej inteligencji, czy szerzej - informatyki - to okaże się, że każdy z tych składników inteligencji jest lepiej czy gorzej opanowany. Nie ma natomiast architektur, które przejawiałyby kilka z takich predyspozycji jednocześnie. Dzieje się tak dlatego, że metody te są niekompatybilne.

Ludzki mózg potrafi demonstrować różne przejawy inteligencji, ponieważ są one realizowane przez tę samą strukturę, którą jest dynamiczna sieć neuronowa. Dalszy rozwój sztucznej inteligencji będzie zapewne polegał na projektowaniu architektur, które łączą różne przejawy inteligencji, przy czym wspólnym mianownikiem dla tych architektur będzie pewnie to, że będą one sztucznymi sieciami neuronowymi.

Miarą tego, ile jest do zrobienia w dziedzinie sztucznej inteligencji, jest nasza mizerna wiedza na temat mechanizmów działających w ludzkim umyśle. Weźmy taką predyspozycję jak świadomość (rozumianą tu raczej jako pamięć krótkookresową tego, co się dzieje, a niekoniecznie jako samoświadomość). Na czym to polega, że piszący te słowa jest świadom, iż przed chwilą za oknem po jego prawej stronie przeszedł człowiek z labradorem? Prawie na pewno (w tej dziedzinie trudno o całkowitą pewność) informacja ta nie została zapisana w anatomii mózgu. Prawie na pewno też nie ma takiego charakteru jak pamięć komputera, tzn. stabilnego stanu pewnych komórek. Wszystko wskazuje na to, że ma postać cyrkulacji elektrycznej, tzn. pewna grupa neuronów realizując swoją zwykłą aktywność polegającą na ładowaniu się potencjałem elektrycznym i jego szybkim wyładowywaniu, kryje w dynamice tego cyklu informację o człowieku z labradorem. Ale koncepcja labradora kryje się w anatomii mojego mózgu, prawdopodobnie w wagach pewnych połączeń synaptycznych. Całkowite zresetowanie aktywności elektrycznej mózgu (następujące np. przy atakach epilepsji) resetuje także pamięć krótkookresową, ale nie pozbawia ludzi ogólnej wiedzy o świecie, którego częścią są labradory. A zatem świadomość (czy pamięć krótkookresowa) ma w ludzkim mózgu postać cyrkulacji elektrycznej w jakiś sposób opartej o pamiętane na stałe, mające odwzorowanie w anatomii, elementy wiedzy o świecie.

Na czym to polega, że cyrkulacja elektryczna jest nośnikiem informacji? Nie wiemy tego. Nie ma dobrych modeli opisujących, jak informacja mogłaby być przechowywana w dynamice procesu, np. we wzorcu wyładowań elektrycznych grupy neuronów. Znane w sztucznej inteligencji modele, które w jakimś stopniu opisują takie zjawiska, to rekurencyjne sieci neuronowe. Nie wiadomo jednak, na czym miałoby polegać to, że pamięć krótkookresowa rekurencyjnej sieci neuronowej odwołuje się do jakiegoś rezerwuaru ogólnej wiedzy.

Do zrobienia zostało zatem ogromnie dużo. Naukowcy w dziedzinie sztucznych sieci neuronowych będą mieli pełne ręce roboty jeszcze przez długie dekady, zanim będziemy mogli pogawędzić ze sztuczną inteligencją zbliżoną do ludzkiej.