„Gato” DeepMind jest przeciętne, więc dlaczego je zbudowali?

deepmind-gato-slash-image-closer-in.png

Sieć neuronowa „Gato” firmy DeepMind doskonale sprawdza się w wielu zadaniach, w tym w kontrolowaniu ramion robotów, które układają bloki, graniu w gry Atari 2600 i dodawaniu napisów do obrazów.


DeepMind

Świat jest przyzwyczajony do nagłówków nagłówków o najnowszym przełomie w formach uczenia głębokiego sztucznej inteligencji. Jednak ostatnie osiągnięcie działu DeepMind firmy Google można podsumować jako „Jeden program AI, który wykonuje tak dobrą robotę w wielu sprawach”. 

Gato, jak nazywa się program DeepMind, został odsłonięty w tym tygodniu jako tak zwany program multimodalny, który może grać w gry wideo, rozmawiać, pisać kompozycje, podpisywać zdjęcia i sterować robotem układającym klocki. Jest to jedna sieć neuronowa, która może pracować z wieloma rodzajami danych w celu wykonywania wielu rodzajów zadań. 

„Dzięki jednemu zestawowi ciężarków Gato może angażować się w dialogi, obrazy z napisami, układać bloki z prawdziwym ramieniem robota, przewyższać ludzi w graniu w gry Atari, poruszać się w symulowanych środowiskach 3D, postępować zgodnie z instrukcjami i nie tylko” – pisze główny autor Scott Reed i koledzy z ich gazety „A Generalist Agent”, zamieszczone na serwerze preprintów Arxiv

Współzałożyciel DeepMind Demis Hassabis dopingował zespół, wykrzykując w tweecie, „Nasz najogólniejszy agent jak dotąd!! Fantastyczna praca zespołu!” 

Również: Nowy eksperyment: czy sztuczna inteligencja naprawdę zna koty, psy — czy cokolwiek?

Jedynym haczykiem jest to, że Gato nie jest tak dobry w kilku zadaniach. 

Z jednej strony program radzi sobie lepiej niż dedykowany program do uczenia maszynowego w kontrolowaniu zrobotyzowanego ramienia Sawyera, które układa klocki. Z drugiej strony tworzy podpisy do obrazów, które w wielu przypadkach są dość słabe. Podobnie przeciętna jest jego umiejętność prowadzenia standardowego dialogu na czacie z ludzkim rozmówcą, wywołując czasem sprzeczne i bezsensowne wypowiedzi. 

A jego gra w gry wideo Atari 2600 spada poniżej większości dedykowanych programów ML zaprojektowanych do konkurowania w benchmarku Arcade Środowisko nauki

Dlaczego miałbyś tworzyć program, który robi pewne rzeczy całkiem dobrze, a kilka innych nie tak dobrze? Według autorów precedens i oczekiwanie. 

Istnieje precedens, w którym bardziej ogólne rodzaje programów stają się najnowocześniejsze w sztucznej inteligencji i oczekuje się, że rosnące ilości mocy obliczeniowej będą w przyszłości nadrabiać niedociągnięcia. 

Ogólność może triumfować w AI. Jak zauważają autorzy, powołując się na badacza sztucznej inteligencji Richarda Suttona: „Historycznie, modele generyczne, które są lepsze w wykorzystywaniu obliczeń, miały tendencję do wyprzedzania w końcu bardziej wyspecjalizowanych podejść specyficznych dla danej domeny”.

Jak napisał Sutton we własnym poście na blogu„Największą lekcją, jaką można wyczytać z 70 lat badań nad sztuczną inteligencją, jest to, że ogólne metody wykorzystujące obliczenia są ostatecznie najskuteczniejsze i to z dużym marginesem”.

Postawiony w formalnej tezie, Reed i zespół piszą, że „sprawdzamy tutaj hipotezę, że możliwe jest wyszkolenie agenta, który generalnie jest zdolny do wielu zadań; i że tego ogólnego agenta można dostosować za pomocą niewielkiej ilości dodatkowych danych, aby odnieść sukces w jeszcze większej liczbie zadań”.

Również: Luminarz AI firmy Meta, LeCun, bada granice energetyczne głębokiego uczenia

Model w tym przypadku jest rzeczywiście bardzo ogólny. Jest to wersja Transformera, dominującego modelu opartego na uwadze, który stał się podstawą wielu programów, w tym GPT-3. Transformator modeluje prawdopodobieństwo wystąpienia jakiegoś elementu, biorąc pod uwagę otaczające go elementy, takie jak słowa w zdaniu. 

W przypadku Gato naukowcy DeepMind są w stanie zastosować to samo wyszukiwanie prawdopodobieństwa warunkowego na wielu typach danych. 

Jak Reed i koledzy opisują zadanie szkolenia Gato, 

Podczas fazy uczenia Gato dane z różnych zadań i modalności są serializowane w płaską sekwencję tokenów, grupowane i przetwarzane przez sieć neuronową transformatora podobną do modelu dużego języka. Strata jest maskowana, aby Gato przewidywał tylko cele akcji i tekst.

Innymi słowy, Gato nie traktuje żetonów inaczej, niezależnie od tego, czy są to słowa na czacie, czy wektory ruchu w ćwiczeniu układania bloków. To wszystko jest takie samo. 

deepmind-jak-gato-jest-przeszkolony.png

Scenariusz szkolenia Gato.


Reed i in. 2022

Ukryta w hipotezie Reeda i zespołu jest następstwem, a mianowicie, że w końcu wygrywa coraz większa moc obliczeniowa. Obecnie Gato jest ograniczone przez czas reakcji ramienia robota Sawyera, które wykonuje układanie bloków. Przy 1.18 miliarda parametrów sieci Gato jest znacznie mniejszy niż bardzo duże modele AI, takie jak GPT-3. W miarę jak modele uczenia głębokiego stają się coraz większe, wnioskowanie prowadzi do opóźnień, które mogą zawieść w niedeterministycznym świecie robota w świecie rzeczywistym. 

Jednak Reed i współpracownicy spodziewają się, że limit zostanie przekroczony, gdy sprzęt AI będzie szybciej przetwarzać.

„Skupiamy nasze szkolenie w punkcie operacyjnym skali modelu, który umożliwia sterowanie robotami w czasie rzeczywistym, obecnie około 1.2 miliarda parametrów w przypadku Gato” – napisali. „Wraz z poprawą architektury sprzętu i modelu, ten punkt operacyjny w naturalny sposób zwiększy możliwy do zrealizowania rozmiar modelu, przesuwając modele ogólne wyżej na krzywej prawa skalowania”.

Dlatego Gato jest tak naprawdę modelem tego, jak skala obliczeń będzie nadal głównym wektorem rozwoju uczenia maszynowego, poprzez powiększanie i powiększanie ogólnych modeli. Innymi słowy, większe jest lepsze. 

deepmind-gets-better-with-scale.png

Gato poprawia się wraz ze wzrostem wielkości sieci neuronowej w parametrach.


Reed i in. 2022

A autorzy mają na to pewne dowody. Gato wydaje się stawać coraz lepszy, gdy się powiększa. Porównują uśrednione wyniki we wszystkich zadaniach porównawczych dla trzech rozmiarów modelu według parametrów, 79 milionów, 364 miliony i głównego modelu, 1.18 miliarda. „Widzimy, że dla równoważnej liczby tokenów następuje znaczna poprawa wydajności wraz ze zwiększoną skalą” – piszą autorzy. 

Ciekawym pytaniem na przyszłość jest to, czy program, który jest generalistą, jest bardziej niebezpieczny niż inne rodzaje programów AI. Autorzy poświęcają sporo czasu w artykule na dyskusję na temat potencjalnych zagrożeń, które nie zostały jeszcze dobrze zrozumiane.  

Pomysł programu, który obsługuje wiele zadań, sugeruje laikowi rodzaj ludzkiej zdolności adaptacyjnej, ale może to być niebezpieczne, błędne wyobrażenie. „Na przykład fizyczne ucieleśnienie może prowadzić do antropomorfizacji agenta przez użytkowników, co w przypadku wadliwie działającego systemu prowadzi do niewłaściwego zaufania lub może być wykorzystane przez złych aktorów” – pisze Reed i zespół. 

„Ponadto, chociaż transfer wiedzy między domenami jest często celem w badaniach nad ML, może powodować nieoczekiwane i niepożądane wyniki, jeśli pewne zachowania (np. walka w grach zręcznościowych) zostaną przeniesione do niewłaściwego kontekstu”.

Dlatego piszą: „Względy dotyczące etyki i bezpieczeństwa transferu wiedzy mogą wymagać istotnych nowych badań w miarę postępu systemów ogólnych”.

(Jako ciekawa uwaga, artykuł Gato wykorzystuje schemat opisu ryzyka opracowany przez byłą badaczkę Google AI Margaret Michell i współpracowników, zwany Model Cards. Model Cards zawiera zwięzłe podsumowanie tego, czym jest program AI, co robi i co wpływa na sposób jej działania. Michell napisała w zeszłym roku, że została zmuszona do opuszczenia Google za wspieranie swojego byłego kolegi, Timnita Gebru, którego obawy etyczne dotyczące sztucznej inteligencji były sprzeczne z kierownictwem Google w zakresie sztucznej inteligencji).

Gato nie jest bynajmniej wyjątkowy w swojej tendencji do generalizowania. Jest to część szerokiego trendu uogólniania i większych modeli, które wykorzystują kubełki o mocy. Świat po raz pierwszy posmakował przechylenia Google w tym kierunku zeszłego lata, dzięki sieci neuronowej Google „Perceiver”, która łączyła zadania Transformera tekstowego z obrazami, dźwiękiem i współrzędnymi przestrzennymi LiDAR.

Również: Supermodelka Google: DeepMind Perceiver to krok na drodze do maszyny AI, która może przetwarzać wszystko i wszystko

Wśród jego rówieśników jest PaLM, model języka Pathways, wprowadzone w tym roku przez naukowców Google, model parametrów o wartości 540 miliardów, który wykorzystuje nową technologię do koordynowania tysięcy chipów, znany jako Ścieżki, również wynaleziony w Google. Sieć neuronowa wydana w styczniu przez Meta, zwana „data2vec”, wykorzystuje transformatory do przetwarzania danych obrazu, kształtów fal dźwiękowych mowy i reprezentacji języka tekstowego w jednym. 

Wydaje się, że nowością w Gato jest zamiar przeniesienia sztucznej inteligencji wykorzystywanej do zadań niezwiązanych z robotyką do sfery robotyki.

Twórcy Gato, zwracając uwagę na osiągnięcia Pathways i inne podejścia ogólne, widzą ostateczne osiągnięcie w sztucznej inteligencji, która może działać w prawdziwym świecie, z dowolnym rodzajem zadań. 

„Przyszłe prace powinny rozważyć, jak ujednolicić te możliwości tekstowe w jeden w pełni ogólny agent, który może również działać w czasie rzeczywistym w świecie rzeczywistym, w różnych środowiskach i wcieleniach”. 

Możesz zatem uznać Gato za ważny krok na drodze do rozwiązania najtrudniejszego problemu AI, robotyki. 



Źródło