„Gato“ на DeepMind е посредствен, така че защо са го изградили?

deepmind-gato-slash-image-closer-in.png

Невронната мрежа „Gato“ на DeepMind се отличава с множество задачи, включително контролиране на роботизирани ръце, които подреждат блокове, игра на игри на Atari 2600 и надпис на изображения.


DeepMind

Светът е свикнал да вижда заглавия за най-новия пробив на формите на дълбоко обучение на изкуствения интелект. Последното постижение на подразделението DeepMind на Google обаче може да се обобщи като „Една програма за изкуствен интелект, която върши толкова работа в много неща“. 

Gato, както се нарича програмата на DeepMind, беше представена тази седмица като така наречената мултимодална програма, която може да играе видеоигри, да чати, да пише композиции, снимки на надписи и да управлява блокове за подреждане на роботизирана ръка. Това е една невронна мрежа, която може да работи с множество видове данни, за да изпълнява множество видове задачи. 

„С един набор от тежести, Gato може да участва в диалог, изображения с надписи, да подрежда блокове с истинска ръка робот, да превъзхожда хората в играта на Atari игри, да навигира в симулирани 3D среди, да следва инструкции и други“, пише водещият автор Скот Рийд и колеги в техния документ „Агент генералист“, публикуван на сървъра за предпечат на Arxiv

Съоснователят на DeepMind Демис Хасабис аплодира екипа, възкликва в туит, „Нашият най-генерален агент досега!! Фантастична работа от екипа!” 

Също така: Нов експеримент: AI наистина ли познава котки или кучета - или нещо подобно?

Единствената уловка е, че Гато всъщност не е толкова страхотен в няколко задачи. 

От една страна, програмата е в състояние да се справи по-добре от специална програма за машинно обучение при контролиране на роботизирана ръка на Sawyer, която подрежда блокове. От друга страна, той създава надписи за изображения, които в много случаи са доста лоши. Способността му да води стандартен диалог в чат с човешки събеседник е също толкова посредствена, понякога предизвиква противоречиви и безсмислени изказвания. 

А играта му на видеоигри Atari 2600 пада под това на повечето специализирани ML програми, предназначени да се конкурират в еталон Аркадна учебна среда

Защо бихте направили програма, която прави някои неща доста добре и куп други неща не толкова добре? Прецедент и очакване, според авторите. 

Има прецедент за по-общи видове програми, които стават най-съвременните в AI, и има очакване, че увеличаващите се количества изчислителна мощност в бъдеще ще компенсират недостатъците. 

Общността може да има тенденция да триумфира в AI. Както отбелязват авторите, позовавайки се на учения по изкуствен интелект Ричард Сътън, „Исторически погледнато, генеричните модели, които са по-добри в изчисленията, също са склонни да изпреварват в крайна сметка по-специализирани подходи, специфични за домейна“.

Както писа Сътън в собствената си публикация в блога, „Най-големият урок, който може да се прочете от 70 години изследвания на изкуствения интелект, е, че общите методи, които използват изчисленията, в крайна сметка са най-ефективните и с голяма разлика.“

Вложени в официална теза, Рийд и екипът пишат, че „тук тестваме хипотезата, че е възможно обучението на агент, който по принцип е способен да изпълнява голям брой задачи; и че този генерален агент може да бъде адаптиран с малко допълнителни данни, за да успее при още по-голям брой задачи."

Също така: Светилото на AI на Meta LeCun изследва енергийната граница на дълбокото обучение

Моделът в този случай наистина е много общ. Това е версия на Transformer, доминиращият вид модел, базиран на вниманието, който се превърна в основа на множество програми, включително GPT-3. Трансформатор моделира вероятността за даден елемент, като се имат предвид елементите, които го заобикалят, като думи в изречение. 

В случая с Gato учените от DeepMind могат да използват същото търсене на условна вероятност за множество типове данни. 

Както Рийд и колегите описват задачата за обучение на Гато, 

По време на фазата на обучение на Gato, данните от различни задачи и модалности се сериализират в плоска последователност от токени, групирани и обработени от трансформаторна невронна мрежа, подобна на голям езиков модел. Загубата е маскирана, така че Gato прогнозира само действия и текстови цели.

Гато, с други думи, не третира токените по различен начин, независимо дали са думи в чат или вектори за движение в упражнение за подреждане на блокове. Всичко е същото. 

deepmind-how-gato-is-trained.png

Сценарий за обучение на Gato.


Reed et al. 2022 г

Погребана в Рийд и хипотезата на екипа е следствие, а именно, че в крайна сметка ще печелят все повече и повече изчислителна мощност. В момента Gato е ограничен от времето за реакция на ръката на робот Sawyer, която извършва подреждането на блокове. С 1.18 милиарда мрежови параметри, Gato е значително по-малък от много големи модели с изкуствен интелект като GPT-3. Тъй като моделите за дълбоко обучение стават все по-големи, извършването на извод води до латентност, която може да се провали в недетерминирания свят на робот от реалния свят. 

Но Рийд и колегите му очакват тази граница да бъде надмината, тъй като AI хардуерът става по-бърз при обработката.

„Ние фокусираме нашето обучение върху работната точка на мащаба на модела, който позволява контрол в реално време на роботи от реалния свят, в момента около 1.2B параметри в случая на Gato“, пишат те. „С усъвършенстването на хардуера и архитектурите на моделите, тази работна точка естествено ще увеличи възможния размер на модела, изтласквайки универсалните модели по-нагоре по кривата на закона за мащабиране.

Следователно Gato наистина е модел за това как мащабът на изчисленията ще продължи да бъде основният вектор на развитието на машинното обучение, като прави общите модели все по-големи и по-големи. По-голямото е по-добре, с други думи. 

deepmind-stas-better-with-scale.png

Gato се подобрява с увеличаване на размера на невронната мрежа в параметрите.


Reed et al. 2022 г

И авторите имат някои доказателства за това. Гато изглежда се подобрява, когато става по-голям. Те сравняват средните резултати за всички задачи за сравнение за три размера на модела според параметрите, 79 милиона, 364 милиона, и основния модел, 1.18 милиарда. „Можем да видим, че за еквивалентен брой токени има значително подобрение на производителността с увеличен мащаб“, пишат авторите. 

Интересен бъдещ въпрос е дали една програма, която е универсална, е по-опасна от други видове AI програми. Авторите прекарват много време в статията, обсъждайки факта, че съществуват потенциални опасности, които все още не са добре разбрани.  

Идеята за програма, която се справя с множество задачи, предполага на неспециалиста някаква човешка адаптивност, но това може да е опасно погрешно схващане. „Например, физическото въплъщение може да доведе до това, че потребителите антропоморфизират агента, което води до неправилно доверие в случай на неправилно функционираща система или да бъде използвано от лоши актьори“, пишат Рийд и екипът. 

„Освен това, докато трансферът на знания между домейни често е цел в изследванията на ML, той може да създаде неочаквани и нежелани резултати, ако определени поведения (например битки в аркадни игри) се прехвърлят в грешен контекст.“

Следователно те пишат: „Съображенията за етика и безопасност при трансфера на знания може да изискват съществени нови изследвания с напредването на универсалните системи.“

(Като интересна странична бележка, документът Gato използва схема за описване на риска, разработена от бившия изследовател на Google AI Маргарет Мишел и колеги, наречена Model Cards. Моделните карти дават кратко обобщение на това какво представлява AI програма, какво прави и какво фактори влияят върху начина, по който работи. Миналата година Мишел написа, че е била принудена да напусне Google, тъй като е подкрепила бившия си колега Тимнит Гебру, чиито етични опасения относно ИИ се разминават с ръководството на Google за ИИ.)

Гато в никакъв случай не е уникален в своята обобщаваща тенденция. Това е част от широката тенденция към обобщаване и по-големите модели, които използват кофи с конски сили. Светът за първи път усети наклона на Google в тази посока миналото лято с невронната мрежа на Google „Perceiver“, която комбинира задачи на текстови трансформатори с изображения, звук и пространствени координати на LiDAR.

Също така: Супермоделът на Google: DeepMind Perceiver е стъпка по пътя към AI машина, която може да обработва всичко и всичко

Сред колегите му е PaLM, езиковият модел на Pathways, въведена тази година от учени от Google, модел с 540 милиарда параметри, който използва нова технология за координиране на хиляди чипове, известни като пътеки, също изобретен в Google. Невронна мрежа, пусната през януари от Meta, наречена „data2vec“, използва трансформатори за данни за изображения, аудиоформи на речта и представяне на езика на текста всичко в едно. 

Това, което е новото в Gato, изглежда, е намерението да се използва AI, използван за задачи, които не са роботизирани, и да се изтласка в сферата на роботиката.

Създателите на Gato, отбелязвайки постиженията на Pathways и други общи подходи, виждат най-доброто постижение в AI, който може да работи в реалния свят, с всякакъв вид задачи. 

„Бъдещата работа трябва да обмисли как да се обединят тези текстови възможности в един напълно универсален агент, който също може да действа в реално време в реалния свят, в различни среди и изпълнения. 

Тогава бихте могли да разглеждате Gato като важна стъпка по пътя към решаването на най-трудния проблем на AI, роботиката. 



източник