«Gato» ад DeepMind пасрэдны, дык навошта яны яго стварылі?

deepmind-gato-slash-image-closer-in.png

Нейронная сетка DeepMind “Gato” выдатна спраўляецца са шматлікімі задачамі, уключаючы кіраванне рабатызаванымі рукамі, якія складаюць блокі, гульні Atari 2600 і субцітры да малюнкаў.


Deepmind

Свет прывык бачыць загалоўкі аб апошнім прарыве глыбокага навучання формаў штучнага інтэлекту. Апошняе дасягненне падраздзялення Google DeepMind, аднак, можна абагульніць так: «Адна праграма штучнага інтэлекту, якая робіць так сабе працу ў многіх справах». 

Gato, як называецца праграма DeepMind, быў прадстаўлены на гэтым тыдні у якасці так званай мультымадальнай праграмы, якая можа гуляць у відэагульні, мець зносіны, пісаць кампазіцыі, падпісваць выявы і кіраваць рабатызаванай рукой, якая складвае блокі. Гэта адна нейронавая сетка, якая можа працаваць з рознымі відамі даных для выканання розных відаў задач. 

«З дапамогай аднаго набору вагаў Gato можа весці дыялог, дадаваць выявы, складаць блокі з дапамогай сапраўднай рукі робата, пераўзыходзіць людзей у гульнях Atari, перамяшчацца ў змадэляваных 3D-асяроддзях, выконваць інструкцыі і многае іншае», — піша вядучы аўтар Скот Рыд. і калегі ў сваёй працы "Агент шырокага профілю", размешчаны на серверы прэпрынтаў Arxiv

Сузаснавальнік DeepMind Дэміс Хасабіс падбадзёрваў каманду, усклікае ў твітэры, «Наш самы галоўны агент!! Фантастычная праца ад каманды!» 

Такім чынам: Новы эксперымент: ці сапраўды штучны інтэлект ведае катоў ці сабак — ці нешта яшчэ?

Адзіная загваздка ў тым, што Гато на самай справе не вельмі добры ў некалькіх задачах. 

З аднаго боку, праграма можа лепш, чым спецыяльная праграма машыннага навучання, кіраваць рабатызаванай рукой Sawyer, якая складвае блокі. З іншага боку, ён стварае подпісы для малюнкаў, якія ў многіх выпадках вельмі дрэнныя. Яго здольнасць весці стандартны чат-дыялог з суразмоўцам таксама пасрэдная, часам выклікаючы супярэчлівыя і бессэнсоўныя выказванні. 

І яго гульня ў відэагульні Atari 2600 апускаецца ніжэй, чым у большасці спецыяльных праграм ML, прызначаных для канкурэнцыі ў эталоне Аркаднае навучальнае асяроддзе

Навошта вам ствараць праграму, якая робіць некаторыя рэчы даволі добра, а кучу іншых - не вельмі? Прэцэдэнт і чаканне, на думку аўтараў. 

Ёсць прэцэдэнт для больш агульных відаў праграм, якія становяцца сучасным тэхналогіяй штучнага інтэлекту, і ёсць чаканне, што павелічэнне аб'ёмаў вылічальнай магутнасці ў будучыні кампенсуе недахопы. 

Агульнасць можа перамагаць у ІІ. Як адзначаюць аўтары са спасылкай на вучонага ў галіне штучнага інтэлекту Рычарда Сатана, «Гістарычна склалася так, што агульныя мадэлі, якія лепш выкарыстоўваюць вылічэнні, у рэшце рэшт таксама мелі тэндэнцыю абганяць больш спецыялізаваныя даменна-арыентаваныя падыходы».

Як напісаў Сатан у сваім уласным паведамленні ў блогу, «Самы вялікі ўрок, які можна вынесці з 70-гадовых даследаванняў штучнага інтэлекту, заключаецца ў тым, што агульныя метады, якія выкарыстоўваюць вылічэнні, у канчатковым выніку найбольш эфектыўныя і з вялікім адрывам».

Выкладзены ў фармальную дысертацыю, Рыд і каманда пішуць, што «мы тут правяраем гіпотэзу аб тым, што навучанне агента, які ў цэлым здольны выконваць вялікую колькасць задач, магчыма; і што гэты генеральны агент можа быць адаптаваны з невялікай колькасцю дадатковых дадзеных для дасягнення поспеху ў яшчэ большай колькасці задач».

Такім чынам: Свяціла штучнага інтэлекту Meta LeCun даследуе энергетычныя межы глыбокага навучання

Мадэль, у дадзеным выпадку, сапраўды, вельмі агульная. Гэта версія Transformer, дамінуючага тыпу арыентаванай на ўвагу мадэлі, якая стала асновай шматлікіх праграм, у тым ліку GPT-3. Трансфарматар мадэлюе верагоднасць некаторага элемента з улікам элементаў, якія яго атачаюць, напрыклад слоў у сказе. 

У выпадку з Gato навукоўцы DeepMind могуць выкарыстоўваць адзін і той жа ўмоўны імавернасны пошук па шматлікіх тыпах даных. 

Як Рыд і яго калегі апісваюць задачу навучання Гато, 

Падчас фазы навучання Gato даныя розных задач і мадальнасцей серыялізуюцца ў плоскую паслядоўнасць токенаў, групуюцца і апрацоўваюцца нейрасеткай-трансфарматарам, падобнай да вялікай моўнай мадэлі. Страта маскіруецца так, што Гато прадказвае толькі дзеянні і тэкставыя мэты.

Іншымі словамі, Gato не разглядае токены па-рознаму, незалежна ад таго, з'яўляюцца яны словамі ў чаце або вектарамі руху ў практыкаванні па складанні блокаў. Усё роўна. 

deepmind-how-gato-is-trained.png

Сцэнар навучання Gato.


Рыд і інш. 2022 год

У гіпотэзе Рыда і каманды закладзена наступнае, а менавіта тое, што ўсё большая і большая вылічальная магутнасць у канчатковым выніку будзе перамагаць. Зараз Gato абмежаваны часам водгуку робата Sawyer, які выконвае складванне блокаў. Маючы 1.18 мільярда параметраў сеткі, Gato значна менш, чым вельмі вялікія мадэлі AI, такія як GPT-3. Па меры таго, як мадэлі глыбокага навучання павялічваюцца, выкананне вываду прыводзіць да затрымкі, якая можа выйсці з ладу ў недэтэрмінаваным свеце рэальнага робата. 

Але Рыд і яго калегі чакаюць, што гэты ліміт будзе перавышаны, паколькі апаратнае забеспячэнне штучнага інтэлекту становіцца больш хуткім пры апрацоўцы.

«Мы засяроджваем наша навучанне на рабочай кропцы маштабу мадэлі, якая дазваляе ў рэжыме рэальнага часу кантраляваць рэальных робатаў, у цяперашні час каля 1.2 B параметраў у выпадку Gato», — напісалі яны. «Па меры ўдасканалення апаратных сродкаў і архітэктуры мадэляў гэтая рабочая кропка натуральным чынам павялічыць магчымы памер мадэлі, падштурхоўваючы мадэлі агульнага профілю вышэй па крывой закону маштабавання».

Такім чынам, Gato сапраўды з'яўляецца мадэллю таго, як маштаб вылічэнняў будзе працягваць заставацца асноўным вектарам развіцця машыннага навучання, павялічваючы агульныя мадэлі ўсё больш і больш. Іншымі словамі, чым больш, тым лепш. 

deepmind-gets-better-with-scale.png

Gato паляпшаецца па меры павелічэння памеру нейронавай сеткі ў параметрах.


Рыд і інш. 2022 год

І гэтаму ў аўтараў ёсць пэўныя доказы. Gato, здаецца, становіцца лепш, калі ён становіцца большым. Яны параўноўваюць асераднёныя балы па ўсіх эталонных задачах для трох памераў мадэлі ў адпаведнасці з параметрамі 79 мільёнаў, 364 мільёны і асноўнай мадэлі 1.18 мільярда. «Мы бачым, што пры эквівалентнай колькасці токенаў назіраецца значнае павышэнне прадукцыйнасці з павелічэннем маштабу», - пішуць аўтары. 

Цікавае пытанне ў будучыні: ці з'яўляецца праграма агульнага профілю больш небяспечнай, чым іншыя віды праграм штучнага інтэлекту. Аўтары марнуюць кучу часу ў артыкуле, абмяркоўваючы той факт, што існуюць патэнцыйныя небяспекі, якія яшчэ добра не вывучаны.  

Ідэя праграмы, якая апрацоўвае некалькі задач, наводзіць на думку абывацеля пра чалавечую прыстасоўвальнасць, але гэта можа быць небяспечным памылковым меркаваннем. «Напрыклад, фізічнае ўвасабленне можа прывесці да таго, што карыстальнікі антрапамарфізуюць агента, што прывядзе да недарэчнага даверу ў выпадку няправільнай працы сістэмы, або можа быць выкарыстана дрэннымі акцёрамі», — пішуць Рыд і каманда. 

«Акрамя таго, хоць перадача ведаў паміж даменамі часта з'яўляецца мэтай даследаванняў ML, гэта можа прывесці да нечаканых і непажаданых вынікаў, калі пэўныя паводзіны (напрыклад, аркадныя баі) пераносяцца ў няправільны кантэкст».

Такім чынам, яны пішуць: «Меркаванні этыкі і бяспекі перадачы ведаў могуць запатрабаваць істотных новых даследаванняў па меры развіцця сістэм шырокага профілю».

(Як цікавая заўвага, у артыкуле Гато выкарыстоўваецца схема для апісання рызыкі, распрацаваная былой даследчыцай Google AI Маргарэт Мішэль і яе калегамі, якая называецца Мадэльныя карты. Мадэльныя карты даюць кароткае апісанне таго, што такое праграма AI, што яна робіць і што фактары ўплываюць на тое, як ён працуе. У мінулым годзе Мішэль напісала, што яе вымусілі пакінуць Google за падтрымку свайго былога калегі Цімніта Гебру, чые этычныя праблемы адносна штучнага інтэлекту супярэчылі кіраўніцтву Google у галіне штучнага інтэлекту.)

Гато зусім не ўнікальны ў сваёй абагульняючай тэндэнцыі. Гэта частка шырокай тэндэнцыі да абагульнення і больш буйных мадэляў, якія выкарыстоўваюць вёдры конскіх сіл. Мінулым летам свет упершыню адчуў нахіл Google у гэтым напрамку з нейронавай сеткай Google “Perceiver”, якая аб'яднала задачы Transformer тэксту з выявамі, гукам і прасторавымі каардынатамі LiDAR.

Такім чынам: Супермадэль Google: DeepMind Perceiver - гэта крок на шляху да машыны AI, якая можа апрацоўваць усё і ўсё

Сярод аналагаў - PaLM, моўная мадэль Pathways, прадстаўлены ў гэтым годзе навукоўцамі Google, мадэль з 540 мільярдамі параметраў, якая выкарыстоўвае новую тэхналогію для каардынацыі тысяч мікрасхем, вядомыя як шляхі, таксама вынайдзены ў Google. Нейронная сетка, выпушчаная ў студзені кампаніяй Meta, пад назвай «data2vec» выкарыстоўвае Transformers для даных малюнкаў, маўленчых гукавых сігналаў і моўных уяўленняў тэксту, усё ў адным. 

Што новага ў Gato, здавалася б, гэта намер узяць штучны інтэлект, які выкарыстоўваецца для задач, не звязаных з робататэхнікай, і перанесці яго ў сферу робататэхнікі.

Стваральнікі Gato, адзначаючы дасягненні Pathways і іншыя агульныя падыходы, бачаць канчатковае дасягненне ў ІІ, які можа працаваць у рэальным свеце з любымі задачамі. 

«Будучая праца павінна разгледзець пытанне аб тым, як аб'яднаць гэтыя тэкставыя магчымасці ў адзін цалкам універсальны агент, які таксама можа дзейнічаць у рэальным часе ў рэальным свеце, у розных асяроддзях і ўвасабленнях». 

Такім чынам, вы можаце разглядаць Gato як важны крок на шляху да вырашэння самай складанай праблемы штучнага інтэлекту - робататэхнікі. 



крыніца