Ang 'Gato' ng DeepMind ay katamtaman, kaya bakit nila ito binuo?

deepmind-gato-slash-image-closer-in.png

Ang neural network ng DeepMind na "Gato" ay mahusay sa maraming gawain kabilang ang pagkontrol sa mga robotic arm na nagsasalansan ng mga bloke, paglalaro ng Atari 2600 na laro, at paglalagay ng caption ng mga larawan.


Deepmind

Sanay na ang mundo na makakita ng mga headline tungkol sa pinakabagong tagumpay sa pamamagitan ng malalim na pag-aaral ng mga anyo ng artificial intelligence. Ang pinakabagong tagumpay ng DeepMind division ng Google, gayunpaman, ay maaaring maibuod bilang, "Isang AI program na gumagawa ng napakagandang trabaho sa maraming bagay." 

Gato, ang tawag sa programa ng DeepMind, ay inihayag ngayong linggo bilang isang tinatawag na multimodal program, isa na maaaring maglaro ng mga video game, makipag-chat, magsulat ng mga komposisyon, caption ng mga larawan, at kontrolin ang isang robotic arm stacking blocks. Ito ay isang neural network na maaaring gumana sa maraming uri ng data upang magsagawa ng maraming uri ng mga gawain. 

"Sa isang solong hanay ng mga timbang, si Gato ay maaaring makisali sa diyalogo, mga larawan ng caption, mga stack block gamit ang isang tunay na braso ng robot, mas mahusay ang pagganap ng mga tao sa paglalaro ng mga laro ng Atari, mag-navigate sa mga simulate na 3D na kapaligiran, sundin ang mga tagubilin, at higit pa," sumulat ng lead author na si Scott Reed at mga kasamahan sa kanilang papel, "Isang Generalist Agent," nai-post sa Arxiv preprint server

Ang co-founder ng DeepMind na si Demis Hassabis ay natuwa sa koponan, bulalas sa isang tweet, “Ang aming pinaka-pangkalahatang ahente pa!! Napakahusay na gawain mula sa koponan!” 

Ito: Isang bagong eksperimento: Alam ba talaga ng AI ang mga pusa o aso — o anuman?

Ang tanging catch ay na si Gato ay talagang hindi napakahusay sa ilang mga gawain. 

Sa isang banda, ang programa ay nakakagawa ng mas mahusay kaysa sa isang nakatuong machine learning program sa pagkontrol sa isang robotic Sawyer arm na nagsasalansan ng mga bloke. Sa kabilang banda, gumagawa ito ng mga caption para sa mga larawan na sa maraming kaso ay medyo mahirap. Ang kakayahan nito sa karaniwang pag-uusap sa chat sa isang taong kausap ay katamtaman din, kung minsan ay nagdudulot ng mga salungat at walang katuturang pananalita. 

At ang paglalaro nito ng Atari 2600 video game ay mas mababa kaysa sa karamihan ng mga dedikadong programa sa ML na idinisenyo upang makipagkumpitensya sa benchmark Kapaligiran sa Pag-aaral ng Arcade

Bakit ka gagawa ng isang programa na gumagawa ng ilang bagay na medyo mahusay at isang grupo ng iba pang mga bagay na hindi masyadong mahusay? Precedent, at inaasahan, ayon sa mga may-akda. 

Mayroong precedent para sa mas pangkalahatang mga uri ng mga programa na nagiging state of the art sa AI, at may inaasahan na ang pagtaas ng halaga ng computing power ay makakabawi sa mga pagkukulang sa hinaharap. 

Ang pangkalahatan ay maaaring may posibilidad na magtagumpay sa AI. Tulad ng tala ng mga may-akda, binabanggit ang AI scholar na si Richard Sutton, "Sa kasaysayan, ang mga generic na modelo na mas mahusay sa paggamit ng pagtutuos ay may posibilidad din na maabutan ang mas espesyal na mga diskarte na partikular sa domain sa kalaunan."

Gaya ng isinulat ni Sutton sa sarili niyang blog post, "Ang pinakamalaking aral na mababasa mula sa 70 taon ng pananaliksik sa AI ay ang mga pangkalahatang pamamaraan na gumagamit ng pagtutuos ay sa huli ang pinakaepektibo, at sa malaking margin."

Ilagay sa isang pormal na tesis, isinulat ni Reed at ng koponan na "namin dito sinusubok ang hypothesis na ang pagsasanay sa isang ahente na karaniwang may kakayahan sa isang malaking bilang ng mga gawain ay posible; at ang pangkalahatang ahente na ito ay maaaring iakma sa kaunting dagdag na data upang magtagumpay sa mas malaking bilang ng mga gawain.”

Ito: Sinasaliksik ng AI luminary na LeCun ng Meta ang energy frontier ng malalim na pag-aaral

Ang modelo, sa kasong ito, ay, sa katunayan, napaka pangkalahatan. Ito ay isang bersyon ng Transformer, ang nangingibabaw na uri ng modelong nakabatay sa atensyon na naging batayan ng maraming programa kabilang ang GPT-3. Ang isang transpormer ay nagmomodelo ng posibilidad ng ilang elemento dahil sa mga elementong nakapaligid dito tulad ng mga salita sa isang pangungusap. 

Sa kaso ni Gato, ang mga DeepMind scientist ay nagagamit ang parehong conditional probability search sa maraming uri ng data. 

Habang inilarawan ni Reed at mga kasamahan ang gawain ng pagsasanay kay Gato, 

Sa yugto ng pagsasanay ng Gato, ang data mula sa iba't ibang gawain at modalidad ay na-serialize sa isang patag na pagkakasunod-sunod ng mga token, batched, at pinoproseso ng isang transformer neural network na katulad ng isang malaking modelo ng wika. Nakamaskara ang pagkatalo para hulaan lang ni Gato ang mga target na aksyon at text.

Ang Gato, sa madaling salita, ay hindi tinatrato ang mga token nang iba kung ang mga ito ay mga salita sa isang chat o mga vector ng paggalaw sa isang block-stacking na ehersisyo. Pare-parehas lang silang lahat. 

deepmind-how-gato-ay-trained.png

Gato training scenario.


Reed et al. 2022

Ang inilibing sa loob ng Reed at hypothesis ng koponan ay isang corollary, ibig sabihin, mas maraming kapangyarihan sa pag-compute ang mananalo, sa kalaunan. Sa ngayon, nalilimitahan si Gato ng oras ng pagtugon ng isang Sawyer robot arm na gumagawa ng block stacking. Sa 1.18 bilyong mga parameter ng network, ang Gato ay mas maliit kaysa sa napakalaking mga modelo ng AI gaya ng GPT-3. Habang lumalaki ang mga modelo ng malalim na pag-aaral, ang paggawa ng hinuha ay humahantong sa latency na maaaring mabigo sa hindi tiyak na mundo ng isang real-world na robot. 

Ngunit, inaasahan ni Reed at ng mga kasamahan na malalampasan ang limitasyong iyon habang ang AI hardware ay nagiging mas mabilis sa pagproseso.

"Itinuon namin ang aming pagsasanay sa operating point ng scale ng modelo na nagbibigay-daan sa real-time na kontrol ng mga real-world na robot, na kasalukuyang nasa 1.2B na mga parameter sa kaso ni Gato," isinulat nila. "Habang bumubuti ang mga arkitektura ng hardware at modelo, ang operating point na ito ay natural na magpapalaki sa magagawang laki ng modelo, na nagtutulak sa mga generalist na modelo na mas mataas ang scaling law curve."

Samakatuwid, ang Gato ay talagang isang modelo para sa kung paano patuloy na magiging pangunahing vector ng pag-unlad ng machine learning ang scale ng pag-compute, sa pamamagitan ng pagpapalaki at pagpapalaki ng mga pangkalahatang modelo. Mas malaki ay mas mabuti, sa madaling salita. 

deepmind-gets-better-with-scale.png

Gato ay nagiging mas mahusay habang ang laki ng neural network sa mga parameter ay tumataas.


Reed et al. 2022

At ang mga may-akda ay may ilang katibayan para dito. Mukhang gumagaling si Gato habang lumalaki ito. Inihahambing nila ang mga average na marka sa lahat ng benchmark na gawain para sa tatlong laki ng modelo ayon sa mga parameter, 79 milyon, 364 milyon, at ang pangunahing modelo, 1.18 bilyon. "Makikita namin na para sa isang katumbas na bilang ng token, mayroong isang makabuluhang pagpapabuti ng pagganap na may tumaas na sukat," ang mga may-akda ay sumulat. 

Ang isang kawili-wiling tanong sa hinaharap ay kung ang isang programa na isang generalist ay mas mapanganib kaysa sa iba pang mga uri ng AI program. Ang mga may-akda ay gumugugol ng maraming oras sa papel na tinatalakay ang katotohanan na may mga potensyal na panganib na hindi pa naiintindihan ng mabuti.  

Ang ideya ng isang programa na humahawak ng maraming gawain ay nagmumungkahi sa layko ng isang uri ng kakayahang umangkop ng tao, ngunit maaaring ito ay isang mapanganib na maling pang-unawa. "Halimbawa, ang pisikal na embodiment ay maaaring humantong sa pag-antropomorphize ng mga user sa ahente, na humahantong sa maling pagtitiwala sa kaso ng isang hindi gumaganang sistema, o maaaring mapagsamantalahan ng mga masasamang aktor," sulat ni Reed at ng koponan. 

"Bukod pa rito, habang ang paglilipat ng kaalaman sa cross-domain ay kadalasang isang layunin sa pananaliksik sa ML, maaari itong lumikha ng mga hindi inaasahang at hindi kanais-nais na mga resulta kung ang ilang mga pag-uugali (hal. arcade game fighting) ay ililipat sa maling konteksto."

Kaya, isinulat nila, "Ang mga pagsasaalang-alang sa etika at kaligtasan ng paglilipat ng kaalaman ay maaaring mangailangan ng malaking bagong pananaliksik habang sumusulong ang mga generalist system."

(Bilang isang kawili-wiling side note, ang Gato paper ay gumagamit ng isang pamamaraan upang ilarawan ang panganib na ginawa ng dating Google AI researcher na si Margaret Michell at mga kasamahan, na tinatawag na Model Cards. Ang Model Cards ay nagbibigay ng isang maigsi na buod ng kung ano ang isang AI program, kung ano ang ginagawa nito, at kung ano ang ang mga kadahilanan ay nakakaapekto sa kung paano ito gumagana. Isinulat ni Michell noong nakaraang taon na siya ay pinilit na umalis sa Google para sa pagsuporta sa kanyang dating kasamahan, si Timnit Gebru, na ang mga etikal na alalahanin sa AI ay sumama sa pamumuno ng AI ng Google.)

Ang Gato ay hindi nangangahulugang natatangi sa pangkalahatang ugali nito. Ito ay bahagi ng malawak na trend sa generalization, at mas malalaking modelo na gumagamit ng mga bucket ng horsepower. Naranasan ng mundo ang unang pagkiling ng Google sa direksyong ito noong nakaraang tag-araw, gamit ang neural network ng Google na "Perceiver" na pinagsama ang mga text Transformer na gawain na may mga larawan, tunog, at mga spatial na coordinate ng LiDAR.

Ito: Supermodel ng Google: Ang DeepMind Perceiver ay isang hakbang sa daan patungo sa isang AI machine na maaaring magproseso ng anuman at lahat

Kabilang sa mga kapantay nito ang PaLM, ang Pathways Language Model, ipinakilala ngayong taon ng mga siyentipiko ng Google, isang 540-bilyong modelo ng parameter na gumagamit ng bagong teknolohiya para sa pag-coordinate ng libu-libong chips, kilala bilang Pathways, naimbento din sa Google. Ang isang neural network na inilabas noong Enero ng Meta, na tinatawag na "data2vec," ay gumagamit ng mga Transformer para sa data ng imahe, mga speech audio waveform, at mga representasyon ng wika ng teksto sa isa. 

Ang bago kay Gato, tila, ay ang intensyon na kumuha ng AI na ginagamit para sa mga gawaing hindi robotics at itulak ito sa larangan ng robotics.

Ang mga tagalikha ni Gato, na nagpapansin sa mga tagumpay ng Pathways, at iba pang pangkalahatang diskarte, ay nakikita ang pinakahuling tagumpay sa AI na maaaring gumana sa totoong mundo, sa anumang uri ng mga gawain. 

"Dapat isaalang-alang sa hinaharap na gawain kung paano pag-isahin ang mga kakayahan ng teksto na ito sa isang ganap na pangkalahatang ahente na maaari ding kumilos sa real time sa totoong mundo, sa magkakaibang kapaligiran at mga embodiment." 

Kung gayon, maaari mong isaalang-alang si Gato bilang isang mahalagang hakbang sa landas sa paglutas ng pinakamahirap na problema ng AI, ang robotics. 



pinagmulan