DeepMindov 'Gato' je povprečen, zakaj so ga torej zgradili?

deepmind-gato-slash-image-closer-in.png

DeepMindova nevronska mreža »Gato« je odlična pri številnih nalogah, vključno z nadzorom robotskih rok, ki zlagajo bloke, igranjem iger Atari 2600 in dodajanjem napisov slikam.


Deepmind

Svet je navajen gledati naslovnice o najnovejšem preboju oblik globokega učenja umetne inteligence. Najnovejši dosežek Googlovega oddelka DeepMind pa bi lahko povzeli kot: "En program AI, ki opravlja zelo dobro delo pri številnih stvareh." 

Gato, kot se imenuje program DeepMinda, je bil predstavljen ta teden kot tako imenovan multimodalni program, ki lahko igra video igrice, klepeta, piše sestavke, podnapise slikam in nadzoruje robotsko roko, ki zlaga bloke. Je ena nevronska mreža, ki lahko deluje z več vrstami podatkov za izvajanje več vrst nalog. 

"Z enim nizom uteži se lahko Gato vključi v dialog, doda slike, zlaga bloke s pravo roko robota, prekaša ljudi pri igranju iger Atari, krmari v simuliranih 3D okoljih, sledi navodilom in še več," piše glavni avtor Scott Reed in sodelavci v svojem prispevku, "Agent Generalist," objavljeno na strežniku za prednatis Arxiv

Soustanovitelj DeepMinda Demis Hassabis je navijal za ekipo, vzklikne v tvitu, “Naš najbolj splošni agent doslej!! Fantastično delo ekipe!« 

Prav tako: Nov eksperiment: Ali umetna inteligenca res pozna mačke ali pse - ali kaj drugega?

Edina zanka je, da Gato dejansko ni tako dober pri več nalogah. 

Po eni strani lahko program deluje bolje kot namenski program za strojno učenje pri nadzoru robotske roke Sawyer, ki zlaga bloke. Po drugi strani pa ustvarja napise za slike, ki so v mnogih primerih precej slabi. Njegova zmožnost standardnega klepetalnega dialoga s človeškim sogovornikom je podobno povprečna, včasih izzove protislovne in nesmiselne izjave. 

Njegovo igranje video iger Atari 2600 pade pod večino namenskih programov ML, zasnovanih za tekmovanje v merilu uspešnosti. Arkadno učno okolje

Zakaj bi naredili program, ki dela nekatere stvari precej dobro in kup drugih stvari ne tako dobro? Precedens in pričakovanje po mnenju avtorjev. 

Obstaja precedens za bolj splošne vrste programov, ki postajajo najsodobnejši v AI, in obstaja pričakovanje, da bo vse večja računalniška moč v prihodnosti nadomestila pomanjkljivosti. 

Splošnost lahko zmaga v AI. Kot ugotavljajo avtorji, ki navajajo učenjaka AI Richarda Suttona, "zgodovinsko gledano so generični modeli, ki so boljši pri izkoriščanju računanja, sčasoma prav tako prehiteli bolj specializirane domensko specifične pristope."

Kot je napisal Sutton v svojem blogu, "Največja lekcija, ki jo je mogoče razbrati iz 70 let raziskav umetne inteligence, je, da so splošne metode, ki izkoriščajo računanje, na koncu najučinkovitejše in v veliki meri."

V formalni tezi Reed in ekipa pišejo, da »tu preizkušamo hipotezo, da je možno usposabljanje agenta, ki je na splošno sposoben velikega števila nalog; in da je tega generalnega agenta mogoče prilagoditi z malo dodatnimi podatki za uspeh pri še večjem številu nalog.«

Prav tako: Metina AI svetilka LeCun raziskuje energetske meje globokega učenja

Model je v tem primeru res zelo splošen. Je različica Transformerja, prevladujoče vrste modela, ki temelji na pozornosti in je postal osnova številnih programov, vključno z GPT-3. Transformator modelira verjetnost nekega elementa glede na elemente, ki ga obdajajo, kot so besede v stavku. 

V primeru Gata lahko znanstveniki DeepMinda uporabijo isto pogojno verjetnostno iskanje na številnih vrstah podatkov. 

Kot Reed in sodelavci opisujejo nalogo usposabljanja Gato, 

Med fazo usposabljanja Gato so podatki iz različnih nalog in modalitet serializirani v ravno zaporedje žetonov, združeni in obdelani s transformatorsko nevronsko mrežo, podobno velikemu jezikovnemu modelu. Izguba je prikrita, tako da Gato napove samo akcijske in besedilne cilje.

Z drugimi besedami, Gato žetonov ne obravnava drugače, ne glede na to, ali so besede v klepetu ali vektorji gibanja v vaji zlaganja blokov. Vse je isto. 

deepmind-how-gato-is-trained.png

Scenarij treninga Gato.


Reed et al. 2022

V hipotezo Reeda in ekipe je zakopana posledica, in sicer, da bo sčasoma zmagalo vedno več računalniške moči. Trenutno je Gato omejen z odzivnim časom robotske roke Sawyer, ki zlaga bloke. Z 1.18 milijarde omrežnih parametrov je Gato bistveno manjši od zelo velikih modelov AI, kot je GPT-3. Ko modeli globokega učenja postajajo večji, izvajanje sklepanja vodi do zakasnitve, ki lahko spodleti v nedeterminističnem svetu resničnega robota. 

Toda Reed in sodelavci pričakujejo, da bo ta meja presežena, saj bo strojna oprema AI hitrejša pri obdelavi.

"Naše usposabljanje se osredotočamo na delovno točko lestvice modela, ki omogoča nadzor robotov v resničnem svetu v realnem času, trenutno okoli 1.2B parametrov v primeru Gato," so zapisali. "Ko se strojna oprema in arhitektura modela izboljšujeta, bo ta delovna točka naravno povečala izvedljivo velikost modela, s čimer bo splošne modele potisnila višje na krivuljo skaliranja."

Zato je Gato v resnici model za to, kako bo obseg računalništva še naprej glavni vektor razvoja strojnega učenja, saj bo splošne modele vedno večjal. Z drugimi besedami, večje je boljše. 

deepmind-gets-better-with-scale.png

Gato postane boljši, ko se poveča velikost parametrov nevronske mreže.


Reed et al. 2022

In avtorji imajo nekaj dokazov za to. Zdi se, da se Gato izboljšuje, ko postaja večji. Primerjajo povprečne rezultate za vse primerjalne naloge za tri velikosti modela glede na parametre, 79 milijonov, 364 milijonov, in glavni model, 1.18 milijarde. "Vidimo lahko, da je pri enakovrednem številu žetonov prišlo do pomembnega izboljšanja zmogljivosti s povečanim obsegom," pišejo avtorji. 

Zanimivo prihodnje vprašanje je, ali je program, ki je splošni program, nevarnejši od drugih vrst programov AI. Avtorji v prispevku porabijo veliko časa za razpravo o dejstvu, da obstajajo potencialne nevarnosti, ki še niso dobro razumljene.  

Zamisel o programu, ki obravnava več nalog, laiku nakazuje na nekakšno človeško prilagodljivost, vendar je to lahko nevarno napačno dojemanje. "Fizično utelešenje bi lahko na primer vodilo do tega, da bi uporabniki antropomorfizirali agenta, kar bi privedlo do napačnega zaupanja v primeru nedelujočega sistema, ali pa bi ga lahko izkoristili slabi igralci," pišejo Reed in ekipa. 

"Poleg tega, čeprav je meddomenski prenos znanja pogosto cilj raziskav ML, lahko povzroči nepričakovane in neželene rezultate, če se nekatera vedenja (npr. bojevanje v arkadnih igrah) prenesejo v napačen kontekst."

Zato pišejo: "Etični in varnostni vidiki prenosa znanja lahko zahtevajo precejšnje nove raziskave, ko splošni sistemi napredujejo."

(Kot zanimiva stranska opomba je, da dokument Gato uporablja shemo za opis tveganja, ki so jo razvili nekdanja Googlova raziskovalka AI Margaret Michell in sodelavci, imenovano Model Cards. Modelne kartice dajejo jedrnat povzetek tega, kaj je program AI, kaj počne in kaj Michell je lani napisala, da je bila prisiljena zapustiti Google, ker je podpirala svojega nekdanjega kolega Timnita Gebruja, čigar etični pomisleki glede umetne inteligence so bili v nasprotju z Googlovim vodstvom na področju umetne inteligence.)

Gato nikakor ni edinstven v svoji posploševalni težnji. Je del širokega trenda posploševanja in večjih modelov, ki uporabljajo vedra konjskih moči. Svet je lani poleti prvič okusil Googlov nagib v tej smeri z Googlovo nevronsko mrežo »Perceiver«, ki je združila naloge transformatorja besedila s slikami, zvokom in prostorskimi koordinatami LiDAR.

Prav tako: Googlov supermodel: DeepMind Perceiver je korak na poti do AI stroja, ki bi lahko obdelal vse in vse

Med podobnimi je PaLM, Pathways Language Model, letos predstavili Googlovi znanstveniki, model s 540 milijardami parametrov, ki uporablja novo tehnologijo za usklajevanje na tisoče čipov, znane kot poti, prav tako izumljen pri Googlu. Nevronska mreža, ki jo je januarja izdala Meta, imenovana »data2vec«, uporablja transformatorje za slikovne podatke, govorne zvočne valovne oblike in predstavitve jezika besedila vse v enem. 

Kar je novega pri Gatu, se zdi, da namerava vzeti AI, ki se uporablja za nerobotske naloge, in ga potisniti v področje robotike.

Ustvarjalci Gata ob upoštevanju dosežkov Pathways in drugih splošnih pristopov vidijo končni dosežek v AI, ki lahko deluje v resničnem svetu s kakršnimi koli nalogami. 

"Prihodnje delo bi moralo razmisliti o tem, kako poenotiti te besedilne zmogljivosti v enega popolnoma splošnega agenta, ki lahko deluje tudi v realnem času v resničnem svetu, v različnih okoljih in izvedbah." 

Gato bi torej lahko obravnavali kot pomemben korak na poti k reševanju najtežjega problema AI, robotike. 



vir