DeepMindov 'Gato' je osrednji, pa zašto su ga napravili?

deepmind-gato-slash-image-closer-in.png

DeepMindova neuronska mreža “Gato” briljira u brojnim zadacima, uključujući kontrolu robotskih ruku koje slažu blokove, igranje igrica Atari 2600 i dodavanje naslova slikama.


DeepMind

Svijet je navikao vidjeti naslove o najnovijim otkrićima oblika dubokog učenja umjetne inteligencije. Najnovije postignuće DeepMind odjela Googlea, međutim, moglo bi se sažeti kao, "Jedan AI program koji radi tako-tako posao u puno stvari." 

Gato, kako se zove DeepMindov program, predstavljen je ovaj tjedan kao tzv. multimodalni program, onaj koji može igrati video igre, razgovarati, pisati sastave, opisivati ​​slike i upravljati robotskom rukom koja slaže blokove. To je jedna neuronska mreža koja može raditi s više vrsta podataka za obavljanje više vrsta zadataka. 

"S jednim skupom utega, Gato može sudjelovati u dijalogu, opisivati ​​slike, slagati blokove pravom robotskom rukom, nadmašiti ljude u igranju Atari igrica, kretati se u simuliranim 3D okruženjima, slijediti upute i još mnogo toga", napisao je glavni autor Scott Reed i kolege u svom radu, "Agent Generalist," objavljeno na Arxiv poslužitelju za pretisak

Suosnivač DeepMinda Demis Hassabis bodrio je tim, uzviknuvši u tvitu, “Naš najveći agent do sada!! Fantastičan rad tima!” 

Isto tako: Novi eksperiment: Poznaje li AI doista mačke ili pse - ili bilo što?

Jedina začkoljica je u tome što Gato zapravo nije tako dobar u nekoliko zadataka. 

S jedne strane, program može biti bolji od namjenskog programa za strojno učenje u upravljanju robotskom Sawyerovom rukom koja slaže blokove. S druge strane, proizvodi opise za slike koji su u mnogim slučajevima prilično loši. Njegova sposobnost standardnog chat dijaloga s ljudskim sugovornikom jednako je osrednja, ponekad izazivajući kontradiktorne i besmislene izjave. 

A njegovo igranje videoigara Atari 2600 pada ispod onog kod većine namjenskih ML programa dizajniranih da se natječu u mjerilu Arkadno okruženje za učenje

Zašto biste napravili program koji neke stvari radi prilično dobro, a hrpu drugih stvari ne tako dobro? Presedan i očekivanje, prema autorima. 

Postoji presedan za općenitije vrste programa koji postaju vrhunac u umjetnoj inteligenciji i postoji očekivanje da će sve veće količine računalne snage u budućnosti nadoknaditi nedostatke. 

Općenitost može trijumfirati u AI. Kao što autori primjećuju, citirajući stručnjaka za umjetnu inteligenciju Richarda Suttona, "Povijesno gledano, generički modeli koji su bolji u iskorištavanju računanja također su s vremenom težili prestići specijaliziranije pristupe specifične za domenu."

Kao što je Sutton napisao u vlastitom postu na blogu, "Najveća lekcija koja se može pročitati iz 70 godina istraživanja umjetne inteligencije je da su opće metode koje koriste računanje u konačnici najučinkovitije, i to s velikom razlikom."

Prevedeno u formalnu tezu, Reed i tim pišu da “mi ovdje testiramo hipotezu da je moguća obuka agenta koji je općenito sposoban za veliki broj zadataka; i da se ovaj opći agent može prilagoditi s malo dodatnih podataka kako bi uspio u još većem broju zadataka.”

Isto tako: Metina AI svjetiljka LeCun istražuje energetske granice dubokog učenja

Model je, u ovom slučaju, doista vrlo općenit. To je inačica Transformera, dominantne vrste modela temeljenog na pozornosti koji je postao osnova brojnih programa uključujući GPT-3. Transformator modelira vjerojatnost nekog elementa s obzirom na elemente koji ga okružuju, kao što su riječi u rečenici. 

U slučaju Gatoa, znanstvenici DeepMinda mogu koristiti istu uvjetnu pretragu vjerojatnosti na brojnim tipovima podataka. 

Kako Reed i kolege opisuju zadatak treniranja Gata, 

Tijekom faze obuke Gatoa, podaci iz različitih zadataka i modaliteta serijaliziraju se u ravan niz tokena, grupiraju se i obrađuju pomoću transformatorske neuronske mreže slične velikom jezičnom modelu. Gubitak je maskiran tako da Gato predviđa samo akcije i tekstualne ciljeve.

Gato, drugim riječima, ne tretira tokene drugačije bilo da su riječi u chatu ili vektori kretanja u vježbi slaganja blokova. Sve je isto. 

deepmind-how-gato-is-trained.png

Scenarij Gato treninga.


Reed i sur. 2022

U hipotezi Reeda i tima zakopana je posljedica, naime da će sve više i više računalne snage pobijediti, na kraju. Trenutačno je Gato ograničen vremenom odgovora robotske ruke Sawyer koja slaže blokove. S 1.18 milijardi mrežnih parametara, Gato je znatno manji od vrlo velikih AI modela kao što je GPT-3. Kako modeli dubokog učenja postaju veći, izvođenje zaključivanja dovodi do kašnjenja koje može zakazati u nedeterminističkom svijetu robota u stvarnom svijetu. 

No, Reed i kolege očekuju da će ta granica biti premašena kako AI hardver postaje brži u obradi.

"Fokusiramo našu obuku na radnu točku skale modela koja omogućuje kontrolu robota u stvarnom svijetu, trenutno oko 1.2B parametara u slučaju Gata", napisali su. "Kako se arhitekture hardvera i modela poboljšavaju, ova radna točka prirodno će povećati izvedivu veličinu modela, gurajući generalističke modele više na krivulji zakona skaliranja."

Stoga je Gato zapravo model za to kako će skala računanja i dalje biti glavni vektor razvoja strojnog učenja, čineći opće modele sve većim i većim. Drugim riječima, veće je bolje. 

deepmind-gets-better-with-scale.png

Gato postaje bolji kako se veličina neuronske mreže u parametrima povećava.


Reed i sur. 2022

I autori imaju neke dokaze za to. Čini se da Gato postaje bolji kako postaje veći. Oni uspoređuju prosječne rezultate u svim referentnim zadacima za tri veličine modela prema parametrima, 79 milijuna, 364 milijuna, i glavni model, 1.18 milijardi. "Možemo vidjeti da za ekvivalentan broj tokena, postoji značajno poboljšanje performansi s povećanjem razmjera", pišu autori. 

Zanimljivo buduće pitanje je je li program koji je generalist opasniji od drugih vrsta AI programa. Autori provode hrpu vremena u radu raspravljajući o činjenici da postoje potencijalne opasnosti koje još nisu dobro shvaćene.  

Ideja o programu koji obrađuje više zadataka laicima sugerira neku vrstu ljudske prilagodljivosti, ali to može biti opasna pogrešna percepcija. “Na primjer, fizičko utjelovljenje moglo bi dovesti do toga da korisnici antropomorfiziraju agenta, što bi dovelo do pogrešnog povjerenja u slučaju neispravnog sustava, ili bi ga mogli iskoristiti loši akteri”, pišu Reed i tim. 

"Osim toga, iako je prijenos znanja između domena često cilj u ML istraživanju, mogao bi stvoriti neočekivane i neželjene ishode ako se određena ponašanja (npr. borbe u arkadnim igrama) prenesu u pogrešan kontekst."

Stoga pišu: "Etička i sigurnosna razmatranja prijenosa znanja mogu zahtijevati značajna nova istraživanja kako opći sustavi napreduju."

(Kao zanimljiva usporedna napomena, Gato rad koristi shemu za opisivanje rizika koju su osmislili bivša Googleova istraživačica umjetne inteligencije Margaret Michell i kolege, nazvanu Model kartice. Model kartice daju sažeti sažetak onoga što je program umjetne inteligencije, što radi i što čimbenici utječu na način na koji funkcionira. Michell je prošle godine napisala da je bila prisiljena otići iz Googlea jer je podržavala svog bivšeg kolegu, Timnita Gebrua, čija su etička pitanja oko umjetne inteligencije bila u suprotnosti s Googleovim vodstvom za umjetnu inteligenciju.)

Gato nipošto nije jedinstven u svojoj tendenciji generaliziranja. To je dio širokog trenda generalizacije i većih modela koji koriste velike konjske snage. Svijet je prvi put okusio Googleov nagib u tom smjeru prošlog ljeta, s Googleovom neuronskom mrežom “Perceiver” koja je kombinirala zadatke transformatora teksta sa slikama, zvukom i LiDAR prostornim koordinatama.

Isto tako: Googleov supermodel: DeepMind Perceiver korak je na putu do AI stroja koji može obraditi sve i svašta

Među njegovim vršnjacima je PaLM, Pathways Language Model, ove su godine predstavili Googleovi znanstvenici, model s 540 milijardi parametara koji koristi novu tehnologiju za koordinaciju tisuća čipova, poznate kao Putevi, također izumljen u Googleu. Neuronska mreža koju je u siječnju objavila Meta, nazvana "data2vec", koristi Transformers za slikovne podatke, govorne audio valne oblike i jezične reprezentacije teksta, sve u jednom. 

Ono što je novo kod Gata, čini se, jest namjera da se umjetna inteligencija koja se koristi za nerobotske zadatke gurne u područje robotike.

Kreatori Gata, bilježeći postignuća Pathwaysa i drugih generalističkih pristupa, vide krajnje postignuće u umjetnoj inteligenciji koja može raditi u stvarnom svijetu, s bilo kojom vrstom zadataka. 

"Budući rad trebao bi razmotriti kako objediniti ove mogućnosti teksta u jednog potpuno generalističkog agenta koji također može djelovati u stvarnom vremenu u stvarnom svijetu, u različitim okruženjima i utjelovljenjima." 

Mogli biste, dakle, Gato smatrati važnim korakom na putu rješavanja najtežeg problema umjetne inteligencije, robotike. 



izvor