DeepMindov 'Gato' je osrednji, pa zašto su ga onda napravili?

deepmind-gato-slash-image-closer-in.png

DeepMindova “Gato” neuronska mreža izvrsna je u brojnim zadacima, uključujući kontrolu robotskih ruku koje slažu blokove, igranje igara Atari 2600 i titlovanje slika.


DeepMind

Svijet je navikao gledati naslove o najnovijim otkrićima oblika umjetne inteligencije dubokog učenja. Najnovije dostignuće Googleovog odjela DeepMind, međutim, moglo bi se sažeti kao, “Jedan AI program koji radi tako-tako posao u mnogim stvarima”. 

Gato, kako se zove DeepMindov program, je predstavljen ove sedmice kao takozvani multimodalni program, onaj koji može igrati video igrice, ćaskati, pisati kompozicije, slike sa natpisima i kontrolirati robotsku ruku slaganje blokova. To je jedna neuronska mreža koja može raditi s više vrsta podataka za obavljanje više vrsta zadataka. 

„Sa jednim skupom utega, Gato može učestvovati u dijalogu, slikama natpisa, slagati blokove sa pravom robotskom rukom, nadmašiti ljude u igranju Atari igrica, navigirati u simuliranim 3D okruženjima, pratiti uputstva i još mnogo toga“, piše glavni autor Scott Reed i kolege u svom radu, "Agent generalist", postavljeno na Arxiv preprint server

Suosnivač DeepMinda Demis Hassabis bodrio je tim, uzvikujući u tvitu, “Naš najgeneralniji agent do sada!! Fantastičan rad tima!” 

Takođe: Novi eksperiment: Da li AI zaista poznaje mačke ili pse - ili bilo šta drugo?

Jedina kvaka je što Gato zapravo nije tako dobar u nekoliko zadataka. 

S jedne strane, program je u stanju da radi bolje od namjenskog programa za strojno učenje u kontrolisanju robotske Sawyer ruke koja slaže blokove. S druge strane, proizvodi natpise za slike koji su u mnogim slučajevima prilično loši. Njegova sposobnost u standardnom dijalogu u ćaskanju sa ljudskim sagovornikom je na sličan način osrednja, ponekad izazivajući kontradiktorne i besmislene izjave. 

A njegovo igranje Atari 2600 video igara je ispod onog kod većine posvećenih ML programa dizajniranih da se takmiče u benčmarku Arcade Learning Environment

Zašto biste napravili program koji neke stvari radi prilično dobro, a gomilu drugih stvari ne tako dobro? Presedan i očekivanje, prema autorima. 

Postoji presedan da opštije vrste programa postaju najsavremenije u AI, i postoji očekivanje da će sve veće količine računarske snage u budućnosti nadoknaditi nedostatke. 

Generalnost može imati tendenciju da trijumfuje u AI. Kao što autori napominju, citirajući stručnjaka za umjetnu inteligenciju Richarda Suttona, “Istorijski gledano, generički modeli koji su bolji u korištenju računanja također su na kraju imali tendenciju da prestignu više specijaliziranih pristupa specifičnih za domene.”

Kao što je Saton napisao u svom vlastitom blog postu, „Najveća lekcija koja se može pročitati iz 70 godina AI istraživanja je da su opće metode koje koriste računanje u konačnici najefikasnije, i to sa velikom marginom.”

Stavljeni u formalnu tezu, Reed i tim pišu da „mi ovdje testiramo hipotezu da je obuka agenta koji je općenito sposoban za veliki broj zadataka moguća; i da se ovaj generalni agent može prilagoditi s malo dodatnih podataka kako bi uspio u još većem broju zadataka.”

Takođe: Meta-in AI luminar LeCun istražuje energetske granice dubokog učenja

Model je, u ovom slučaju, zaista vrlo uopšten. To je verzija Transformera, dominantne vrste modela zasnovanog na pažnji koji je postao osnova brojnih programa uključujući GPT-3. Transformator modelira vjerovatnoću nekog elementa s obzirom na elemente koji ga okružuju, kao što su riječi u rečenici. 

U slučaju Gatoa, naučnici DeepMinda su u mogućnosti da koriste istu uslovnu pretragu vjerovatnoće na brojnim tipovima podataka. 

Kako Reed i kolege opisuju zadatak obuke Gatoa, 

Tokom faze obuke za Gato, podaci iz različitih zadataka i modaliteta se serijaliziraju u ravnu sekvencu tokena, skupljaju i obrađuju transformatorskom neuronskom mrežom slično velikom jezičkom modelu. Gubitak je maskiran tako da Gato predviđa samo akcije i tekstualne ciljeve.

Gato, drugim riječima, ne tretira tokene drugačije bilo da su riječi u razgovoru ili vektori pokreta u vježbi slaganja blokova. Sve je isto. 

deepmind-how-gato-is-trained.png

Gato scenario treninga.


Reed et al. 2022

Zakopana u Reedu i hipoteza tima je posledica, naime da će sve više i više računarske moći pobeđivati, na kraju. Trenutno je Gato ograničen vremenom odziva Sawyerove robotske ruke koja vrši slaganje blokova. Sa 1.18 milijardi mrežnih parametara, Gato je znatno manji od veoma velikih AI modela kao što je GPT-3. Kako modeli dubokog učenja postaju sve veći, izvođenje zaključivanja dovodi do kašnjenja koje može propasti u nedeterminističkom svijetu robota u stvarnom svijetu. 

Ali, Reed i kolege očekuju da će ta granica biti prevaziđena jer AI hardver postaje brži u obradi.

"Fokusiramo našu obuku na radnu tačku skale modela koja omogućava kontrolu robota u stvarnom svijetu u stvarnom vremenu, trenutno oko 1.2B parametara u slučaju Gatoa", napisali su. „Kako se arhitektura hardvera i modela poboljšava, ova radna tačka će prirodno povećati izvodljivu veličinu modela, gurajući generalističke modele više na krivulju zakona skaliranja."

Dakle, Gato je zaista model za to kako će obim računanja i dalje biti glavni vektor razvoja mašinskog učenja, čineći opšte modele sve većim i većim. Drugim riječima, veće je bolje. 

deepmind-better-better-with-scale.png

Gato postaje sve bolji kako se veličina neuronske mreže u parametrima povećava.


Reed et al. 2022

I autori imaju neke dokaze za to. Čini se da Gato postaje sve bolji kako postaje veći. Oni upoređuju prosječne rezultate za sve referentne zadatke za tri veličine modela prema parametrima, 79 miliona, 364 miliona, i glavni model, 1.18 milijardi. „Možemo vidjeti da za ekvivalentan broj tokena postoji značajno poboljšanje performansi s povećanom skalom“, pišu autori. 

Zanimljivo buduće pitanje je da li je program koji je generalistički opasniji od drugih vrsta AI programa. Autori provode dosta vremena u radu raspravljajući o činjenici da postoje potencijalne opasnosti koje još nisu dobro shvaćene.  

Ideja o programu koji se bavi višestrukim zadacima sugerira laiku neku vrstu ljudske prilagodljivosti, ali to može biti opasna pogrešna percepcija. „Na primjer, fizičko utjelovljenje može dovesti do toga da korisnici antropomorfiziraju agenta, što dovodi do pogrešnog povjerenja u slučaju neispravnog sistema ili da ga loši akteri mogu iskoristiti“, pišu Reed i tim. 

“Dodatno, iako je prijenos znanja u različitim domenima često cilj u istraživanju ML-a, mogao bi stvoriti neočekivane i neželjene ishode ako se određena ponašanja (npr. borbe u arkadnim igrama) prenesu u pogrešan kontekst.”

Stoga, pišu, “Etička i sigurnosna razmatranja prijenosa znanja mogu zahtijevati značajna nova istraživanja kako generalistički sistemi budu napredovali.”

(Kao zanimljiva sporedna napomena, Gato rad koristi shemu za opis rizika koju su osmislile bivša Googleova istraživačica umjetne inteligencije Margaret Michell i kolege, pod nazivom Model Cards. Model kartice daju sažeti sažetak onoga što je AI program, šta radi i šta faktori utječu na to kako funkcionira. Michell je prošle godine napisala da je bila prisiljena napustiti Google jer je podržala svog bivšeg kolegu Timnita Gebrua, čija je etička zabrinutost oko AI-a bila u suprotnosti s Googleovim vodstvom AI.)

Gato nikako nije jedinstven u svojoj generalizujućoj tendenciji. To je dio širokog trenda generalizacije i većih modela koji koriste kante konjskih snaga. Svijet je prvi okusio Googleov nagib u ovom smjeru prošlog ljeta, s Google-ovom neuronskom mrežom “Perceiver” koja je kombinirala zadatke Transformera teksta sa slikama, zvukom i LiDAR prostornim koordinatama.

Takođe: Googleov supermodel: DeepMind Perceiver je korak na putu ka AI mašini koja može da obrađuje sve i svašta

Među svojim kolegama je PaLM, Pathways Language Model, koji su ove godine predstavili Google naučnici, model parametara od 540 milijardi koji koristi novu tehnologiju za koordinaciju hiljada čipova, poznat kao Pathways, također izmišljen u Googleu. Neuronska mreža koju je Meta objavila u januaru, nazvana “data2vec”, koristi transformatore za slikovne podatke, govorne audio valne oblike i predstavljanje jezika teksta, sve u jednom. 

Ono što je novo kod Gata, čini se, je namjera da se AI koristi za nerobotske zadatke i gurne u domen robotike.

Gatoovi kreatori, napominjući dostignuća Pathways-a i drugih generalističkih pristupa, vide krajnje dostignuće u AI-u koji može djelovati u stvarnom svijetu, sa bilo kojom vrstom zadataka. 

„Budući rad bi trebao razmotriti kako objediniti ove tekstualne mogućnosti u jedan potpuno generalistički agent koji također može djelovati u stvarnom vremenu u stvarnom svijetu, u različitim okruženjima i utjelovljenjima.” 

Tada biste Gato mogli smatrati važnim korakom na putu ka rješavanju najtežeg problema umjetne inteligencije, robotike. 



izvor