DeepMinds 'Gato' er middelmådig, så hvorfor bygde de den?

deepmind-gato-slash-image-closer-in.png

DeepMinds "Gato" nevrale nettverk utmerker seg ved en rekke oppgaver, inkludert å kontrollere robotarmer som stabler blokker, spille Atari 2600-spill og teksting av bilder.


DeepMind

Verden er vant til å se overskrifter om det siste gjennombruddet av dyplæringsformer for kunstig intelligens. Den siste prestasjonen til DeepMind-divisjonen til Google kan imidlertid oppsummeres som: "Et AI-program som gjør en så som så jobb med mange ting." 

Gato, som DeepMinds program heter, ble avduket denne uken som et såkalt multimodalt program, et som kan spille videospill, chatte, skrive komposisjoner, bildetekster og kontrollere en robotarm som stabler blokker. Det er ett nevralt nettverk som kan jobbe med flere typer data for å utføre flere typer oppgaver. 

"Med et enkelt sett med vekter kan Gato delta i dialog, bildetekster, stable blokker med en ekte robotarm, overgå mennesker ved å spille Atari-spill, navigere i simulerte 3D-miljøer, følge instruksjoner og mer," skriver hovedforfatter Scott Reed og kolleger i deres papir, "A Generalist Agent," lagt ut på Arxiv preprint-server

DeepMind-medgründer Demis Hassabis heiet på laget, utbryter i en tweet, "Vår mest generelle agent hittil!! Fantastisk arbeid fra teamet!" 

Også: Et nytt eksperiment: Kjenner AI virkelig til katter eller hunder - eller noe?

Den eneste haken er at Gato faktisk ikke er så stor på flere oppgaver. 

På den ene siden er programmet i stand til å gjøre det bedre enn et dedikert maskinlæringsprogram til å kontrollere en robotisert Sawyer-arm som stabler blokker. På den annen side produserer den bildetekster for bilder som i mange tilfeller er ganske dårlige. Dens evne til standard chat-dialog med en menneskelig samtalepartner er på samme måte middelmådig, og fremkaller noen ganger motstridende og useriøse ytringer. 

Og spillingen av Atari 2600 videospill faller under det for de fleste dedikerte ML-programmene designet for å konkurrere i benchmark Arcade læringsmiljø

Hvorfor ville du lage et program som gjør noen ting ganske bra og en haug med andre ting som ikke er så bra? Presedens, og forventning, ifølge forfatterne. 

Det er presedens for at mer generelle typer programmer blir toppmoderne innen AI, og det er en forventning om at økende mengder datakraft i fremtiden vil kompensere for mangler. 

Generellitet kan ha en tendens til å triumfere i AI. Som forfatterne bemerker, siterer AI-forsker Richard Sutton, "Historisk sett har generiske modeller som er bedre til å utnytte beregninger også hatt en tendens til å overta mer spesialiserte domenespesifikke tilnærminger til slutt."

Som Sutton skrev i sitt eget blogginnlegg, "Den største lærdommen som kan leses fra 70 år med AI-forskning er at generelle metoder som utnytter beregninger til syvende og sist er de mest effektive, og med stor margin."

Sett inn i en formell avhandling, skriver Reed og team at «her tester vi hypotesen om at det er mulig å trene en agent som generelt er kapabel til et stort antall oppgaver; og at denne generalagenten kan tilpasses med lite ekstra data for å lykkes med et enda større antall oppgaver."

Også: Metas AI-lyskilde LeCun utforsker dyplæringens energigrense

Modellen, i dette tilfellet, er faktisk veldig generell. Det er en versjon av Transformer, den dominerende typen oppmerksomhetsbasert modell som har blitt grunnlaget for en rekke programmer, inkludert GPT-3. En transformator modellerer sannsynligheten for et element gitt elementene som omgir det, for eksempel ord i en setning. 

Når det gjelder Gato, er DeepMind-forskerne i stand til å bruke det samme betingede sannsynlighetssøket på en rekke datatyper. 

Som Reed og kolleger beskriver oppgaven med å trene Gato, 

Under treningsfasen til Gato blir data fra forskjellige oppgaver og modaliteter serialisert til en flat sekvens av tokens, gruppert og behandlet av et transformatornevralt nettverk som ligner på en stor språkmodell. Tapet er maskert slik at Gato kun spår handling og tekstmål.

Gato, med andre ord, behandler ikke tokens forskjellig enten de er ord i en chat eller bevegelsesvektorer i en blokkstablingsøvelse. Det er det samme. 

deepmind-how-gato-is-trained.png

Gato treningsscenario.


Reed et al. 2022

Begravd i Reed og teams hypotese er en konsekvens, nemlig at mer og mer datakraft vil vinne til slutt. Akkurat nå er Gato begrenset av responstiden til en Sawyer-robotarm som gjør blokkstablingen. Med 1.18 milliarder nettverksparametere er Gato mye mindre enn veldig store AI-modeller som GPT-3. Etter hvert som dyplæringsmodeller blir større, fører slutninger til ventetid som kan svikte i den ikke-deterministiske verdenen til en virkelig robot. 

Men Reed og kollegene forventer at grensen vil bli overskredet ettersom AI-maskinvare blir raskere ved behandling.

"Vi fokuserer treningen vår på driftspunktet for modellskala som tillater sanntidskontroll av virkelige roboter, for tiden rundt 1.2B parametere i tilfellet med Gato," skrev de. "Når maskinvare- og modellarkitekturer forbedres, vil dette driftspunktet naturligvis øke den mulige modellstørrelsen, og skyve generalistmodeller høyere opp på skaleringslovkurven."

Derfor er Gato virkelig en modell for hvordan beregningsskala vil fortsette å være hovedvektoren for utvikling av maskinlæring, ved å gjøre generelle modeller større og større. Større er bedre, med andre ord. 

deepmind-blir-bedre-med-scale.png

Gato blir bedre ettersom størrelsen på det nevrale nettverket i parametere øker.


Reed et al. 2022

Og forfatterne har noen bevis for dette. Gato ser ut til å bli bedre etter hvert som den blir større. De sammenligner gjennomsnittlig poengsum på tvers av alle benchmarkoppgavene for tre modellstørrelser i henhold til parametere, 79 millioner, 364 millioner, og hovedmodellen, 1.18 milliarder. "Vi kan se at for et tilsvarende tokenantall er det en betydelig ytelsesforbedring med økt skala," skriver forfatterne. 

Et interessant fremtidsspørsmål er om et program som er en generalist er farligere enn andre typer AI-programmer. Forfatterne bruker mye tid i papiret på å diskutere det faktum at det er potensielle farer som ennå ikke er godt forstått.  

Ideen om et program som håndterer flere oppgaver antyder for lekmannen en slags menneskelig tilpasningsevne, men det kan være en farlig misoppfatning. "For eksempel kan fysisk legemliggjøring føre til at brukere antropomoriserer agenten, føre til feilplassert tillit i tilfelle et system som ikke fungerer, eller kan utnyttes av dårlige aktører," skriver Reed og teamet. 

"I tillegg, mens kunnskapsoverføring på tvers av domener ofte er et mål i ML-forskning, kan det skape uventede og uønskede utfall hvis bestemt atferd (f.eks. arkadespillkamp) overføres til feil kontekst."

Derfor skriver de: "Etikk- og sikkerhetshensynet ved kunnskapsoverføring kan kreve betydelig ny forskning ettersom generalistsystemer avanserer."

(Som en interessant sidenotat bruker Gato-avisen et opplegg for å beskrive risiko utviklet av tidligere Google AI-forsker Margaret Michell og kolleger, kalt modellkort. Modellkort gir en kortfattet oppsummering av hva et AI-program er, hva det gjør og hva faktorer som påvirker hvordan det fungerer. Michell skrev i fjor at hun ble tvunget ut av Google for å ha støttet sin tidligere kollega, Timnit Gebru, hvis etiske bekymringer over AI gikk på kant med Googles AI-ledelse.)

Gato er på ingen måte unik i sin generaliserende tendens. Det er en del av den brede trenden til generalisering, og større modeller som bruker bøtter med hestekrefter. Verden fikk den første smaken av Googles tilt i denne retningen i fjor sommer, med Googles «Perceiver»-nevrale nettverk som kombinerte teksttransformatoroppgaver med bilder, lyd og romlige LiDAR-koordinater.

Også: Googles supermodell: DeepMind Perceiver er et skritt på veien til en AI-maskin som kan behandle alt og alt

Blant sine jevnaldrende er PaLM, Pathways Language Model, introdusert i år av Google-forskere, en 540 milliarder parametermodell som bruker en ny teknologi for å koordinere tusenvis av brikker, kjent som Pathways, også oppfunnet hos Google. Et nevralt nettverk utgitt i januar av Meta, kalt "data2vec," bruker Transformers for bildedata, talelydbølgeformer og tekstspråkrepresentasjoner alt i ett. 

Det som er nytt med Gato, ser det ut til, er intensjonen om å ta AI som brukes til ikke-robotikkoppgaver og presse den inn i robotverdenen.

Gatos skapere, som legger merke til prestasjonene til Pathways og andre generalistiske tilnærminger, ser den ultimate prestasjonen innen AI som kan fungere i den virkelige verden, med alle slags oppgaver. 

"Fremtidig arbeid bør vurdere hvordan man kan forene disse tekstmulighetene til en fullstendig generalistagent som også kan handle i sanntid i den virkelige verden, i forskjellige miljøer og legemliggjørelser." 

Du kan da vurdere Gato som et viktig skritt på veien til å løse AIs vanskeligste problem, robotikk. 



kilde