DeepMinds 'Gato' er middelmådig, så hvorfor byggede de den?

deepmind-gato-slash-image-closer-in.png

DeepMinds "Gato"-neurale netværk udmærker sig ved adskillige opgaver, herunder at kontrollere robotarme, der stabler blokke, spille Atari 2600-spil og undertekster billeder.


DeepMind

Verden er vant til at se overskrifter om det seneste gennembrud af deep learning former for kunstig intelligens. Den seneste præstation fra DeepMind-afdelingen af ​​Google kan dog opsummeres som: "Et AI-program, der gør et halvdårligt stykke arbejde med mange ting." 

Gato, som DeepMinds program hedder, blev afsløret i denne uge som et såkaldt multimodalt program, et der kan spille videospil, chatte, skrive kompositioner, billedtekster og styre en robotarm, der stabler blokke. Det er ét neuralt netværk, der kan arbejde med flere slags data for at udføre flere slags opgaver. 

"Med et enkelt sæt vægte kan Gato deltage i dialog, billedtekstbilleder, stable blokke med en rigtig robotarm, overgå mennesker ved at spille Atari-spil, navigere i simulerede 3D-miljøer, følge instruktioner og mere," skriver hovedforfatter Scott Reed og kolleger i deres papir, "A Generalist Agent," lagt på Arxiv preprint-serveren

DeepMind-medstifter Demis Hassabis heppede på holdet, udbryder i et tweet, "Vores mest generelle agent endnu!! Fantastisk arbejde fra holdet!” 

Også: Et nyt eksperiment: Kender AI virkelig katte eller hunde - eller noget?

Den eneste fangst er, at Gato faktisk ikke er så stor på flere opgaver. 

På den ene side er programmet i stand til at gøre det bedre end et dedikeret maskinlæringsprogram til at styre en robot-Sawyer-arm, der stabler blokke. På den anden side producerer den billedtekster til billeder, der i mange tilfælde er ret dårlige. Dens evne til standard chat-dialog med en menneskelig samtalepartner er på samme måde middelmådig, som nogle gange fremkalder modstridende og meningsløse ytringer. 

Og dets afspilning af Atari 2600-videospil falder under de fleste dedikerede ML-programmer designet til at konkurrere i benchmark Arcade læringsmiljø

Hvorfor ville du lave et program, der gør nogle ting ret godt og en masse andre ting, der ikke er så godt? Præcedens og forventning, ifølge forfatterne. 

Der er præcedens for, at mere generelle former for programmer bliver state of the art inden for AI, og der er en forventning om, at stigende mængder computerkraft i fremtiden vil råde bod på manglerne. 

Generalitet kan have tendens til at triumfere i AI. Som forfatterne bemærker, med henvisning til AI-forsker Richard Sutton, "Historisk set har generiske modeller, der er bedre til at udnytte beregninger, også haft en tendens til at overhale mere specialiserede domænespecifikke tilgange til sidst."

Som Sutton skrev i sit eget blogindlæg, "Den største lektie, der kan læses fra 70 års AI-forskning, er, at generelle metoder, der udnytter beregninger, i sidste ende er de mest effektive og med en stor margin."

I en formel afhandling skriver Reed og team, at "vi tester her hypotesen om, at det er muligt at træne en agent, der generelt er i stand til et stort antal opgaver; og at denne generalagent kan tilpasses med lidt ekstra data til at lykkes med et endnu større antal opgaver."

Også: Metas AI-lyskilde LeCun udforsker dyb lærings energigrænse

Modellen, i dette tilfælde, er faktisk meget generel. Det er en version af Transformer, den dominerende form for opmærksomhedsbaseret model, der er blevet grundlaget for adskillige programmer, herunder GPT-3. En transformer modellerer sandsynligheden for et element givet de elementer, der omgiver det, såsom ord i en sætning. 

I tilfældet med Gato er DeepMind-forskerne i stand til at bruge den samme betingede sandsynlighedssøgning på adskillige datatyper. 

Som Reed og kolleger beskriver opgaven med at træne Gato, 

Under træningsfasen af ​​Gato serialiseres data fra forskellige opgaver og modaliteter til en flad sekvens af tokens, batched og behandlet af et transformatorneuralt netværk, der ligner en stor sprogmodel. Tabet er maskeret, så Gato kun forudsiger handling og tekstmål.

Gato, med andre ord, behandler ikke tokens forskelligt, uanset om de er ord i en chat eller bevægelsesvektorer i en blokstablingsøvelse. Det er lige meget. 

deepmind-how-gato-is-trained.png

Gato træningsscenarie.


Reed et al. 2022

Begravet i Reed og teamets hypotese er en konsekvens, nemlig at mere og mere computerkraft vil vinde til sidst. Lige nu er Gato begrænset af responstiden for en Sawyer-robotarm, der udfører blokstablingen. Med 1.18 milliarder netværksparametre er Gato langt mindre end meget store AI-modeller som GPT-3. Efterhånden som deep learning-modeller bliver større, fører udførelse af inferens til latens, der kan svigte i den ikke-deterministiske verden af ​​en robot i den virkelige verden. 

Men Reed og kolleger forventer, at den grænse bliver overskredet, da AI-hardware bliver hurtigere til at behandle.

"Vi fokuserer vores træning på modelskalaens driftspunkt, der tillader realtidsstyring af robotter i den virkelige verden, i øjeblikket omkring 1.2B parametre i tilfældet med Gato," skrev de. "Efterhånden som hardware- og modelarkitekturer forbedres, vil dette driftspunkt naturligvis øge den mulige modelstørrelse og skubbe generalistmodeller højere op på skaleringslovkurven."

Derfor er Gato virkelig en model for, hvordan beregningsskala fortsat vil være den vigtigste vektor for udvikling af maskinlæring ved at gøre generelle modeller større og større. Større er bedre, med andre ord. 

deepmind-gets-better-with-scale.png

Gato bliver bedre, efterhånden som størrelsen af ​​det neurale netværk i parametre øges.


Reed et al. 2022

Og forfatterne har nogle beviser for dette. Gato ser ud til at blive bedre, efterhånden som den bliver større. De sammenligner gennemsnitsscore på tværs af alle benchmark-opgaverne for tre modelstørrelser i henhold til parametre, 79 millioner, 364 millioner og hovedmodellen, 1.18 milliarder. "Vi kan se, at for et tilsvarende tokenantal er der en betydelig præstationsforbedring med øget skala," skriver forfatterne. 

Et interessant fremtidigt spørgsmål er, om et program, der er en generalist, er farligere end andre former for AI-programmer. Forfatterne bruger en masse tid i papiret på at diskutere det faktum, at der er potentielle farer, der endnu ikke er godt forstået.  

Ideen om et program, der håndterer flere opgaver, antyder for lægmanden en slags menneskelig tilpasningsevne, men det kan være en farlig misforståelse. "For eksempel kan fysisk legemliggørelse føre til, at brugere antropomorferer agenten, hvilket fører til malplaceret tillid i tilfælde af et fejlfungerende system, eller kan udnyttes af dårlige aktører," skriver Reed og teamet. 

"Derudover, mens overførsel af viden på tværs af domæner ofte er et mål i ML-forskning, kan det skabe uventede og uønskede resultater, hvis bestemt adfærd (f.eks. arkadespilskampe) overføres til den forkerte kontekst."

Derfor skriver de: "De etiske og sikkerhedsmæssige overvejelser ved videnoverførsel kan kræve væsentlig ny forskning, efterhånden som generalistiske systemer udvikler sig."

(Som en interessant sidebemærkning anvender Gato-papiret et skema til at beskrive risiko udtænkt af den tidligere Google AI-forsker Margaret Michell og kolleger, kaldet Model Cards. Model Cards giver en kortfattet oversigt over, hvad et AI-program er, hvad det gør, og hvad faktorer, der påvirker, hvordan det fungerer. Michell skrev sidste år, at hun blev tvunget ud af Google for at støtte sin tidligere kollega, Timnit Gebru, hvis etiske bekymringer over AI var på kant med Googles AI-ledelse.)

Gato er på ingen måde unik i sin generaliserende tendens. Det er en del af den brede tendens til generalisering, og større modeller, der bruger spande med hestekræfter. Verden fik den første smag af Googles tilt i denne retning sidste sommer, med Googles "Perceiver" neurale netværk, der kombinerede tekst Transformer-opgaver med billeder, lyd og LiDAR rumlige koordinater.

Også: Googles Supermodel: DeepMind Perceiver er et skridt på vejen til en AI-maskine, der kunne behandle alt og alt

Blandt dets jævnaldrende er PaLM, Pathways Language Model, introduceret i år af Google-forskere, en 540-milliarder parametermodel, der gør brug af en ny teknologi til at koordinere tusindvis af chips, kendt som Pathways, også opfundet hos Google. Et neuralt netværk udgivet i januar af Meta, kaldet "data2vec", bruger Transformers til billeddata, talelydbølgeformer og tekstsprog-repræsentationer i ét. 

Hvad der er nyt ved Gato, ser det ud til, er intentionen om at tage AI, der bruges til ikke-robotiske opgaver, og skubbe det ind i robotområdet.

Gatos skabere, der bemærker resultaterne af Pathways og andre generalistiske tilgange, ser den ultimative præstation inden for AI, der kan fungere i den virkelige verden med enhver form for opgaver. 

"Fremtidigt arbejde bør overveje, hvordan man forener disse tekstegenskaber til en fuldstændig generalistisk agent, der også kan handle i realtid i den virkelige verden, i forskellige miljøer og udførelsesformer." 

Du kunne derfor betragte Gato som et vigtigt skridt på vejen til at løse AI's sværeste problem, robotteknologi. 



Kilde