DeepMinds "Gato" är medioker, så varför byggde de den?

deepmind-gato-slash-image-closer-in.png

DeepMinds "Gato" neurala nätverk utmärker sig vid många uppgifter, inklusive att kontrollera robotarmar som staplar block, spela Atari 2600-spel och textning av bilder.


Deepmind

Världen är van vid att se rubriker om det senaste genombrottet av djupinlärningsformer av artificiell intelligens. Den senaste bedriften för DeepMind-avdelningen av Google kan dock sammanfattas som "Ett AI-program som gör ett så som så jobb med många saker." 

Gato, som DeepMinds program heter, avslöjades denna vecka som ett så kallat multimodalt program, ett som kan spela tv-spel, chatta, skriva kompositioner, bildtexter och styra en robotarm som staplar block. Det är ett neuralt nätverk som kan arbeta med flera typer av data för att utföra flera typer av uppgifter. 

"Med en enda uppsättning vikter kan Gato delta i dialog, bildtexter, stapla block med en riktig robotarm, överträffa människor när det gäller att spela Atari-spel, navigera i simulerade 3D-miljöer, följa instruktioner och mer", skriver huvudförfattaren Scott Reed och kollegor i deras tidning, "A Generalist Agent," publiceras på Arxiv preprint-server

DeepMinds medgrundare Demis Hassabis hejade på laget, utbrister i en tweet, "Vår mest allmänna agent hittills!! Fantastiskt arbete från teamet!” 

Dessutom: Ett nytt experiment: Känner AI verkligen katter eller hundar - eller något?

Den enda haken är att Gato faktiskt inte är så bra på flera uppgifter. 

Å ena sidan kan programmet göra bättre än ett dedikerat maskininlärningsprogram för att styra en robotiserad Sawyer-arm som staplar block. Å andra sidan producerar den bildtexter för bilder som i många fall är ganska dåliga. Dess förmåga till standardchatdialog med en mänsklig samtalspartner är på samma sätt medioker, ibland framkallar motsägelsefulla och meningslösa yttranden. 

Och spelandet av Atari 2600-videospel faller under det för de flesta dedikerade ML-program utformade för att konkurrera i benchmark Arcade inlärningsmiljö

Varför skulle du göra ett program som gör vissa saker ganska bra och en massa andra saker som inte är så bra? Prejudikat och förväntningar, enligt författarna. 

Det finns prejudikat för att mer generella typer av program blir toppmoderna inom AI, och det finns en förväntning om att ökande mängder datorkraft i framtiden kommer att kompensera för brister. 

Allmänhet kan tendera att triumfera i AI. Som författarna noterar, med hänvisning till AI-forskaren Richard Sutton, "Historiskt sett har generiska modeller som är bättre på att utnyttja beräkningar också tenderat att gå om mer specialiserade domänspecifika tillvägagångssätt så småningom."

Som Sutton skrev i sitt eget blogginlägg, "Den största lärdomen som kan läsas från 70 år av AI-forskning är att allmänna metoder som utnyttjar beräkningar i slutändan är de mest effektiva och med stor marginal."

Omsatt i en formell avhandling, skriver Reed och team att "vi testar här hypotesen att det är möjligt att träna en agent som generellt är kapabel till ett stort antal uppgifter; och att denna generalagent kan anpassas med lite extra data för att lyckas med ett ännu större antal uppgifter.”

Dessutom: Metas AI-lampa LeCun utforskar energigränsen för djupinlärning

Modellen, i det här fallet, är verkligen väldigt generell. Det är en version av Transformer, den dominerande typen av uppmärksamhetsbaserad modell som har blivit grunden för många program inklusive GPT-3. En transformator modellerar sannolikheten för något element med tanke på de element som omger det, såsom ord i en mening. 

När det gäller Gato kan DeepMind-forskarna använda samma villkorade sannolikhetssökning på många datatyper. 

Som Reed och kollegor beskriver uppgiften att träna Gato, 

Under träningsfasen av Gato serialiseras data från olika uppgifter och modaliteter till en platt sekvens av tokens, batchade och bearbetas av ett transformatorneuralt nätverk som liknar en stor språkmodell. Förlusten är maskerad så att Gato bara förutspår action och textmål.

Gato, med andra ord, behandlar inte tokens olika oavsett om de är ord i en chatt eller rörelsevektorer i en blockstaplingsövning. Allt är samma. 

deepmind-how-gato-is-trained.png

Gato träningsscenario.


Reed et al. 2022

Begravd i Reed och teams hypotes är en följd, nämligen att mer och mer datorkraft kommer att vinna, så småningom. Just nu är Gato begränsad av svarstiden för en Sawyer-robotarm som gör blockstaplingen. Med 1.18 miljarder nätverksparametrar är Gato betydligt mindre än mycket stora AI-modeller som GPT-3. När modeller för djupinlärning blir större, leder slutledning till latens som kan misslyckas i en verklig robots icke-deterministiska värld. 

Men Reed och kollegor förväntar sig att den gränsen kommer att överträffas när AI-hårdvara blir snabbare vid bearbetning.

"Vi fokuserar vår träning på den operativa punkten i modellskala som tillåter realtidskontroll av verkliga robotar, för närvarande runt 1.2B parametrar i fallet med Gato," skrev de. "När hårdvara och modellarkitekturer förbättras, kommer denna operationspunkt naturligtvis att öka den möjliga modellstorleken, vilket driver generalistmodeller högre upp i skalningslagskurvan."

Därför är Gato verkligen en modell för hur beräkningsskala kommer att fortsätta att vara huvudvektorn för utveckling av maskininlärning, genom att göra allmänna modeller större och större. Större är bättre, med andra ord. 

deepmind-blir-bättre-med-scale.png

Gato blir bättre när storleken på det neurala nätverket i parametrar ökar.


Reed et al. 2022

Och författarna har vissa bevis för detta. Gato verkar bli bättre när den blir större. De jämför medelvärden för alla benchmarkuppgifter för tre modellstorlekar enligt parametrar, 79 miljoner, 364 miljoner, och huvudmodellen, 1.18 miljarder. "Vi kan se att för ett ekvivalent antal token finns det en betydande prestandaförbättring med ökad skala", skriver författarna. 

En intressant framtidsfråga är om ett program som är en generalist är farligare än andra typer av AI-program. Författarna spenderar en massa tid i tidningen och diskuterar det faktum att det finns potentiella faror som ännu inte är väl förstått.  

Idén om ett program som hanterar flera uppgifter antyder för lekmannen en sorts mänsklig anpassningsförmåga, men det kan vara en farlig missuppfattning. "Till exempel kan fysisk förkroppsligande leda till att användare antropomorfierar agenten, vilket leder till felplacerat förtroende i fallet med ett felaktigt system, eller kan utnyttjas av dåliga aktörer", skriver Reed och teamet. 

"Dessutom, även om kunskapsöverföring över flera domäner ofta är ett mål i ML-forskning, kan det skapa oväntade och oönskade resultat om vissa beteenden (t.ex. arkadspelsfighting) överförs till fel sammanhang."

Därför skriver de: "Etik- och säkerhetsövervägandena för kunskapsöverföring kan kräva betydande ny forskning när generalistsystemen utvecklas."

(Som en intressant sidoanteckning använder Gato-tidningen ett system för att beskriva risker som utarbetats av den tidigare Google AI-forskaren Margaret Michell och kollegor, kallat Model Cards. Model Cards ger en kortfattad sammanfattning av vad ett AI-program är, vad det gör och vad faktorer påverkar hur det fungerar. Michell skrev förra året att hon tvingades bort från Google för att ha stöttat sin tidigare kollega, Timnit Gebru, vars etiska bekymmer över AI stred mot Googles AI-ledarskap.)

Gato är inte på något sätt unik i sin generaliserande tendens. Det är en del av den breda trenden till generalisering, och större modeller som använder hinkar med hästkrafter. Världen fick den första smaken av Googles lutning i denna riktning förra sommaren, med Googles "Perceiver" neurala nätverk som kombinerade texttransformatoruppgifter med bilder, ljud och rumsliga LiDAR-koordinater.

Dessutom: Googles supermodell: DeepMind Perceiver är ett steg på vägen mot en AI-maskin som kan bearbeta allt och allt

Bland dess kamrater finns PaLM, Pathways Language Model, introducerades i år av Googles forskare, en 540-miljarder parametermodell som använder en ny teknik för att koordinera tusentals chips, känd som Pathways, också uppfunnit på Google. Ett neuralt nätverk som släpptes i januari av Meta, kallat "data2vec", använder Transformers för bilddata, talljudvågformer och textspråksrepresentationer allt i ett. 

Vad som är nytt med Gato, verkar det som, är avsikten att ta AI som används för uppgifter som inte är robotar och driva den in i robotikområdet.

Gatos skapare, som noterar prestationerna från Pathways och andra generalistiska tillvägagångssätt, ser den ultimata prestationen inom AI som kan fungera i den verkliga världen, med alla typer av uppgifter. 

"Framtida arbete bör överväga hur man förenar dessa textförmågor till en helt generalistisk agent som också kan agera i realtid i den verkliga världen, i olika miljöer och kroppar." 

Du kan då betrakta Gato som ett viktigt steg på vägen mot att lösa AI:s svåraste problem, robotik. 



Källa