A DeepMind 'Gato'-ja közepes, akkor miért építették meg?

deepmind-gato-slash-image-closer-in.png

A DeepMind „Gato” neurális hálózata számos feladatban kiváló, beleértve a blokkokat halmozó robotkarok vezérlését, az Atari 2600 játékokat és a képek feliratozását.


DeepMind

A világ hozzászokott ahhoz, hogy a mesterséges intelligencia mélytanulási formáinak legújabb áttöréséről szóló híreket lássanak. A Google DeepMind részlegének legújabb vívmánya azonban így foglalható össze: „Egy mesterséges intelligencia program, amely sok mindenben olyan munkát végez.” 

Gato, ahogy a DeepMind programját hívják, ezen a héten mutatták be úgynevezett multimodális programként olyan, amely képes videojátékokat játszani, chatelni, kompozíciókat írni, képaláírásokat készíteni, és egy robotkarral vezérelni lehet blokkokat egymásra rakva. Ez egy olyan neurális hálózat, amely többféle adattal képes többféle feladat végrehajtásához. 

„Egyetlen súlykészlettel Gato párbeszédet folytathat, képaláírásokat készíthet, blokkokat rakhat egymásra egy valódi robotkarral, felülmúlja az embereket az Atari játékokban, navigálhat szimulált 3D-s környezetben, követheti az utasításokat és még sok mást” – írja Scott Reed, a vezető szerző. és kollégái az „A Generalist Agent” című lapjukban felkerült az Arxiv preprint szerverére

Demis Hassabis, a DeepMind társalapítója biztatta a csapatot, kiáltott fel egy tweetben, „Eddig legáltalánosabb ügynökünk!! Fantasztikus munka a csapattól!” 

Továbbá: Egy új kísérlet: Valóban ismeri a mesterséges intelligencia a macskákat vagy a kutyákat – vagy bármi mást?

Az egyetlen bökkenő az, hogy Gato valójában nem olyan kiváló több feladatban. 

Egyrészt a program egy dedikált gépi tanulási programnál jobban képes irányítani egy robotizált Sawyer-kart, amely blokkokat halmoz fel. Másrészt olyan képekhez készít feliratokat, amelyek sok esetben elég szegényesek. Az emberi beszélgetőpartnerrel folytatott szokásos csevegési képessége hasonlóan közepes, néha ellentmondásos és értelmetlen megnyilatkozásokat vált ki. 

Az Atari 2600 videojátékokkal való játéka pedig elmarad a legtöbb dedikált ML programétól, amelyet a benchmark versenyezésére terveztek. Arcade tanulási környezet

Miért készítenél olyan programot, amely bizonyos dolgokat nagyon jól csinál, és egy csomó más dolgot nem olyan jól? A szerzők szerint precedens és elvárás. 

Van precedens arra, hogy általánosabb típusú programok váljanak a mesterséges intelligencia legkorszerűbb részévé, és várható, hogy a növekvő számítási teljesítmény a jövőben pótolja a hiányosságokat. 

Az általánosság hajlamos lehet diadalmaskodni az AI-ban. Ahogy a szerzők megjegyzik, Richard Sutton mesterséges intelligencia-kutatóra hivatkozva: „Történelmileg az általános modellek, amelyek jobban kihasználják a számításokat, hajlamosak voltak idővel megelőzni a speciálisabb, tartomány-specifikus megközelítéseket is.”

Ahogy Sutton írta saját blogbejegyzésében"A 70 évnyi mesterséges intelligencia kutatásból leolvasható legnagyobb tanulság az, hogy a számítást hasznosító általános módszerek végső soron a leghatékonyabbak, és nagy különbséggel."

Formális tézisbe foglalva Reed és csapata azt írja, hogy „itt azt a hipotézist teszteljük, hogy lehetséges olyan ügynök képzése, aki általában sok feladatra képes; és hogy ez az általános ügynök kevés extra adattal adaptálható még nagyobb számú feladat sikeres végrehajtására.”

Továbbá: A Meta mesterséges intelligencia világítóteste, LeCun a mély tanulás energiahatárait kutatja

A modell ebben az esetben valóban nagyon általános. Ez a Transformer egyik változata, a figyelem alapú modell domináns fajtája, amely számos program, köztük a GPT-3 alapjává vált. A transzformátor modellezi egy elem valószínűségét, figyelembe véve az azt körülvevő elemeket, például egy mondatban lévő szavakat. 

Gato esetében a DeepMind tudósai ugyanazt a feltételes valószínűségi keresést tudják használni számos adattípuson. 

Ahogy Reed és munkatársai leírják Gato képzésének feladatát, 

A Gato betanítási fázisa során a különböző feladatokból és módozatokból származó adatokat sorosozzák egy lapos tokenek sorozatba, kötegelve, és egy nagy nyelvi modellhez hasonló transzformátor neurális hálózattal dolgozzák fel. A veszteség el van takarva, így Gato csak a cselekvést és a szöveges célokat jósolja meg.

Más szavakkal, Gato nem kezeli másként a tokeneket, akár szavak a chatben, akár mozgásvektorok egy blokkhalmozási gyakorlatban. Ez mind ugyanaz. 

deepmind-how-gato-is-trained.png

Gato edzési forgatókönyv.


Reed és mtsai. 2022

A Reed és a csapat hipotézise el van temetve egy következmény, hogy végül egyre több számítási teljesítmény fog nyerni. Jelenleg Gato-t egy Sawyer robotkar válaszideje korlátozza, amely a blokkok egymásra rakását végzi. Az 1.18 milliárd hálózati paraméterrel a Gato jóval kisebb, mint a nagyon nagy mesterséges intelligencia modellek, például a GPT-3. A mélytanulási modellek terjedésével a következtetések késleltetéshez vezetnek, amely a valós robotok nem determinisztikus világában meghiúsulhat. 

Reed és munkatársai azonban azt várják, hogy ezt a határt túllépik, mivel az AI hardver gyorsabbá válik a feldolgozás során.

"Kiképzésünket a modell léptékű működési pontjára összpontosítjuk, amely lehetővé teszi a valós világban működő robotok valós idejű vezérlését, jelenleg a Gato esetében 1.2 milliárd paraméter körül van" - írták. "Ahogy a hardver és a modellarchitektúra javul, ez a működési pont természetesen növeli a megvalósítható modellméretet, és az általános modelleket feljebb tolja a skálázási törvény görbéjén."

Ennélfogva a Gato valóban modellje annak, hogy a számítási méretarány továbbra is a gépi tanulás fejlesztésének fő vektora maradjon azáltal, hogy az általános modelleket egyre nagyobbá teszi. Más szóval a nagyobb jobb. 

deepmind-gets-better-with-scale.png

A Gato egyre jobb lesz, ahogy a neurális hálózat mérete a paraméterekben növekszik.


Reed és mtsai. 2022

És a szerzőknek van néhány bizonyítékuk erre. Úgy tűnik, hogy Gato egyre jobb lesz, ahogy egyre nagyobb. Összehasonlítják az összes benchmark feladat átlagos pontszámát a három modellméret paraméterek szerint, 79 millió, 364 millió és a fő modell 1.18 milliárdja. „Látható, hogy egy ekvivalens tokenszám esetén jelentős teljesítményjavulás tapasztalható, nagyobb léptékkel” – írják a szerzők. 

Érdekes jövőbeli kérdés, hogy egy általános program veszélyesebb-e, mint a többi AI-program. A szerzők sok időt töltenek a tanulmányban azzal, hogy megvitatják a lehetséges veszélyeket, amelyeket még nem értettek meg.  

A több feladatot kezelő program ötlete egyfajta emberi alkalmazkodóképességet sugall a laikusok számára, de ez veszélyes félreértés lehet. „Például a fizikai megtestesülés oda vezethet, hogy a felhasználók antropomorfizálják az ügynököt, ami hibásan működő rendszer esetén rossz bizalomhoz vezethet, vagy rossz szereplők kihasználhatják” – írja Reed és csapata. 

"Továbbá, bár a tartományok közötti tudásátadás gyakran cél az ML-kutatásban, ez váratlan és nemkívánatos eredményeket eredményezhet, ha bizonyos viselkedési formákat (pl. arcade játékok) rossz kontextusba helyeznek át."

Ezért azt írják: „A tudástranszfer etikai és biztonsági megfontolásai jelentős új kutatásokat igényelhetnek, ahogy az általános rendszerek előrehaladnak.”

(Érdekes oldaljegyzetként a Gato-cikk egy, a Google korábbi AI-kutatója, Margaret Michell és munkatársai által kidolgozott modellkártyákat alkalmaz a kockázat leírására. A modellkártyák tömör összefoglalást adnak arról, hogy mi az AI-program, mit csinál, és mit csinál tényezők befolyásolják a működését. Michell tavaly azt írta, hogy ki kellett hagynia a Google-t, mert támogatta korábbi kollégáját, Timnit Gebrut, akinek a mesterséges intelligencia miatti etikai aggályai összeütközésbe kerültek a Google AI vezetésével.)

A Gato egyáltalán nem egyedülálló általánosító tendenciájában. Ez része az általánosítás és a nagyobb modellek széles körének, amelyek több lóerőt használnak. A világ tavaly nyáron kapott először ízelítőt a Google ebbe az irányba történő döntéséből, a Google „Perceiver” neurális hálózatával, amely a szövegtranszformátor feladatokat képekkel, hanggal és LiDAR térbeli koordinátákkal kombinálta.

Továbbá: A Google szupermodellje: a DeepMind Perceiver egy lépés egy olyan mesterséges intelligencia-gép felé vezető úton, amely bármit és mindent képes feldolgozni

Társai közé tartozik a PaLM, a Pathways Language Model, idén mutatták be a Google tudósai, egy 540 milliárd paraméterű modell, amely új technológiát használ több ezer chip koordinálására, Pathway néven ismert, szintén a Google-nál találták ki. A Meta által januárban kiadott „data2vec” neurális hálózat Transformers-t használ képadatokhoz, beszédhang-hullámformákhoz és szöveges nyelvi megjelenítésekhez egyben. 

A Gato újdonsága a jelek szerint az a szándék, hogy a nem robotikai feladatokhoz használt mesterséges intelligenciát átvegye a robotika birodalmába.

A Gato alkotói, figyelembe véve a Pathways és más általános megközelítések vívmányait, a mesterséges intelligencia végső vívmányát látják, amely a valós világban, bármilyen feladattal képes működni. 

"A jövőbeli munkának meg kell fontolnia, hogyan lehet ezeket a szöveges képességeket egy teljesen általánosító ágenssé egyesíteni, amely a valós világban valós időben is képes működni, különféle környezetekben és változatokban." 

A Gatót tehát fontos lépésnek tekintheti az AI legnehezebb problémájának, a robotikának a megoldása felé vezető úton. 



forrás