'Gato' od DeepMind je priemerné, tak prečo ho postavili?

deepmind-gato-slash-image-closer-in.png

Neurónová sieť „Gato“ od DeepMind vyniká v mnohých úlohách vrátane ovládania robotických ramien, ktoré ukladajú bloky, hrania hier Atari 2600 a popisovania obrázkov.


Deepmind

Svet je zvyknutý vidieť titulky o najnovšom prelomovom vývoji umelej inteligencie v oblasti hlbokého učenia. Najnovší úspech divízie DeepMind spoločnosti Google by sa však dal zhrnúť takto: „Jeden program AI, ktorý robí takú prácu v mnohých veciach.“ 

Gato, ako sa program DeepMind nazýva, bola predstavená tento týždeň ako takzvaný multimodálny program, ktorý dokáže hrať videohry, chatovať, písať kompozície, popisovať obrázky a ovládať robotické rameno skladajúce bloky. Je to jedna neurónová sieť, ktorá môže pracovať s viacerými druhmi údajov na vykonávanie rôznych druhov úloh. 

„S jedinou sadou závaží sa Gato môže zapojiť do dialógu, popisovať obrázky, skladať bloky so skutočným robotickým ramenom, prekonávať ľudí pri hraní hier Atari, pohybovať sa v simulovaných 3D prostrediach, riadiť sa pokynmi a podobne,“ píše hlavný autor Scott Reed. a kolegovia vo svojom článku „Agent Generalist“, zverejnené na predtlačovom serveri Arxiv

Spoluzakladateľ DeepMind Demis Hassabis fandil tímu, kričí v tweete,,Náš zatiaľ najvšeobecnejší agent!! Fantastická práca tímu!” 

Tiež: Nový experiment: Pozná AI skutočne mačky alebo psy – alebo čokoľvek iné?

Jediný háčik je v tom, že Gato v skutočnosti nie je v niekoľkých úlohách taký skvelý. 

Na jednej strane je program schopný lepšie ako špecializovaný program strojového učenia pri ovládaní robotického ramena Sawyer, ktoré ukladá bloky. Na druhej strane produkuje titulky k obrázkom, ktoré sú v mnohých prípadoch dosť nekvalitné. Jeho schopnosť pri štandardnom chatovom dialógu s ľudským partnerom je podobne priemerná, niekedy vyvoláva rozporuplné a nezmyselné prejavy. 

A jeho hranie videohier Atari 2600 je nižšie ako u väčšiny špecializovaných programov ML, ktoré sú navrhnuté tak, aby súťažili v benchmarku. Arkádové vzdelávacie prostredie

Prečo by ste robili program, ktorý robí niektoré veci celkom dobre a veľa iných vecí nie tak dobre? Precedens a očakávanie, podľa autorov. 

Existuje precedens pre všeobecnejšie druhy programov, ktoré sa stávajú najmodernejším v AI, a existuje očakávanie, že rastúce množstvo výpočtového výkonu v budúcnosti vynahradí nedostatky. 

Všeobecnosť môže mať tendenciu triumfovať v AI. Ako autori poznamenávajú, citujúc odborníka na AI Richarda Suttona: „Historicky mali generické modely, ktoré sú lepšie pri využívaní výpočtov, tendenciu nakoniec predbehnúť špecializovanejšie prístupy špecifické pre domény.“

Ako napísal Sutton vo svojom vlastnom blogovom príspevku"Najväčšou lekciou, ktorú možno vyčítať zo 70 rokov výskumu AI, je, že všeobecné metódy, ktoré využívajú výpočty, sú v konečnom dôsledku najefektívnejšie a s veľkou rezervou."

Reed a tím vo formálnej téze píšu, že „tu testujeme hypotézu, že je možné vycvičiť agenta, ktorý je vo všeobecnosti schopný na veľké množstvo úloh; a že tento všeobecný agent môže byť prispôsobený s malým množstvom ďalších údajov, aby uspel pri ešte väčšom počte úloh.“

Tiež: Umelá inteligencia spoločnosti Meta LeCun skúma energetickú hranicu hlbokého učenia

Model je v tomto prípade skutočne veľmi všeobecný. Je to verzia Transformera, dominantného druhu modelu založeného na pozornosti, ktorý sa stal základom mnohých programov vrátane GPT-3. Transformátor modeluje pravdepodobnosť určitého prvku vzhľadom na prvky, ktoré ho obklopujú, ako sú slová vo vete. 

V prípade Gata sú vedci DeepMind schopní použiť rovnaké podmienené vyhľadávanie pravdepodobnosti na mnohých typoch údajov. 

Ako Reed a kolegovia opisujú úlohu výcviku Gata, 

Počas tréningovej fázy Gato sú dáta z rôznych úloh a modalít serializované do plochej sekvencie tokenov, dávkované a spracovávané transformátorovou neurónovou sieťou podobnou veľkému jazykovému modelu. Strata je maskovaná, takže Gato predpovedá iba akcie a textové ciele.

Inými slovami, Gato nezaobchádza so žetónmi inak, či už sú to slová v rozhovore alebo pohybové vektory v cvičení skladania blokov. Všetko je jedno. 

deepmind-how-gato-is-trained.png

Scenár výcviku Gato.


Reed a kol. 2022

Hypotéza Reeda a tímu je dôsledok toho, že nakoniec zvíťazí čoraz viac výpočtového výkonu. Práve teraz je Gato limitovaný dobou odozvy robotického ramena Sawyer, ktoré robí skladanie blokov. S 1.18 miliardami sieťových parametrov je Gato oveľa menšie ako veľmi veľké modely AI, ako je GPT-3. Ako sa modely hlbokého učenia zväčšujú, vykonávanie vyvodzovania vedie k latencii, ktorá môže zlyhať v nedeterministickom svete robotov v reálnom svete. 

Reed a kolegovia však očakávajú, že tento limit bude prekonaný, pretože AI hardvér bude rýchlejšie spracovávať.

„Naše školenie sústreďujeme na prevádzkový bod modelovej mierky, ktorý umožňuje riadenie robotov v reálnom čase, v prípade Gato momentálne okolo 1.2 B parametrov,“ napísali. „Keď sa hardvér a architektúra modelov zdokonaľujú, tento operačný bod prirodzene zväčší realizovateľnú veľkosť modelu, čím sa všeobecné modely posunú vyššie na krivku škálovacieho zákona.“

Gato je teda skutočne modelom toho, ako bude rozsah výpočtov naďalej hlavným vektorom vývoja strojového učenia tým, že sa všeobecné modely zväčšia a zväčšia. Väčšie je lepšie, inými slovami. 

deepmind-gets-better-with-scale.png

Gato sa zlepšuje, keď sa veľkosť neurónovej siete v parametroch zvyšuje.


Reed a kol. 2022

A autori na to majú niekoľko dôkazov. Zdá sa, že Gato sa zlepšuje, keď sa zväčšuje. Porovnávajú priemerné skóre naprieč všetkými benchmarkovými úlohami pre tri veľkosti modelu podľa parametrov, 79 miliónov, 364 miliónov, a hlavný model, 1.18 miliardy. „Vidíme, že pri ekvivalentnom počte tokenov dochádza k výraznému zlepšeniu výkonu so zväčšeným rozsahom,“ píšu autori. 

Zaujímavou budúcou otázkou je, či program, ktorý je všeobecný, je nebezpečnejší ako iné druhy programov AI. Autori v tomto dokumente trávia veľa času diskusiou o tom, že existujú potenciálne nebezpečenstvá, ktoré ešte nie sú dobre pochopené.  

Myšlienka programu, ktorý zvláda viacero úloh, naznačuje laikovi istý druh ľudskej prispôsobivosti, ale to môže byť nebezpečné nesprávne vnímanie. „Napríklad fyzické stelesnenie by mohlo viesť k tomu, že používatelia antropomorfizujú agenta, čo vedie k nesprávnej dôvere v prípade nefunkčného systému alebo môže byť zneužité zlými aktérmi,“ píšu Reed a tím. 

„Navyše, zatiaľ čo prenos poznatkov medzi doménami je často cieľom výskumu ML, môže viesť k neočakávaným a nežiaducim výsledkom, ak sa určité správanie (napr. boj v arkádových hrách) prenesie do nesprávneho kontextu.“

Preto píšu: „Etické a bezpečnostné hľadiská prenosu vedomostí si môžu vyžadovať zásadný nový výskum, keďže všeobecné systémy napredujú.“

(Ako zaujímavou poznámku na okraj uvádzame, že v článku Gato sa používa schéma na opis rizika, ktorú navrhla bývalá výskumníčka umelej inteligencie Google Margaret Michell a jej kolegovia, nazvanú Karty modelov. Karty modelov poskytujú stručné zhrnutie toho, čo je program AI, na čo slúži a čo faktory ovplyvňujú to, ako funguje. Michell minulý rok napísala, že bola vytlačená zo spoločnosti Google, pretože podporovala svojho bývalého kolegu Timnita Gebru, ktorého etické obavy týkajúce sa umelej inteligencie sa dostali do rozporu s vedením spoločnosti Google v oblasti umelej inteligencie.)

Gato nie je v žiadnom prípade jedinečné vo svojej zovšeobecňujúcej tendencii. Je súčasťou širokého trendu zovšeobecňovania a väčších modelov, ktoré využívajú vedrá s výkonom. Svet prvýkrát okúsil naklonenie spoločnosti Google týmto smerom minulé leto vďaka neurónovej sieti Google „Perceiver“, ktorá kombinovala úlohy textového transformátora s obrázkami, zvukom a priestorovými súradnicami LiDAR.

Tiež: Supermodelka Google: DeepMind Perceiver je krokom na ceste k stroju AI, ktorý dokáže spracovať čokoľvek a všetko

Medzi jeho rovesníkov patrí PaLM, jazykový model Pathways, tento rok predstavili vedci z Google, model s 540 miliardami parametrov, ktorý využíva novú technológiu na koordináciu tisícok čipov, známe ako Pathways, tiež vynájdený v Google. Neurónová sieť vydaná v januári spoločnosťou Meta s názvom „data2vec“ používa transformátory pre obrazové údaje, zvukové vlny reči a reprezentácie textového jazyka v jednom. 

Zdá sa, že novinkou na Gato je zámer vziať AI používanú na nerobotické úlohy a posunúť ju do sféry robotiky.

Tvorcovia Gata, berúc do úvahy úspechy Pathways a iné všeobecné prístupy, vidia konečný úspech v AI, ktorý môže fungovať v reálnom svete s akýmikoľvek úlohami. 

"Budúca práca by mala zvážiť, ako zjednotiť tieto textové schopnosti do jedného plne všeobecného agenta, ktorý môže pôsobiť aj v reálnom čase v reálnom svete, v rôznych prostrediach a uskutočneniach." 

Gato by ste teda mohli považovať za dôležitý krok na ceste k vyriešeniu najťažšieho problému AI, robotiky. 



zdroj