'Gato' od DeepMind je průměrné, tak proč ho postavili?

deepmind-gato-slash-image-closer-in.png

Neuronová síť „Gato“ společnosti DeepMind vyniká v mnoha úkolech včetně ovládání robotických paží, které skládají bloky, hraní her Atari 2600 a titulkování obrázků.


DeepMind

Svět je zvyklý vídat titulky o nejnovějším průlomu ve formách hlubokého učení umělé inteligence. Nejnovější úspěch divize DeepMind společnosti Google by se však dal shrnout jako „Jeden program umělé inteligence, který dělá tolik věcí ve spoustě věcí“. 

Gato, jak se program DeepMind jmenuje, byl odhalen tento týden jako takzvaný multimodální program, který umí hrát videohry, chatovat, psát kompozice, popisovat obrázky a ovládat robotické paže skládající bloky. Je to jedna neuronová síť, která může pracovat s více druhy dat a provádět různé druhy úkolů. 

„S jedinou sadou závaží se Gato může zapojit do dialogu, popisovat obrázky, skládat bloky se skutečným robotickým ramenem, překonávat lidi při hraní her Atari, pohybovat se v simulovaných 3D prostředích, řídit se pokyny a další,“ píše hlavní autor Scott Reed. a kolegové ve svém článku „Agent Generalist“, zveřejněno na předtiskovém serveru Arxiv

Spoluzakladatel DeepMind Demis Hassabis fandil týmu, křičí ve tweetu,,Náš dosud nejobecnější agent!! Fantastická práce týmu!” 

Také: Nový experiment: Opravdu umělá inteligence zná kočky nebo psy – nebo cokoli jiného?

Jediný háček je v tom, že Gato ve skutečnosti není v několika úkolech tak skvělý. 

Na jedné straně je program schopen lépe než specializovaný program strojového učení při ovládání robotického ramene Sawyer, které skládá bloky. Na druhou stranu produkuje titulky k obrázkům, které jsou v mnoha případech dost nekvalitní. Jeho schopnost standardního chatovacího dialogu s lidským partnerem je podobně průměrná, někdy vyvolává rozporuplné a nesmyslné výroky. 

A jeho hraní videoher Atari 2600 nedosahuje úrovně většiny specializovaných programů ML navržených tak, aby soutěžily v benchmarku. Arkádové výukové prostředí

Proč byste dělali program, který dělá některé věci docela dobře a spoustu dalších věcí ne tak dobře? Precedens a očekávání, podle autorů. 

Existuje precedens pro obecnější druhy programů, které se stávají nejmodernější v AI, a existuje očekávání, že rostoucí množství výpočetního výkonu v budoucnu vynahradí nedostatky. 

Obecnost může mít tendenci triumfovat v AI. Jak autoři poznamenávají, citujíce odborníka na umělou inteligenci Richarda Suttona: „Historicky měly generické modely, které lépe využívají výpočty, také tendenci nakonec předběhnout specializovanější přístupy specifické pro doménu.“

Jak napsal Sutton ve svém vlastním blogu"Největší poučení, které lze vyčíst ze 70 let výzkumu umělé inteligence, je, že obecné metody, které využívají výpočet, jsou nakonec nejúčinnější a s velkou rezervou."

Reed a jeho tým ve formální tezi píší, že „zde testujeme hypotézu, že je možné vycvičit agenta, který je obecně schopný na velké množství úkolů; a že tohoto obecného agenta lze upravit s malým množstvím dalších dat, aby uspěl v ještě větším počtu úkolů.“

Také: Umělá inteligence Meta LeCun zkoumá energetické hranice hlubokého učení

Model je v tomto případě skutečně velmi obecný. Je to verze Transformeru, dominantního druhu modelu založeného na pozornosti, který se stal základem mnoha programů včetně GPT-3. Transformátor modeluje pravděpodobnost určitého prvku vzhledem k prvkům, které jej obklopují, jako jsou slova ve větě. 

V případě Gata jsou vědci DeepMind schopni použít stejné podmíněné vyhledávání pravděpodobnosti na mnoha typech dat. 

Jak Reed a kolegové popisují úkol výcviku Gata, 

Během trénovací fáze Gato jsou data z různých úkolů a modalit serializována do ploché sekvence tokenů, dávkována a zpracovávána transformátorovou neuronovou sítí podobnou velkému jazykovému modelu. Ztráta je maskována, takže Gato pouze předpovídá akční a textové cíle.

Jinými slovy, Gato nezachází s tokeny jinak, ať už se jedná o slova v chatu nebo pohybové vektory ve cvičení skládání bloků. Všechno je to stejné. 

deepmind-how-gato-is-trained.png

Scénář výcviku Gato.


Reed a kol. 2022

Hypotéza Reeda a týmu je důsledkem toho, že nakonec zvítězí stále více výpočetního výkonu. Právě teď je Gato omezen dobou odezvy robotické paže Sawyer, která provádí skládání bloků. S 1.18 miliardami síťových parametrů je Gato mnohem menší než velmi velké modely AI, jako je GPT-3. Jak se modely hlubokého učení zvětšují, provádění dedukcí vede k latenci, která může selhat v nedeterministickém světě robota v reálném světě. 

Reed a kolegové však očekávají, že tento limit bude překonán, protože AI hardware bude rychlejší při zpracování.

„Naše školení zaměřujeme na provozní bod modelového měřítka, který umožňuje řízení robotů v reálném čase v reálném čase, v současnosti v případě Gata kolem 1.2B parametrů,“ napsali. „S tím, jak se zdokonaluje hardware a architektura modelů, tento operační bod přirozeně zvětší proveditelnou velikost modelu a posune obecné modely výše na křivce škálovacího zákona.“

Gato je tedy skutečně modelem toho, jak bude výpočetní škála i nadále hlavním vektorem vývoje strojového učení tím, že bude obecné modely zvětšovat a zvětšovat. Větší je lepší, jinými slovy. 

deepmind-gets-better-with-scale.png

Gato se zlepšuje s rostoucí velikostí neuronové sítě v parametrech.


Reed a kol. 2022

A autoři pro to mají několik důkazů. Zdá se, že se Gato s tím, jak se zvětšuje, zlepšuje. Porovnávají průměrné skóre napříč všemi benchmarkovými úlohami pro tři velikosti modelu podle parametrů, 79 milionů, 364 milionů, a hlavní model, 1.18 miliardy. „Vidíme, že při ekvivalentním počtu tokenů dochází k výraznému zlepšení výkonu se zvětšeným rozsahem,“ píší autoři. 

Zajímavou budoucí otázkou je, zda program, který je všeobecný, je nebezpečnější než jiné druhy programů umělé inteligence. Autoři v tomto článku tráví spoustu času diskusí o tom, že existují potenciální nebezpečí, která ještě nejsou dobře pochopena.  

Myšlenka programu, který zvládne více úkolů, naznačuje laikovi jakousi lidskou přizpůsobivost, ale to může být nebezpečné mylné vnímání. „Například fyzické ztělesnění by mohlo vést k tomu, že uživatelé agenta antropomorfizují, což vede k nesprávné důvěře v případě nefunkčního systému, nebo může být zneužitelné špatnými herci,“ píší Reed a tým. 

„Navíc, zatímco přenos znalostí mezi doménami je často cílem výzkumu ML, mohl by vést k neočekávaným a nežádoucím výsledkům, pokud by se určité chování (např. boj v arkádových hrách) přeneslo do nesprávného kontextu.“

Proto píší: „Etika a bezpečnostní úvahy při předávání znalostí mohou vyžadovat zásadní nový výzkum, protože všeobecné systémy postupují.“

(Zajímavou vedlejší poznámkou je, že Gato paper používá schéma k popisu rizika, které navrhla bývalá výzkumnice Google AI Margaret Michell a její kolegové, nazvané Modelové karty. Modelové karty poskytují stručné shrnutí toho, co je program umělé inteligence, co dělá a co faktory ovlivňují to, jak funguje. Michell loni napsala, že byla nucena opustit Google kvůli podpoře svého bývalého kolegu Timnita Gebru, jehož etické obavy ohledně umělé inteligence se dostaly do rozporu s vedením společnosti Google v oblasti umělé inteligence.)

Gato není v žádném případě jedinečné ve své zobecňující tendenci. Je součástí širokého trendu zobecňování a větších modelů, které využívají kbelíky koňských sil. Svět poprvé ochutnal sklon Googlu tímto směrem loni v létě díky neuronové síti Google „Perceiver“, která kombinovala úlohy textového transformátoru s obrázky, zvukem a prostorovými souřadnicemi LiDAR.

Také: Supermodelka Google: DeepMind Perceiver je krokem na cestě ke stroji s umělou inteligencí, který dokáže zpracovat cokoli a všechno

Mezi jeho vrstevníky je PaLM, jazykový model Pathways, představili letos vědci Google, model s 540 miliardami parametrů, který využívá novou technologii pro koordinaci tisíců čipů, známé jako Pathways, také vynalezený v Googlu. Neuronová síť, kterou v lednu vydala společnost Meta, nazvaná „data2vec“, používá Transformers pro obrazová data, zvukové vlny řeči a reprezentace textového jazyka v jednom. 

Co je nového na Gato, zdá se, je záměr vzít AI používanou pro nerobotické úkoly a prosadit ji do robotické sféry.

Gatovi tvůrci, berouce na vědomí úspěchy Pathways a dalších obecných přístupů, vidí konečný úspěch v umělé inteligenci, která může fungovat v reálném světě s jakýmkoliv druhem úkolů. 

"Budoucí práce by měla zvážit, jak sjednotit tyto textové schopnosti do jednoho plně obecného agenta, který může také jednat v reálném čase v reálném světě, v různých prostředích a provedeních." 

Gato byste tedy mohli považovat za důležitý krok na cestě k vyřešení nejobtížnějšího problému umělé inteligence, robotiky. 



Zdroj