„Gato” de la DeepMind este mediocru, deci de ce l-au construit?

Rețeaua neuronală „Gato” a DeepMind excelează în numeroase sarcini, inclusiv controlul brațelor robotice care stivuiesc blocuri, jocul Atari 2600 și subtitrărea imaginilor.

DeepMind

Lumea este obișnuită să vadă titluri despre cea mai recentă descoperire a formelor de deep learning ale inteligenței artificiale. Cea mai recentă realizare a diviziei DeepMind a Google, totuși, ar putea fi rezumată astfel: „Un singur program AI care face o treabă atât de mult la o mulțime de lucruri”.

Gato, așa cum se numește programul DeepMind, a fost dezvăluit săptămâna aceasta ca un așa-numit program multimodal, unul care poate juca jocuri video, chat, scrie compoziții, legendă imagini și poate controla blocurile de stivuire a unui braț robotic. Este o rețea neuronală care poate funcționa cu mai multe tipuri de date pentru a efectua mai multe tipuri de sarcini.

„Cu un singur set de greutăți, Gato se poate angaja în dialog, subtitrare imagini, stivui blocuri cu un adevărat braț robot, poate depăși oamenii la jocurile Atari, naviga în medii 3D simulate, urmează instrucțiuni și multe altele”, scrie autorul principal Scott Reed. și colegii din lucrarea lor, „A Generalist Agent”, postat pe serverul de preprint Arxiv.

Cofondatorul DeepMind, Demis Hassabis, a aplaudat echipa, exclamă într-un tweet, „Agentul nostru cel mai general de până acum!! Munca fantastică din partea echipei!”

De asemenea: Un nou experiment: AI cunoaște cu adevărat pisicile sau câinii – sau ceva?

Singura captură este că Gato nu este de fapt atât de bun în mai multe sarcini.

Pe de o parte, programul poate face mai bine decât un program dedicat de învățare automată la controlul unui braț robot Sawyer care stivuiește blocuri. Pe de altă parte, produce subtitrări pentru imagini care în multe cazuri sunt destul de slabe. Abilitatea sa de a dialoga prin chat standard cu un interlocutor uman este la fel de mediocră, provocând uneori enunțuri contradictorii și fără sens.

Iar redarea sa la jocurile video Atari 2600 scade sub cea a celor mai multe programe dedicate ML concepute pentru a concura în standardul de referință. Mediul de învățare Arcade.

De ce ai face un program care face unele lucruri destul de bine și o grămadă de alte lucruri nu atât de bine? Precedent și așteptare, conform autorilor.

Există un precedent pentru tipuri mai generale de programe care devin stadiul tehnicii în AI și există o așteptare ca cantitățile tot mai mari de putere de calcul să compenseze deficiențele în viitor.

Generalitatea poate tinde să triumfe în AI. După cum remarcă autorii, citând savantul în inteligență artificială Richard Sutton, „Din punct de vedere istoric, modelele generice care sunt mai bune în utilizarea calculului au avut tendința de a depăși în cele din urmă abordări mai specializate specifice domeniului.”

După cum a scris Sutton în propria sa postare pe blog, „Cea mai mare lecție care poate fi citită din 70 de ani de cercetare AI este că metodele generale care folosesc calculul sunt în cele din urmă cele mai eficiente și cu o marjă mare.”

Puși într-o teză formală, Reed și echipa scriu că „aici testăm ipoteza conform căreia antrenarea unui agent care este în general capabil pentru un număr mare de sarcini este posibilă; și că acest agent general poate fi adaptat cu puține date suplimentare pentru a reuși la un număr și mai mare de sarcini.”

De asemenea: Luminarul AI al lui Meta, LeCun, explorează frontiera energetică a învățării profunde

Modelul, în acest caz, este, într-adevăr, foarte general. Este o versiune a Transformerului, tipul dominant de model bazat pe atenție, care a devenit baza a numeroase programe, inclusiv GPT-3. Un transformator modelează probabilitatea unui element având în vedere elementele care îl înconjoară, cum ar fi cuvintele dintr-o propoziție.

În cazul lui Gato, oamenii de știință DeepMind sunt capabili să folosească aceeași căutare de probabilitate condiționată pe numeroase tipuri de date.

După cum Reed și colegii descriu sarcina de a antrena Gato,

În timpul fazei de antrenament a lui Gato, datele de la diferite sarcini și modalități sunt serializate într-o secvență plată de jetoane, grupate și procesate de o rețea neuronală transformatoare similară unui model de limbaj mare. Pierderea este mascată, astfel încât Gato prezice doar ținte de acțiune și text.

Gato, cu alte cuvinte, nu tratează jetoanele în mod diferit, indiferent dacă sunt cuvinte dintr-un chat sau vectori de mișcare într-un exercițiu de stivuire a blocurilor. Totul e la fel.

Scenariul de antrenament Gato.

Reed și colab. 2022

Îngropat în interiorul lui Reed și ipoteza echipei este un corolar, și anume că tot mai multă putere de calcul va câștiga, în cele din urmă. În acest moment, Gato este limitat de timpul de răspuns al unui braț robot Sawyer care face stivuirea blocurilor. La 1.18 miliarde de parametri de rețea, Gato este mult mai mic decât modelele AI foarte mari, cum ar fi GPT-3. Pe măsură ce modelele de învățare profundă devin mai mari, efectuarea inferenței duce la o latență care poate eșua în lumea nedeterministă a unui robot din lumea reală.

Dar, Reed și colegii se așteaptă ca această limită să fie depășită pe măsură ce hardware-ul AI devine mai rapid la procesare.

„Ne concentrăm pregătirea pe punctul de operare al modelului care permite controlul în timp real al roboților din lumea reală, în prezent aproximativ 1.2 miliarde de parametri în cazul lui Gato”, au scris ei. „Pe măsură ce hardware-ul și arhitecturile modelului se îmbunătățesc, acest punct de operare va crește în mod natural dimensiunea fezabilă a modelului, împingând modelele generaliste mai sus pe curba legii de scalare.”

Prin urmare, Gato este într-adevăr un model pentru modul în care scara de calcul va continua să fie principalul vector al dezvoltării învățării automate, făcând modele generale din ce în ce mai mari. Mai mare este mai bine, cu alte cuvinte.

Gato se îmbunătățește pe măsură ce dimensiunea rețelei neuronale în parametri crește.

Reed și colab. 2022

Iar autorii au câteva dovezi în acest sens. Gato pare să se îmbunătățească pe măsură ce devine mai mare. Ei compară scorurile medii pentru toate sarcinile de referință pentru trei dimensiuni de model în funcție de parametri, 79 milioane, 364 milioane și modelul principal, 1.18 miliarde. „Putem vedea că pentru un număr echivalent de jetoane, există o îmbunătățire semnificativă a performanței cu o scară crescută”, scriu autorii.

O întrebare viitoare interesantă este dacă un program care este generalist este mai periculos decât alte tipuri de programe AI. Autorii petrec o grămadă de timp în lucrare discutând despre faptul că există pericole potențiale încă neînțelese bine.

Ideea unui program care se ocupă de sarcini multiple sugerează profanului un fel de adaptabilitate umană, dar aceasta poate fi o percepție greșită periculoasă. „De exemplu, întruchiparea fizică ar putea determina utilizatorii să antropomorfizeze agentul, ceea ce duce la o încredere nepotrivită în cazul unui sistem defectuos sau poate fi exploatată de actori răi”, scriu Reed și echipa.

„În plus, deși transferul de cunoștințe pe mai multe domenii este adesea un obiectiv în cercetarea ML, ar putea crea rezultate neașteptate și nedorite dacă anumite comportamente (de exemplu, luptele în jocuri arcade) sunt transferate într-un context greșit.”

Prin urmare, ei scriu: „Considerațiile de etică și siguranță ale transferului de cunoștințe pot necesita noi cercetări substanțiale pe măsură ce sistemele generaliste avansează”.

(Ca o notă secundară interesantă, lucrarea Gato folosește o schemă pentru a descrie riscul concepută de fostul cercetător Google AI Margaret Michell și colegii săi, numită Model Cards. Model Cards oferă un rezumat concis despre ce este un program AI, ce face și ce anume Factorii influențează modul în care funcționează. Michell a scris anul trecut că a fost forțată să părăsească Google pentru că și-a susținut fostul coleg, Timnit Gebru, ale cărui preocupări etice cu privire la AI au fost în contradicție cu conducerea AI a Google.)

Gato nu este deloc unic în tendința sa de generalizare. Face parte din tendința generală de generalizare și de modele mai mari care folosesc găleți de cai putere. Lumea a primit prima încercare a înclinării Google în această direcție vara trecută, cu rețeaua neuronală „Perceiver” a Google care a combinat sarcinile de transformare a textului cu imagini, sunet și coordonate spațiale LiDAR.

De asemenea: Supermodelul Google: DeepMind Perceiver este un pas pe drumul către o mașină AI care ar putea procesa orice și orice

Printre colegii săi se numără PaLM, Pathways Language Model, introdus anul acesta de oamenii de știință Google, un model de 540 de miliarde de parametri care folosește o nouă tehnologie pentru coordonarea a mii de cipuri, cunoscut sub numele de Căi, inventat tot la Google. O rețea neuronală lansată în ianuarie de Meta, numită „data2vec”, folosește Transformers pentru date de imagine, forme de undă audio de vorbire și reprezentări în limbaj text, toate într-unul singur.

Ceea ce este nou la Gato, s-ar părea, este intenția de a lua AI folosită pentru sarcini non-robotice și de a o împinge în domeniul roboticii.

Creatorii lui Gato, observând realizările Pathways și alte abordări generaliste, văd cea mai mare realizare în AI care poate funcționa în lumea reală, cu orice fel de sarcini.

„Lucrările viitoare ar trebui să ia în considerare modul de unificare a acestor capacități de text într-un singur agent complet generalist, care poate acționa și în timp real în lumea reală, în diverse medii și forme de întruchipare.”

Ați putea, atunci, să considerați Gato ca un pas important pe calea rezolvării celei mai dificile probleme a AI, robotica.

Sursă

Mesaj precedent

„Gato” de la DeepMind este mediocru, deci de ce l-au construit?

Software-ul obligatoriu în 2024

Categorii de top

Ultimele opinii

Videoclip de prezentare Samsung Galaxy Z Flip 5, înaintea evenimentului Galaxy Unpacked, arată noul design al balamalei, opțiuni de culoare

Twitter limitează numărul de DM-uri pe care utilizatorii neverificați le pot trimite

Telefonul meu Android preferat poate face lucruri pe care iPhone-ul meu 14 Pro Max nu poate

ChatGPT pentru Android se lansează săptămâna viitoare și vă puteți preînregistra acum

Xiaomi Smart TV 32A, Smart TV 40A, Smart TV 43A cu Google TV, difuzoare de 20W lansate în India: : Preț, Specificații

Această baterie comestibilă ar putea alimenta lumea diagnosticelor și a energiei durabile