Il "Gato" di DeepMind è mediocre, quindi perché l'hanno costruito?

deepmind-gato-slash-image-closer-in.png

La rete neurale "Gato" di DeepMind eccelle in numerosi compiti, tra cui il controllo di bracci robotici che impilano blocchi, la riproduzione di giochi Atari 2600 e la didascalia delle immagini.


DeepMind

Il mondo è abituato a vedere i titoli dei giornali sugli ultimi progressi compiuti dalle forme di intelligenza artificiale di deep learning. L’ultimo risultato della divisione DeepMind di Google, tuttavia, potrebbe essere riassunto come: “Un programma di intelligenza artificiale che fa un lavoro così così in un sacco di cose”. 

Gato, come viene chiamato il programma di DeepMind, è stato presentato questa settimana come un cosiddetto programma multimodale, in grado di giocare ai videogiochi, chattare, scrivere composizioni, didascalie e controllare un braccio robotico che impila blocchi. È una rete neurale che può funzionare con più tipi di dati per eseguire più tipi di attività. 

"Con un singolo set di pesi, Gato può impegnarsi in dialoghi, immagini di didascalie, impilare blocchi con un vero braccio robotico, sovraperformare gli umani nei giochi Atari, navigare in ambienti 3D simulati, seguire istruzioni e altro ancora", scrive l'autore principale Scott Reed e colleghi nel loro articolo “A Generalist Agent”, pubblicato sul server di prestampa Arxiv

Il co-fondatore di DeepMind, Demis Hassabis, ha tifato per la squadra, esclamando in un tweet, “Il nostro agente più generale finora!! Lavoro fantastico da parte del team!” 

Inoltre: Un nuovo esperimento: l'IA conosce davvero cani o gatti o altro?

L'unico problema è che Gato in realtà non è eccezionale in diversi compiti. 

Da un lato, il programma è in grado di fare meglio di un programma di apprendimento automatico dedicato nel controllare un braccio robotico di Sawyer che impila i blocchi. D'altro canto produce didascalie per le immagini che in molti casi sono piuttosto scadenti. La sua capacità di dialogare in chat standard con un interlocutore umano è altrettanto mediocre, a volte suscitando espressioni contraddittorie e prive di senso. 

E la sua capacità di giocare ai videogiochi Atari 2600 è inferiore a quella della maggior parte dei programmi ML dedicati progettati per competere nel benchmark Ambiente di apprendimento arcade

Perché dovresti creare un programma che fa alcune cose abbastanza bene e un sacco di altre cose non così bene? Precedente e aspettativa, secondo gli autori. 

Esistono precedenti in cui tipi più generali di programmi stanno diventando lo stato dell’arte nel campo dell’intelligenza artificiale, e ci si aspetta che in futuro quantità crescenti di potenza di calcolo compenseranno le carenze. 

La generalità può tendere a trionfare nell’intelligenza artificiale. Come notano gli autori, citando lo studioso di intelligenza artificiale Richard Sutton, "Storicamente, i modelli generici che sono migliori nello sfruttare il calcolo hanno anche avuto la tendenza a superare approcci più specializzati e specifici del dominio."

Come ha scritto Sutton nel suo post sul blog, “La più grande lezione che si può trarre da 70 anni di ricerca sull’intelligenza artificiale è che i metodi generali che sfruttano il calcolo sono in definitiva i più efficaci, e con un ampio margine”.

Inserita in una tesi formale, Reed e il suo team scrivono che “qui testiamo l'ipotesi che sia possibile addestrare un agente generalmente capace di svolgere un gran numero di compiti; e che questo agente generale può essere adattato con pochi dati aggiuntivi per riuscire in un numero ancora maggiore di compiti”.

Inoltre: Il luminare dell'intelligenza artificiale di Meta, LeCun, esplora la frontiera energetica del deep learning

Il modello, in questo caso, è, infatti, molto generale. È una versione del Transformer, il tipo dominante di modello basato sull'attenzione che è diventato la base di numerosi programmi tra cui GPT-3. Un trasformatore modella la probabilità di alcuni elementi dati gli elementi che lo circondano, come le parole in una frase. 

Nel caso di Gato, gli scienziati di DeepMind sono in grado di utilizzare la stessa ricerca di probabilità condizionata su numerosi tipi di dati. 

Mentre Reed e colleghi descrivono il compito di addestrare Gato, 

Durante la fase di addestramento di Gato, i dati provenienti da diversi compiti e modalità vengono serializzati in una sequenza piatta di token, raggruppati ed elaborati da una rete neurale trasformatore simile a un grande modello linguistico. La perdita viene mascherata in modo che Gato preveda solo azioni e obiettivi di testo.

Gato, in altre parole, non tratta i token in modo diverso sia che si tratti di parole in una chat o di vettori di movimento in un esercizio di impilamento di blocchi. È tutto uguale. 

deepmind-how-gato-is-trained.png

Scenario di addestramento di Gato.


Reed et al. 2022

Nascosto nell'ipotesi di Reed e del suo team c'è un corollario, vale a dire che alla fine vincerà sempre più potenza di calcolo. In questo momento, Gato è limitato dal tempo di risposta di un braccio robotico Sawyer che impila i blocchi. Con 1.18 miliardi di parametri di rete, Gato è molto più piccolo di modelli AI molto grandi come GPT-3. Man mano che i modelli di deep learning diventano più grandi, l’esecuzione dell’inferenza porta a una latenza che può fallire nel mondo non deterministico di un robot del mondo reale. 

Ma Reed e colleghi si aspettano che questo limite venga superato man mano che l’hardware AI diventa più veloce nell’elaborazione.

"Concentriamo la nostra formazione sul punto operativo della scala del modello che consente il controllo in tempo reale dei robot del mondo reale, attualmente circa 1.2 miliardi di parametri nel caso di Gato", hanno scritto. “Con il miglioramento dell’hardware e delle architetture dei modelli, questo punto operativo aumenterà naturalmente la dimensione del modello fattibile, spingendo i modelli generalisti più in alto lungo la curva della legge di scala”.

Pertanto, Gato è davvero un modello di come la scala di calcolo continuerà a essere il vettore principale dello sviluppo dell’apprendimento automatico, rendendo i modelli generali sempre più grandi. Più grande è meglio, in altre parole. 

deepmind-migliora-con-scale.png

Gato migliora man mano che aumenta la dimensione della rete neurale nei parametri.


Reed et al. 2022

E gli autori hanno alcune prove per questo. Gato sembra migliorare man mano che diventa più grande. Confrontano i punteggi medi di tutte le attività di benchmark per tre dimensioni del modello in base ai parametri, 79 milioni, 364 milioni e il modello principale, 1.18 miliardi. "Possiamo vedere che per un conteggio di token equivalente, c'è un miglioramento significativo delle prestazioni con una maggiore scala", scrivono gli autori. 

Una domanda futura interessante è se un programma generalista sia più pericoloso di altri tipi di programmi di intelligenza artificiale. Gli autori trascorrono molto tempo nel documento discutendo del fatto che esistono potenziali pericoli non ancora ben compresi.  

L'idea di un programma che gestisce più compiti suggerisce al profano una sorta di adattabilità umana, ma questa potrebbe essere una pericolosa percezione errata. "Ad esempio, l'incarnazione fisica potrebbe portare gli utenti ad antropomorfizzare l'agente, portando a una fiducia malriposta nel caso di un sistema malfunzionante, o essere sfruttabile da cattivi attori", scrivono Reed e il team. 

"Inoltre, sebbene il trasferimento di conoscenze tra domini sia spesso un obiettivo nella ricerca sul machine learning, potrebbe creare risultati inaspettati e indesiderati se determinati comportamenti (ad esempio i combattimenti nei giochi arcade) vengono trasferiti nel contesto sbagliato."

Pertanto, scrivono: “Le considerazioni etiche e di sicurezza del trasferimento della conoscenza potrebbero richiedere nuove e sostanziali ricerche man mano che i sistemi generalisti avanzano”.

(Come interessante nota a margine, il documento di Gato utilizza uno schema per descrivere il rischio ideato dall'ex ricercatrice di Google AI Margaret Michell e colleghi, chiamato Model Cards. Le Model Card forniscono un riepilogo conciso di cos'è un programma di intelligenza artificiale, cosa fa e cosa fattori influenzano il modo in cui opera. Michell ha scritto l'anno scorso di essere stata costretta a lasciare Google per aver sostenuto il suo ex collega, Timnit Gebru, le cui preoccupazioni etiche sull'intelligenza artificiale si sono scontrate con la leadership di Google nel settore dell'intelligenza artificiale.)

Gato non è affatto unico nella sua tendenza a generalizzare. Fa parte della tendenza generale alla generalizzazione e ai modelli più grandi che utilizzano secchi di potenza. Il mondo ha avuto il primo assaggio dell'inclinazione di Google in questa direzione l'estate scorsa, con la rete neurale "Perceiver" di Google che ha combinato attività di trasformazione del testo con immagini, suoni e coordinate spaziali LiDAR.

Inoltre: Supermodel di Google: DeepMind Perceiver è un passo avanti verso una macchina di intelligenza artificiale in grado di elaborare qualsiasi cosa

Tra i suoi pari c'è PaLM, Pathways Language Model, introdotto quest'anno dagli scienziati di Google, un modello da 540 miliardi di parametri che utilizza una nuova tecnologia per coordinare migliaia di chip, conosciuti come Percorsi, inventato anche da Google. Una rete neurale rilasciata a gennaio da Meta, chiamata “data2vec”, utilizza Transformers per dati di immagini, forme d'onda audio vocali e rappresentazioni del linguaggio testuale tutto in uno. 

La novità di Gato, a quanto pare, è l'intenzione di prendere l'intelligenza artificiale utilizzata per compiti non robotici e spingerla nel regno della robotica.

I creatori di Gato, notando i risultati di Pathways e altri approcci generalisti, vedono il risultato finale nell'intelligenza artificiale che può operare nel mondo reale, con qualsiasi tipo di compito. 

“Il lavoro futuro dovrebbe considerare come unificare queste capacità del testo in un unico agente completamente generalista che possa anche agire in tempo reale nel mondo reale, in diversi ambienti e forme di realizzazione”. 

Potresti, quindi, considerare Gato come un passo importante nel percorso verso la soluzione del problema più difficile dell’intelligenza artificiale, la robotica. 



Fonte