"data2vec" di Meta è il prossimo passo verso una rete neurale per governarli tutti

La corsa è aperta per creare una rete neurale in grado di elaborare più tipi di dati, la nozione di un'intelligenza artificiale più generale che non discrimina i tipi di dati ma può invece sgranocchiarli tutti all'interno della stessa struttura di base.

Il genere della multimodalità, come vengono chiamate queste reti neurali, sta assistendo a una raffica di attività in cui dati diversi, come immagini, testo e audio vocale, vengono passati attraverso lo stesso algoritmo per produrre un punteggio su test diversi come riconoscimento delle immagini, comprensione del linguaggio naturale o rilevamento del parlato.

E queste reti ambidestre stanno accumulando punteggi nei test di benchmark dell'IA. L'ultimo risultato è quello che viene chiamato "data2vec", sviluppato dai ricercatori della divisione AI di Meta, genitore di Facebook, Instagram e WhatsApp. 

Il punto, come scrivono gli scienziati di Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu e Michael Auli, è avvicinarsi a qualcosa di più simile alla capacità di apprendimento generale che la mente umana sembra racchiudere.

"Mentre le persone sembrano imparare in modo simile indipendentemente da come ottengono le informazioni, se usano la vista o il suono, ad esempio", scrivono gli autori in un post sul blog, "al momento ci sono grandi differenze nel modo in cui" le reti neurali gestiscono diversi tipi di dati come immagini, parlato, testo e "e altre modalità".

"L'idea centrale di questo approccio", dichiarano di data2vec, "è quella di imparare più in generale: l'IA dovrebbe essere in grado di imparare a svolgere molti compiti diversi, compresi quelli che non sono del tutto familiari".

Il CEO di Meta, Mark Zuckerberg, ha offerto una citazione sul lavoro, legandolo a un futuro Metaverso:

Emozionante svolta: la ricerca Meta AI ha creato un sistema che apprende dal parlato, dalla visione e dal testo senza bisogno di dati di allenamento etichettati. Le persone sperimentano il mondo attraverso una combinazione di vista, suono e parole, e sistemi come questo potrebbero un giorno capire il mondo nel modo in cui lo facciamo noi. Tutto questo alla fine verrà integrato negli occhiali AR con un assistente AI, quindi, ad esempio, potrebbe aiutarti a cucinare la cena, notando se ti manca un ingrediente, spingendoti ad abbassare il fuoco o compiti più complessi.

Il nome data2vec è un gioco sul nome di un programma per l'“incorporamento” del linguaggio sviluppato da Google nel 2013 chiamato "word2vec". Quel programma prevedeva il modo in cui le parole si raggruppano, quindi word2vec è rappresentativo di una rete neurale progettata per un tipo specifico di dati, in quel caso il testo. 

Inoltre: Apri le porte del baccello, per favore, HAL: L'IA di Meta simula la lettura labiale

Nel caso di data2vec, invece, Baevski e colleghi stanno adottando una versione standard di quello che viene chiamato Transformer, sviluppato da Ashish Vaswani e colleghi a Google nel 2017 ed estendendolo per essere utilizzato per più tipi di dati. 

La rete neurale Transformer è stata originariamente sviluppata per compiti linguistici, ma da allora è stata ampiamente adattata per molti tipi di dati. Baevski et al. mostrano che il Transformer può essere utilizzato per elaborare più tipi di dati senza essere alterato e la rete neurale addestrata che ne risulta può essere eseguita su più attività diverse. 

Nel documento formale, "data2vec: un quadro generale per l'apprendimento auto-supervisionato nel linguaggio, nella vista e nel linguaggio,” Baevski et al., addestrano il Transformer per dati di immagine, forme d'onda audio vocali e rappresentazioni del linguaggio del testo. 

Data2vec è "il primo algoritmo auto-supervisionato ad alte prestazioni che funziona per più modalità, vale a dire discorso, visione e testo", scrivono Baevski e il team nel post del blog.

Il Transformer molto generale diventa quello che viene chiamato un pre-training che può quindi essere applicato a specifiche reti neurali per svolgere compiti specifici. Ad esempio, gli autori utilizzano data2vec come pre-allenamento per equipaggiare quello che viene chiamato "ViT", il "trasformatore di visione", una rete neurale specificamente progettata per compiti di visione che è stato introdotto lo scorso anno di Alexey Dosovitskiy e colleghi di Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta mostra i punteggi migliori per il venerabile concorso di riconoscimento delle immagini ImageNet.


Obiettivo 2022

Quando vengono utilizzati su ViT per provare a risolvere il test ImageNet standard di riconoscimento delle immagini, i loro risultati sono in cima alla classifica, con una precisione dell'84.1%, migliore del punteggio dell'83.2% ricevuto da un team di Microsoft che si è pre-addestrato ViT, guidato da Hangbo Bao, l'anno scorso.

E lo stesso data2vec Transformer produce risultati che sono lo stato dell'arte per il riconoscimento vocale e che sono competitivi, se non i migliori, per l'apprendimento del linguaggio naturale:

I risultati sperimentali mostrano che data2vec è efficace in tutte e tre le modalità, stabilendo un nuovo stato dell'arte per ViT-B e ViT-L su ImageNet-1K, migliorando rispetto al miglior lavoro precedente nell'elaborazione vocale sul riconoscimento vocale e con prestazioni alla pari di RoBERTa sul benchmark GLUE per la comprensione del linguaggio naturale. 

Il punto cruciale è che questo sta accadendo senza alcuna modifica della rete neurale per riguardare le immagini, e lo stesso per la voce e il testo. Invece, ogni tipo di input sta andando nella stessa rete e sta completando la stessa attività molto generale. Quel compito è lo stesso che usano sempre le reti Transformer, noto come "previsione mascherata". 

Inoltre: Supermodel di Google: DeepMind Perceiver è un passo avanti verso una macchina di intelligenza artificiale in grado di elaborare qualsiasi cosa

Il modo in cui data2vec esegue la previsione mascherata, tuttavia, è un approccio noto come apprendimento "auto-supervisionato". In un ambiente autocontrollato, una rete neurale viene addestrata o sviluppata dovendo passare attraverso più fasi. 

In primo luogo, la rete costruisce una rappresentazione della probabilità congiunta di input di dati, siano essi immagini, parole o testo. Quindi, una seconda versione della rete ha alcuni di questi elementi di dati di input "mascherati", non rivelati. Deve ricostruire la probabilità congiunta che aveva costruito la prima versione della rete, che la costringe a creare rappresentazioni sempre migliori dei dati riempiendo essenzialmente gli spazi vuoti. 

meta-2022-data2vec-network-architecture.jpg

Una panoramica dell'approccio data2vec.


Obiettivo 2022

Le due reti, quella con il modello completo della probabilità congiunta, e quella con la versione incompleta che sta cercando di completare, sono chiamate, abbastanza sensatamente, "Insegnante" e "Studente". La Rete degli Studenti cerca di sviluppare il senso dei dati, se si vuole, ricostruendo ciò che l'Insegnante aveva già realizzato.

Puoi vedere il codice per i modelli su Github.

Come funziona la rete neurale Insegnante e Studente per tre tipi di dati molto diversi? La chiave è che il "target" della probabilità congiunta, in tutti e tre i casi di dati, non è un tipo di dati di output specifico, come nel caso delle versioni di Transformer per un tipo di dati specifico, come BERT di Google o GPT-3 di OpenAI . 

Piuttosto, data2vec sta afferrando alcuni strati di reti neurali che sono interno la rete neurale, da qualche parte nel mezzo, che rappresenta i dati prima che vengano prodotti come output finale. 

Come scrivono gli autori, "Una delle principali differenze del nostro metodo […] oltre all'esecuzione di previsioni mascherate, è l'uso di obiettivi basati sulla media di più livelli dalla rete di insegnanti". In particolare, "regrediamo più rappresentazioni del livello di rete neurale anziché solo il livello superiore", in modo che "data2vec preveda le rappresentazioni latenti dei dati di input".

Aggiungono: "In genere utilizziamo l'output della FFN [rete feed-forward] prima dell'ultima connessione residua in ogni blocco come destinazione", dove un "blocco" è l'equivalente Transformer di uno strato di rete neurale.

Il punto è che ogni tipo di dati che entra diventa la stessa sfida per la rete Studente di ricostruire qualcosa all'interno della rete neurale che l'Insegnante aveva composto.

Questa media è diversa da altri approcci recenti alla creazione di una rete per sgranocchiare tutti i dati. Ad esempio, la scorsa estate, l'unità DeepMind di Google ha offerto quello che chiama "Perceiver", la sua versione multimodale del Transformer. L'addestramento della rete neurale del Percettore è il processo più standard per produrre un output che sia la risposta a un'attività etichettata e supervisionata come ImageNet. Nell'approccio auto-supervisionato, data2vec non utilizza quelle etichette, sta solo cercando di ricostruire la rappresentazione interna dei dati della rete. 

Sforzi ancora più ambiziosi sono dietro le quinte. Jeff Dean, capo degli sforzi dell'IA di Google, a ottobre ha preso in giro i "Percorsi", quello che Dean sostiene essere un "architettura di intelligenza artificiale di nuova generazione” per l'elaborazione multimodale dei dati.

Intendiamoci, l'approccio molto generale di data2vec a una singola rete neurale per modalità multiple ha ancora molte informazioni sui diversi tipi di dati. Immagine, voce e testo sono tutti preparati dalla preelaborazione dei dati. In questo modo, l'aspetto multimodale della rete si basa ancora su indizi sui dati, quelli che il team definisce "codificatori di input specifici per modalità di piccole dimensioni".

Inoltre: Google presenta "Pathways", un'IA di nuova generazione che può essere addestrata al multitasking

"Nonostante il regime di apprendimento unificato, utilizziamo ancora estrattori di funzionalità e strategie di mascheramento specifiche per modalità", spiegano.

Quindi, non siamo ancora in un mondo in cui una rete neurale viene addestrata senza alcun senso dei tipi di dati di input. Inoltre, non siamo in un momento in cui la rete neurale può costruire una rappresentazione che combini tutti i diversi tipi di dati, in modo che la rete neurale stia imparando le cose in combinazione.

Questo fatto è chiarito da uno scambio tra ZDNet e gli autori. ZDNet ha contattato Baevski e il team e ha chiesto: "Le rappresentazioni latenti che fungono da bersagli sono una codifica combinata di tutte e tre le modalità in un dato passaggio temporale, o di solito sono solo una delle modalità?"

Baevski e la squadra rispondono che è il secondo caso, e il loro reply è interessante citare a lungo:

Le variabili latenti non sono una codifica combinata per le tre modalità. Formiamo modelli separati per ciascuna modalità, ma il processo attraverso il quale i modelli apprendono è identico. Questa è la principale innovazione del nostro progetto poiché prima c'erano grandi differenze nel modo in cui i modelli vengono addestrati in diverse modalità. I neuroscienziati credono anche che gli esseri umani imparino in modi simili sui suoni e sul mondo visivo. Il nostro progetto mostra che l'apprendimento auto-supervisionato può funzionare allo stesso modo anche per modalità diverse.

Date le limitazioni specifiche della modalità di data2vec, una rete neurale potrebbe davvero esserlo Una rete per dominarli tutti resta la tecnologia del futuro.

Fonte