Le 'data2vec' de Meta est la prochaine étape vers un réseau de neurones pour les gouverner tous

La course est lancée pour créer un réseau de neurones capable de traiter plusieurs types de données, la notion d'une intelligence artificielle plus générale qui ne fait pas de distinction entre les types de données, mais peut plutôt les regrouper dans la même structure de base.

Le genre de multimodalité, comme on appelle ces réseaux de neurones, connaît une vague d'activités dans laquelle différentes données, telles que l'image, le texte et l'audio de la parole, sont passées par le même algorithme pour produire un score sur différents tests tels que la reconnaissance d'images, la compréhension du langage naturel ou la détection de la parole.

Et ces réseaux ambidextres accumulent des scores sur les tests de référence de l'IA. La dernière réalisation est ce qu'on appelle "data2vec", développé par des chercheurs de la division AI de Meta, parent de Facebook, Instagram et WhatsApp. 

Le but, comme l'écrivent les scientifiques de Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu et Michael Auli, est d'aborder quelque chose qui ressemble plus à la capacité d'apprentissage générale que l'esprit humain semble englober.

"Alors que les gens semblent apprendre de la même manière, quelle que soit la manière dont ils obtiennent des informations, qu'ils utilisent la vue ou l'ouïe, par exemple", écrivent les auteurs. dans un billet de blog, "il existe actuellement de grandes différences dans la manière dont" les réseaux de neurones traitent différents types de données telles que les images, la parole, le texte, "et d'autres modalités".

"L'idée centrale de cette approche", déclarent-ils à propos de data2vec, "est d'apprendre plus généralement : l'IA devrait être capable d'apprendre à effectuer de nombreuses tâches différentes, y compris celles qui ne sont absolument pas familières."

Le PDG de Meta, Mark Zuckerberg, a proposé une citation sur le travail, le liant à un futur Metaverse :

Percée passionnante : la recherche Meta AI a construit un système qui apprend de la parole, de la vision et du texte sans avoir besoin de données d'entraînement étiquetées. Les gens font l'expérience du monde à travers une combinaison de la vue, du son et des mots, et des systèmes comme celui-ci pourraient un jour comprendre le monde comme nous le faisons. Tout cela finira par être intégré dans les lunettes AR avec un assistant IA. Par exemple, cela pourrait vous aider à préparer le dîner, en remarquant si vous manquez un ingrédient, en vous invitant à baisser le feu ou à effectuer des tâches plus complexes.

Le nom data2vec est un jeu sur le nom d'un programme d'« incorporation » de langage développé chez Google en 2013 appelé "word2vec". Ce programme a prédit comment les mots se regroupent, et donc word2vec est représentatif d'un réseau de neurones conçu pour un type spécifique de données, dans ce cas du texte. 

Aussi: Ouvrez les portes de la baie des modules, s'il vous plaît, HAL : l'IA de Meta simule la lecture labiale

Dans le cas de data2vec, cependant, Baevski et ses collègues prennent une version standard de ce qu'on appelle un transformateur, développé par Ashish Vaswani et ses collègues chez Google en 2017 et l'étendre pour qu'il soit utilisé pour plusieurs types de données. 

Le réseau de neurones Transformer a été développé à l'origine pour les tâches linguistiques, mais il a été largement adapté au cours des années depuis pour de nombreux types de données. Baevski et al. montrent que le transformateur peut être utilisé pour traiter plusieurs types de données sans être altéré, et que le réseau neuronal formé qui en résulte peut effectuer plusieurs tâches différentes. 

Dans le document officiel, «data2vec : un cadre général pour l'apprentissage auto-supervisé de la parole, de la vision et du langage", Baevski et al., entraînent le transformateur pour les données d'image, les formes d'onde audio de la parole et les représentations du langage textuel. 

Data2vec est "le premier algorithme auto-supervisé hautes performances qui fonctionne pour plusieurs modalités, à savoir la parole, la vision et le texte", écrivent Baevski et son équipe dans le billet de blog.

Le transformateur très général devient ce qu'on appelle une pré-formation qui peut ensuite être appliquée à des réseaux de neurones spécifiques afin d'effectuer des tâches spécifiques. Par exemple, les auteurs utilisent data2vec comme pré-formation pour équiper ce qu'on appelle "ViT", le "transformateur de vision", un réseau de neurones spécialement conçu pour les tâches de vision qui a été introduit l'année dernière par Alexey Dosovitskiy et ses collègues de Google. 

meta-2022-data2vec-scores-sur-vit-test.jpg

Meta affiche les meilleurs scores pour le vénérable concours de reconnaissance d'images ImageNet.


Meta 2022

Lorsqu'ils sont utilisés sur ViT pour tenter de résoudre le test standard ImageNet de reconnaissance d'image, leurs résultats arrivent en tête du peloton, avec une précision de 84.1 %, mieux que le score de 83.2 % reçu par une équipe de Microsoft qui a pré-formé ViT, dirigé par Hangbo Bao, année dernière.

Et le même transformateur data2vec produit des résultats qui sont à la pointe de la technologie pour la reconnaissance vocale et qui sont compétitifs, sinon les meilleurs, pour l'apprentissage du langage naturel :

Les résultats expérimentaux montrent que data2vec est efficace dans les trois modalités, établissant un nouvel état de l'art pour ViT-B et ViT-L sur ImageNet-1K, s'améliorant par rapport aux meilleurs travaux antérieurs en matière de traitement de la parole sur la reconnaissance vocale et performant à égalité avec RoBERTa sur le benchmark de compréhension du langage naturel GLUE. 

Le point crucial est que cela se produit sans aucune modification du réseau de neurones pour concerner les images, et il en va de même pour la parole et le texte. Au lieu de cela, chaque type d'entrée va dans le même réseau et accomplit la même tâche très générale. Cette tâche est la même que celle que les réseaux Transformer utilisent toujours, connue sous le nom de "prédiction masquée". 

Aussi: Supermodel de Google : DeepMind Perceiver est une étape sur la voie d'une machine d'IA capable de traiter tout et n'importe quoi

La façon dont data2vec effectue la prédiction masquée, cependant, est une approche connue sous le nom d'apprentissage "auto-supervisé". Dans un environnement auto-supervisé, un réseau de neurones est formé, ou développé, en devant passer par plusieurs étapes. 

Tout d'abord, le réseau construit une représentation de la probabilité conjointe d'entrée de données, qu'il s'agisse d'images, de parole ou de texte. Ensuite, une deuxième version du réseau contient certains de ces éléments de données d'entrée "masqués", non révélés. Il doit reconstruire la probabilité conjointe que la première version du réseau avait construite, ce qui l'oblige à créer des représentations de mieux en mieux des données en remplissant essentiellement les blancs. 

meta-2022-data2vec-architecture-reseau.jpg

Un aperçu de l'approche data2vec.


Meta 2022

Les deux réseaux, celui avec le modèle complet de la probabilité conjointe, et celui avec la version incomplète qu'il essaie de compléter, sont appelés, assez judicieusement, "Enseignant" et "Étudiant". Le réseau Étudiant essaie de développer son sens des données, si vous voulez, en reconstituant ce que l'Enseignant avait déjà réalisé.

Vous pouvez voir le code des modèles sur Github.

Comment le réseau de neurones se comporte-t-il en tant qu'enseignant et élève pour trois types de données très différents ? La clé est que la "cible" de la probabilité conjointe, dans les trois cas de données, n'est pas un type de données de sortie spécifique, comme c'est le cas dans les versions du transformateur pour un type de données spécifique, comme le BERT de Google ou le GPT-3 d'OpenAI. . 

Au lieu de cela, data2vec saisit un tas de couches de réseau neuronal qui sont à l'intérieur le réseau de neurones, quelque part au milieu, qui représente les données avant qu'elles ne soient toutes produites en sortie finale. 

Comme l'écrivent les auteurs, "l'une des principales différences de notre méthode […] autre que la réalisation d'une prédiction masquée, est l'utilisation d'objectifs basés sur la moyenne de plusieurs couches du réseau d'enseignants". Plus précisément, "nous régressons plusieurs représentations de couche de réseau neuronal au lieu de simplement la couche supérieure", de sorte que "data2vec prédit les représentations latentes des données d'entrée".

Ils ajoutent: "Nous utilisons généralement la sortie du FFN [réseau de rétroaction] avant la dernière connexion résiduelle dans chaque bloc comme cible", où un "bloc" est l'équivalent Transformer d'une couche de réseau neuronal.

Le fait est que chaque type de données qui entre devient le même défi pour le réseau étudiant de reconstruire quelque chose à l'intérieur du réseau neuronal que l'enseignant avait composé.

Cette moyenne est différente des autres approches récentes de la construction d'un réseau pour écraser toutes les données. Par exemple, l'été dernier, l'unité DeepMind de Google a proposé ce qu'elle appelle "Perceiver", sa propre version multimodale du Transformer. La formation du réseau de neurones Perceiver est le processus le plus standard de production d'une sortie qui est la réponse à une tâche étiquetée et supervisée telle qu'ImageNet. Dans l'approche auto-supervisée, data2vec n'utilise pas ces étiquettes, il essaie simplement de reconstruire la représentation interne des données du réseau. 

Des efforts encore plus ambitieux se trouvent dans les coulisses. Jeff Dean, responsable des efforts d'IA de Google, a parlé en octobre de "Pathways", ce que Dean prétend être un "architecture IA de nouvelle génération» pour l'informatique multimodale.

Remarquez que l'approche très générale de data2vec d'un seul réseau de neurones pour plusieurs modalités contient encore beaucoup d'informations sur les différents types de données. L'image, la parole et le texte sont tous préparés par prétraitement des données. De cette façon, l'aspect multimodal du réseau repose toujours sur des indices sur les données, ce que l'équipe appelle de «petits encodeurs d'entrée spécifiques à une modalité».

Aussi: Google dévoile "Pathways", une IA de nouvelle génération qui peut être entraînée au multitâche

"Malgré le régime d'apprentissage unifié, nous utilisons toujours des extracteurs de caractéristiques et des stratégies de masquage spécifiques à la modalité", expliquent-ils.

Par conséquent, nous ne sommes pas encore dans un monde où un réseau de neurones est formé sans aucun sens des types de données d'entrée. Nous ne sommes pas non plus à un moment où le réseau de neurones peut construire une représentation qui combine tous les différents types de données, de sorte que le réseau de neurones apprend des choses en combinaison.

Ce fait ressort clairement d'un échange entre ZDNet et les auteurs. ZDNet a contacté Baevski et son équipe et a demandé : "Les représentations latentes qui servent de cibles sont-elles un encodage combiné des trois modalités à un pas de temps donné, ou ne sont-elles généralement qu'une des modalités ?"

Baevski et son équipe répondent que c'est le dernier cas, et leur reply est intéressant de citer longuement :

Les variables latentes ne sont pas un encodage combiné pour les trois modalités. Nous formons des modèles distincts pour chaque modalité, mais le processus par lequel les modèles apprennent est identique. C'est la principale innovation de notre projet car auparavant il y avait de grandes différences dans la façon dont les modèles sont entraînés dans différentes modalités. Les neuroscientifiques pensent également que les humains apprennent de manière similaire sur les sons et le monde visuel. Notre projet montre que l'apprentissage auto-supervisé peut également fonctionner de la même manière pour différentes modalités.

Compte tenu des limitations spécifiques à la modalité de data2vec, un réseau de neurones qui pourrait vraiment être Un réseau pour les gouverner tous reste la technologie du futur.

Identifier