Le « Gato » de DeepMind est médiocre, alors pourquoi l'ont-ils construit ?

deepmind-gato-slash-image-closer-in.png

Le réseau neuronal « Gato » de DeepMind excelle dans de nombreuses tâches, notamment le contrôle des bras robotiques qui empilent des blocs, la lecture de jeux Atari 2600 et le sous-titrage d'images.


DeepMind

Le monde est habitué à voir les gros titres sur les dernières percées des formes d’apprentissage profond de l’intelligence artificielle. La dernière réalisation de la division DeepMind de Google pourrait cependant être résumée comme suit : « Un programme d’IA qui fait un travail médiocre dans beaucoup de choses ». 

Gato, comme s'appelle le programme de DeepMind, a été dévoilé cette semaine en tant que programme dit multimodal, capable de jouer à des jeux vidéo, de discuter, d'écrire des compositions, de sous-titrer des images et de contrôler un bras robotique empilant des blocs. Il s’agit d’un réseau neuronal capable de fonctionner avec plusieurs types de données pour effectuer plusieurs types de tâches. 

"Avec un seul jeu de poids, Gato peut engager un dialogue, légender des images, empiler des blocs avec un vrai bras de robot, surpasser les humains en jouant à des jeux Atari, naviguer dans des environnements 3D simulés, suivre des instructions, et bien plus encore", écrit l'auteur principal Scott Reed. et ses collègues dans leur article « A Generalist Agent » publié sur le serveur de préimpression Arxiv

Le co-fondateur de DeepMind, Demis Hassabis, a encouragé l'équipe : s'exclamant dans un tweet, « Notre agent le plus général à ce jour !! Travail fantastique de l’équipe!” 

Aussi: Une nouvelle expérience : L'IA connaît-elle vraiment les chats ou les chiens - ou quoi que ce soit ?

Le seul problème est que Gato n'est en réalité pas si doué sur plusieurs tâches. 

D'une part, le programme est capable de faire mieux qu'un programme d'apprentissage automatique dédié pour contrôler un bras robotique Sawyer qui empile des blocs. D’un autre côté, il produit des légendes pour les images qui, dans de nombreux cas, sont assez médiocres. Sa capacité à dialoguer par chat standard avec un interlocuteur humain est également médiocre, suscitant parfois des énoncés contradictoires et absurdes. 

Et sa capacité à jouer aux jeux vidéo Atari 2600 est inférieure à celle de la plupart des programmes ML dédiés conçus pour rivaliser avec le benchmark. Environnement d'apprentissage d'arcade

Pourquoi voudriez-vous créer un programme qui fait certaines choses assez bien et un tas d'autres choses moins bien ? Un précédent, et une attente, selon les auteurs. 

Il existe un précédent selon lequel des types de programmes plus généraux sont devenus l’état de l’art en matière d’IA, et on s’attend à ce que des quantités croissantes de puissance de calcul compensent à l’avenir les lacunes. 

La généralité peut tendre à triompher dans l’IA. Comme le notent les auteurs, citant Richard Sutton, spécialiste de l’IA, « historiquement, les modèles génériques qui exploitent mieux le calcul ont également eu tendance à dépasser les approches plus spécialisées et spécifiques à un domaine ».

Comme l'a écrit Sutton dans son propre article de blog"La plus grande leçon que l'on puisse tirer de 70 ans de recherche sur l'IA est que les méthodes générales qui exploitent le calcul sont en fin de compte les plus efficaces, et de loin."

Dans une thèse formelle, Reed et son équipe écrivent que « nous testons ici l'hypothèse selon laquelle la formation d'un agent généralement capable sur un grand nombre de tâches est possible ; et que cet agent général peut être adapté avec peu de données supplémentaires pour réussir un nombre encore plus grand de tâches.

Aussi: LeCun, la sommité de l'IA de Meta, explore la frontière énergétique de l'apprentissage profond

Le modèle, dans ce cas, est en effet très général. Il s'agit d'une version du Transformer, le type dominant de modèle basé sur l'attention qui est devenu la base de nombreux programmes, dont GPT-3. Un transformateur modélise la probabilité d'un élément en fonction des éléments qui l'entourent, comme les mots d'une phrase. 

Dans le cas de Gato, les scientifiques de DeepMind sont capables d'utiliser la même recherche de probabilité conditionnelle sur de nombreux types de données. 

Comme Reed et ses collègues décrivent la tâche de formation de Gato, 

Au cours de la phase de formation de Gato, les données de différentes tâches et modalités sont sérialisées en une séquence plate de jetons, regroupées et traitées par un réseau neuronal de transformateur similaire à un grand modèle de langage. La perte est masquée de sorte que Gato prédit uniquement les cibles d'action et de texte.

En d’autres termes, Gato ne traite pas les jetons différemment, qu’il s’agisse de mots dans une discussion ou de vecteurs de mouvement dans un exercice d’empilement de blocs. C'est tout pareil. 

deepmind-comment-gato-is-trained.png

Scénario de formation Gato.


Reed et coll. 2022

L'hypothèse de Reed et de son équipe a un corollaire, à savoir que de plus en plus de puissance de calcul finira par l'emporter. À l'heure actuelle, Gato est limité par le temps de réponse d'un bras robotique Sawyer qui effectue l'empilement des blocs. Avec 1.18 milliard de paramètres réseau, Gato est bien plus petit que les très grands modèles d'IA tels que GPT-3. À mesure que les modèles d’apprentissage profond s’agrandissent, l’inférence entraîne une latence qui peut échouer dans le monde non déterministe d’un robot du monde réel. 

Mais Reed et ses collègues s’attendent à ce que cette limite soit dépassée à mesure que le matériel d’IA accélère le traitement.

"Nous concentrons notre formation sur le point de fonctionnement de l'échelle modèle qui permet le contrôle en temps réel de robots du monde réel, actuellement autour de 1.2 milliard de paramètres dans le cas de Gato", ont-ils écrit. "À mesure que le matériel et les architectures de modèles s'améliorent, ce point de fonctionnement augmentera naturellement la taille réalisable du modèle, poussant les modèles généralistes plus haut dans la courbe de la loi d'échelle."

Par conséquent, Gato est vraiment un modèle de la façon dont l’échelle de calcul continuera à être le principal vecteur de développement de l’apprentissage automatique, en rendant les modèles généraux de plus en plus grands. En d’autres termes, plus c’est gros, mieux c’est. 

deepmind-s'améliore-avec-scale.png

Gato s'améliore à mesure que la taille du réseau neuronal en paramètres augmente.


Reed et coll. 2022

Et les auteurs en ont des preuves. Gato semble s'améliorer à mesure qu'il grandit. Ils comparent les scores moyens pour toutes les tâches de référence pour trois tailles de modèle en fonction des paramètres, 79 millions, 364 millions, et du modèle principal, 1.18 milliard. "Nous pouvons constater que pour un nombre de jetons équivalent, il y a une amélioration significative des performances avec une échelle accrue", écrivent les auteurs. 

Une question future intéressante est de savoir si un programme généraliste est plus dangereux que d’autres types de programmes d’IA. Les auteurs passent beaucoup de temps dans l’article à discuter du fait qu’il existe des dangers potentiels qui ne sont pas encore bien compris.  

L’idée d’un programme gérant plusieurs tâches suggère au profane une sorte d’adaptabilité humaine, mais cela peut être une perception erronée et dangereuse. "Par exemple, l'incarnation physique pourrait conduire les utilisateurs à anthropomorphiser l'agent, conduisant à une confiance mal placée en cas de dysfonctionnement du système, ou à être exploitable par de mauvais acteurs", écrivent Reed et son équipe. 

"De plus, même si le transfert de connaissances entre domaines est souvent un objectif de la recherche en ML, il pourrait créer des résultats inattendus et indésirables si certains comportements (par exemple, les combats dans les jeux d'arcade) sont transférés dans le mauvais contexte."

Par conséquent, écrivent-ils : « Les considérations éthiques et de sécurité liées au transfert de connaissances pourraient nécessiter de nouvelles recherches substantielles à mesure que les systèmes généralistes progressent. »

(En remarque intéressante, l'article de Gato utilise un système pour décrire les risques conçu par Margaret Michell, ancienne chercheuse en IA de Google, et ses collègues, appelé Model Cards. Les Model Cards donnent un résumé concis de ce qu'est un programme d'IA, de ce qu'il fait et de ce qu'il fait. Certains facteurs affectent son fonctionnement. Michell a écrit l'année dernière qu'elle avait été forcée de quitter Google pour avoir soutenu son ancien collègue, Timnit Gebru, dont les préoccupations éthiques concernant l'IA allaient à l'encontre des dirigeants de Google en matière d'IA.)

Gato n’est en aucun cas unique dans sa tendance généralisatrice. Cela fait partie de la tendance générale à la généralisation et aux modèles plus grands qui utilisent des tonnes de puissance. Le monde a eu un premier aperçu de l'orientation de Google dans cette direction l'été dernier, avec le réseau neuronal « Perceiver » de Google qui combinait des tâches de transformation de texte avec des images, du son et des coordonnées spatiales LiDAR.

Aussi: Supermodel de Google : DeepMind Perceiver est une étape sur la voie d'une machine d'IA capable de traiter tout et n'importe quoi

Parmi ses pairs figurent PaLM, le modèle linguistique Pathways, introduit cette année par les scientifiques de Google, un modèle de 540 milliards de paramètres qui utilise une nouvelle technologie pour coordonner des milliers de puces, connu sous le nom de Voies, également inventé chez Google. Un réseau neuronal publié en janvier par Meta, appelé « data2vec », utilise Transformers pour les données d'image, les formes d'onde audio vocales et les représentations en langage texte, tout en un. 

Ce qui est nouveau chez Gato, semble-t-il, c'est l'intention de prendre l'IA utilisée pour des tâches non robotiques et de la pousser dans le domaine de la robotique.

Les créateurs de Gato, notant les réalisations de Pathways et d'autres approches généralistes, voient la réalisation ultime dans l'IA qui peut fonctionner dans le monde réel, avec tout type de tâches. 

"Les travaux futurs devraient réfléchir à la manière d'unifier ces capacités textuelles en un seul agent entièrement généraliste qui peut également agir en temps réel dans le monde réel, dans divers environnements et modes de réalisation." 

On pourrait alors considérer Gato comme une étape importante sur la voie de la résolution du problème le plus difficile de l’IA, la robotique. 



Identifier