LeCun, le gourou de l'IA de Meta : la plupart des approches actuelles en matière d'IA ne mèneront jamais à une véritable intelligence

yann-lecun-sept-2022-1

«Je pense que les systèmes d'IA doivent être capables de raisonner», déclare Yann LeCun, scientifique en chef en IA chez Meta. Les approches d'IA populaires d'aujourd'hui, telles que Transformers, dont beaucoup s'appuient sur ses propres travaux de pionnier dans le domaine, ne suffiront pas. "Il faut prendre du recul et se dire : ok, nous avons construit cette échelle, mais nous voulons aller sur la lune, et cette échelle ne nous y mènera en aucun cas", explique LeCun.

Yann LeCun, scientifique en chef de l'IA de Meta Properties, propriétaire de Facebook, Instagram et WhatsApp, risque d'énerver de nombreuses personnes dans son domaine. 

Avec la publication en juin d'un article de réflexion sur le serveur Open Review, LeCun a offert un aperçu général d'une approche qui, selon lui, est prometteuse pour parvenir à une intelligence au niveau humain dans les machines. 

L’affirmation selon laquelle la plupart des grands projets actuels en matière d’IA ne pourront jamais atteindre cet objectif au niveau humain est implicite, voire explicitée dans le document.

Lors d'une discussion ce mois-ci avec ZDNet via Zoom, LeCun a clairement indiqué qu'il considérait avec un grand scepticisme bon nombre des voies de recherche les plus réussies en matière d'apprentissage profond à l'heure actuelle.

"Je pense qu'ils sont nécessaires mais pas suffisants", a déclaré le lauréat du prix Turing. ZDNet des activités de ses pairs. 

Ceux-ci incluent de grands modèles de langage tels que le GPT-3 basé sur Transformer et leurs semblables. Comme LeCun le caractérise, les dévots de Transformer pensent : « Nous symbolisons tout et formons de gigantesquesdes modèles pour faire des prédictions discrètes, et d’une manière ou d’une autre, l’IA en émergera.

"Ils n'ont pas tort", dit-il, "dans le sens où cela pourrait être un composant d'un futur système intelligent, mais je pense qu'il manque des éléments essentiels."

Aussi: LeCun, la sommité de l'IA de Meta, explore la frontière énergétique de l'apprentissage profond

Il s'agit d'une critique surprenante de ce qui semble fonctionner de la part du chercheur qui a perfectionné l'utilisation des réseaux de neurones convolutifs, une technique pratique qui s'est révélée incroyablement productive dans les programmes d'apprentissage en profondeur. 

LeCun voit des défauts et des limites dans de nombreux autres domaines très réussis de la discipline. 

L’apprentissage par renforcement ne sera jamais suffisant non plus, affirme-t-il. Des chercheurs tels que David Silver de DeepMind, qui a développé le programme AlphaZero qui maîtrisait les échecs, le shogi et le go, se concentrent sur des programmes « très basés sur l'action », observe LeCun, mais « la plupart de l'apprentissage que nous faisons, nous ne le faisons pas. nous le faisons en agissant réellement, nous le faisons en observant. 

Lecun, 62 ans, dans la perspective de décennies de réussite, exprime néanmoins l’urgence d’affronter ce qu’il considère comme des impasses vers lesquelles beaucoup peuvent se précipiter, et d’essayer d’amener son domaine dans la direction qu’il pense que les choses devraient aller. 

« Nous voyons beaucoup de revendications sur ce que nous devrions faire pour avancer vers une IA au niveau humain », dit-il. "Et il y a des idées qui, à mon avis, sont mal orientées."

"Nous n'en sommes pas au point où nos machines intelligentes ont autant de bon sens qu'un chat", observe Lecun. "Alors pourquoi ne commençons-nous pas par là?" 

Il a abandonné sa confiance antérieure dans l’utilisation des réseaux génératifs, par exemple pour prédire l’image suivante d’une vidéo. «Cela a été un échec total», dit-il. 

LeCun dénonce ceux qu’il appelle les « probabilistes religieux », qui « pensent que la théorie des probabilités est le seul cadre que l’on puisse utiliser pour expliquer l’apprentissage automatique ». 

L’approche purement statistique est insoluble, dit-il. « C'est trop demander qu'un modèle mondial soit complètement probabiliste ; nous ne savons pas comment faire.

Non seulement les universitaires, mais aussi l’IA industrielle doivent être repensés en profondeur, affirme LeCun. Le monde des voitures autonomes, des startups telles que Wayve, a été « un peu trop optimiste », dit-il, en pensant qu'ils pourraient « envoyer des données sur » de grands réseaux de neurones « et que vous pouvez apprendre à peu près n'importe quoi ».

"Vous savez, je pense qu'il est tout à fait possible que nous ayons des voitures autonomes de niveau cinq sans bon sens", dit-il en faisant référence à "l'ADAS". système d'aide à la conduite avancé termes pour la conduite autonome, « mais vous allez devoir vous en sortir complètement ».

Une telle technologie de conduite autonome sur-conçue sera quelque chose d'aussi grinçant et fragile que tous les programmes de vision par ordinateur rendus obsolètes par l'apprentissage profond, estime-t-il.

"En fin de compte, il y aura une solution plus satisfaisante et peut-être meilleure, qui impliquera des systèmes permettant de mieux comprendre le fonctionnement du monde."

En cours de route, LeCun offre quelques points de vue flétris sur ses plus grands critiques, tels que le professeur de NYU Gary Marcus – « il n'a jamais rien contribué à l'IA » – et Jürgen Schmidhuber, codirecteur de l'Institut Dalle Molle pour la recherche sur l'intelligence artificielle – « c'est il est très facile de planter des drapeaux.

Au-delà des critiques, le point le plus important avancé par LeCun est que certains problèmes fondamentaux sont confrontés à l’ensemble de l’IA, en particulier celui de la manière de mesurer l’information.

"Il faut prendre du recul et se dire : ok, nous avons construit cette échelle, mais nous voulons aller sur la lune, et il n'y a aucune chance que cette échelle nous y amène", dit LeCun à propos de son désir d'inciter à repenser de concepts de base. "En gros, ce que j'écris ici, c'est que nous devons construire des fusées. Je ne peux pas vous donner les détails sur la façon dont nous construisons des fusées, mais voici les principes de base."

Le journal et les réflexions de LeCun dans l'interview peuvent être mieux compris en lisant l'interview de LeCun plus tôt cette année avec ZDNet dans lequel il plaide en faveur de l’apprentissage auto-supervisé basé sur l’énergie comme voie à suivre pour l’apprentissage en profondeur. Ces réflexions donnent une idée de l’approche fondamentale de ce qu’il espère construire comme alternative aux choses qui, selon lui, n’atteindront pas la ligne d’arrivée. 

Ce qui suit est une transcription légèrement éditée de l’entretien.

ZDNet : Le sujet de notre discussion est cet article, « Un chemin vers une intelligence machine autonome », dont la version 0.9.2 est la version existante, n'est-ce pas ?

Yann LeCun : Oui, je considère cela, en quelque sorte, comme un document de travail. Je l'ai donc publié sur Open Review, en attendant que les gens fassent des commentaires et des suggestions, peut-être des références supplémentaires, puis je produirai une version révisée. 

ZDNet : Je vois que Juergen Schmidhuber a déjà ajouté quelques commentaires à Open Review.

YL : Eh bien, oui, il le fait toujours. J'y cite un de ses articles dans mon article. Je pense que les arguments qu'il a avancés sur les réseaux sociaux, selon lesquels il aurait inventé tout cela en 1991, comme il l'a fait dans d'autres cas, ne sont tout simplement pas vrais. Je veux dire, c'est très facile à faireplanter des drapeaux, et, en quelque sorte, écrire une idée sans aucune expérience, sans aucune théorie, suggérez simplement que vous pourriez le faire de cette façon. Mais, vous savez, il y a une grande différence entre simplement avoir une idée, puis la faire fonctionner sur un problème de jouet, puis la faire fonctionner sur un problème réel, puis élaborer une théorie qui montre pourquoi cela fonctionne, et ensuite le déployer. Il y a toute une chaîne, et son idée du crédit scientifique est que c'est la toute première personne qui, en quelque sorte, a eu l'idée de cela, qui devrait obtenir tout le mérite. Et c'est ridicule. 

ZDNet : Ne croyez pas tout ce que vous entendez sur les réseaux sociaux. 

YL : Je veux dire, le document principal qu'il dit que je devrais citer ne contient aucune des idées principales dont je parle dans le document. Il a également fait cela avec les GAN et d'autres choses, ce qui ne s'est pas avéré vrai. Il est facile de planter des drapeaux, mais il est beaucoup plus difficile d'apporter une contribution. Et d’ailleurs, dans cet article en particulier, j’ai explicitement dit qu’il ne s’agissait pas d’un article scientifique au sens habituel du terme. Il s’agit plutôt d’un exposé de position sur la direction que devrait prendre cette chose. Et il y a là quelques idées qui pourraient être nouvelles, mais la plupart ne le sont pas. En substance, je ne revendique aucune priorité sur la plupart de ce que j’ai écrit dans cet article.

yann-lecun-sept-2022-2

L’apprentissage par renforcement ne sera jamais suffisant non plus, affirme LeCun. Des chercheurs tels que David Silver de DeepMind, qui a développé le programme AlphaZero qui a permis de maîtriser les échecs, le shogi et le go, sont « très basés sur l'action », observe LeCun, mais « la plupart de l'apprentissage que nous faisons, nous ne le faisons pas en prenant réellement actions, nous le faisons en observant. 

ZDNet : Et c’est peut-être un bon point de départ, car je suis curieux de savoir pourquoi avez-vous suivi cette voie maintenant ? Qu'est-ce qui t'a fait penser à ça ? Pourquoi as-tu voulu écrire ça ?

YL : Eh bien, j'y réfléchis depuis très longtemps, à une voie vers une intelligence ou un apprentissage et des capacités de type humain ou animal. Et, dans mes exposés, j'ai insisté sur le fait que l'apprentissage supervisé et l'apprentissage par renforcement sont insuffisants pour imiter le type d'apprentissage que nous observons chez les animaux et les humains. Je fais cela depuis environ sept ou huit ans. Ce n'est donc pas récent. J'ai eu un discours à NeurIPS il y a de nombreuses années où j'ai fait valoir ce point, essentiellement, et diverses conférences, il y a des enregistrements. Maintenant, pourquoi écrire un article maintenant ? J'en suis arrivé au point — [le chercheur de Google Brain] Geoff Hinton avait fait quelque chose de similaire — je veux dire, certainement, lui plus que moi, nous voyons le temps s'écouler. Nous ne sommes pas jeunes.

ZDNet : Soixante, c'est le nouveau cinquante. 

YL : C'est vrai, mais le fait est que nous voyons beaucoup d'affirmations sur ce que nous devrions faire pour avancer vers une IA de niveau humain. Et il y a des idées qui, à mon avis, sont mal orientées. Donc, une idée est : Oh, nous devrions simplement ajouter un raisonnement symbolique au-dessus des réseaux neuronaux. Et je ne sais pas comment faire ça. Donc, peut-être que ce que j'ai expliqué dans l'article pourrait être une approche qui ferait la même chose sans manipulation explicite des symboles. C'est le genre de Gary Marcus traditionnellement du monde. Gary Marcus n'est d'ailleurs pas un spécialiste de l'IA, il est d'ailleurs psychologue. Il n’a jamais rien apporté à l’IA. Il a fait un très bon travail en psychologie expérimentale, mais il n'a jamais écrit d'article évalué par des pairs sur l'IA. Donc, il y a ces gens. 

Il y a le [chercheur principal de DeepMind] David Silvers du monde qui dit, vous savez, la récompense est suffisante, en gros, tout est une question d'apprentissage par renforcement, nous devons juste le rendre un peu plus efficace, d'accord ? Et je pense qu'ils n'ont pas tort, mais je pense que les étapes nécessaires pour rendre l'apprentissage par renforcement plus efficace, fondamentalement, relègueraient l'apprentissage par renforcement au rang de cerise sur le gâteau. Et la principale partie manquante est d’apprendre comment fonctionne le monde, principalement par l’observation sans action. L'apprentissage par renforcement est très basé sur l'action, vous apprenez des choses sur le monde en agissant et en voyant les résultats.

ZDNet : Et c'est axé sur la récompense.

YL : Il est axé sur la récompense et également sur l’action. Il faut donc agir dans le monde pour pouvoir apprendre quelque chose sur le monde. Et la principale affirmation que je fais dans cet article à propos de l'apprentissage auto-supervisé est que la plupart de l'apprentissage que nous faisons, nous ne le faisons pas en prenant réellement des mesures, nous le faisons en observant. Et c'est très peu orthodoxe, à la fois pour les personnes qui pratiquent l'apprentissage par renforcement, en particulier, mais aussi pour beaucoup de psychologues et de spécialistes des sciences cognitives qui pensent que, vous savez, l'action est — je ne dis pas que l'action n'est pas essentielle, elle is essentiel. Mais je pense que la majeure partie de ce que nous apprenons concerne principalement la structure du monde et implique, bien sûr, l'interaction, l'action et le jeu, et des choses comme ça, mais une grande partie est observationnelle.

ZDNet : Vous parviendrez également à cocher en même temps les Transformers, les gens qui privilégient la langue. Comment pouvez-vous construire cela sans langage préalable ? Vous parviendrez peut-être à contrarier beaucoup de monde. 

YL : Ouais, je suis habitué à ça. Donc, oui, il y a ceux qui privilégient le langage, qui disent, vous savez, l'intelligence est une question de langage, le substrat de l'intelligence est le langage, bla, bla, bla. Mais cela rejette en quelque sorte l’intelligence animale. Vous savez, nous n’en sommes pas au point où nos machines intelligentes ont autant de bon sens qu’un chat. Alors pourquoi ne pas commencer par là ? Qu'est-ce qui permet à un chat d'appréhender le monde qui l'entoure, de faire des choses assez intelligentes, de planifier et des trucs comme ça, et aux chiens encore mieux ? 

Et puis il y a tous les gens qui disent : « Oh, l’intelligence est une chose sociale, n’est-ce pas ? Nous sommes intelligents parce que nous nous parlons et nous échangeons des informations, et bla, bla, bla. Il existe toutes sortes d'espèces non sociales qui ne rencontrent jamais leurs parents très intelligents, comme les poulpes ou les orangs-outans.Je veux dire, ils [les orangs-outans] sont certainement éduqués par leur mère, mais ce ne sont pas des animaux sociaux. 

Mais l’autre catégorie de personnes que je pourrais cocher est celle qui estime que la mise à l’échelle est suffisante. Donc, en gros, nous utilisons simplement de gigantesques Transformers, nous les formons sur des données multimodales qui impliquent, vous savez, de la vidéo, du texte, bla, bla, bla. Nous, en quelque sorte, pétrifionstout, et symboliser tout, puis s'entraîner gigantesquedes modèles pour faire des prédictions discrètes, en gros, et d’une manière ou d’une autre, l’IA en émergera. Ils n’ont pas tort, dans le sens où cela pourrait être un élément d’un futur système intelligent. Mais je pense qu'il manque des pièces essentielles. 

Il y a une autre catégorie de personnes que je vais cocher avec ce document. Et ce sont les probabilistes, les probabilistes religieux. Ainsi, les gens qui pensent que la théorie des probabilités est le seul cadre que vous pouvez utiliser pour expliquer l’apprentissage automatique. Et comme j’ai essayé de l’expliquer dans cet article, c’est fondamentalement trop demander qu’un modèle mondial soit complètement probabiliste. Nous ne savons pas comment faire. Il y a la difficulté informatique. Je propose donc d'abandonner toute cette idée. Et bien sûr, vous le savez, il s’agit d’un énorme pilier non seulement de l’apprentissage automatique, mais de l’ensemble des statistiques, qui prétend être le formalisme normal de l’apprentissage automatique. 

L'autre chose - 

ZDNet : Vous êtes sur une lancée…

YL : - c'est ce qu'on appelle des modèles génératifs. Donc, l’idée que vous pouvez apprendre à prédire, et que vous pouvez peut-être en apprendre beaucoup sur le monde grâce à la prédiction. Alors, je vous donne un morceau de vidéo et je demande au système de prédire ce qui se passe ensuite dans la vidéo. Et je peux vous demander de prédire les images vidéo réelles avec tous les détails. Mais ce que je dis dans le document, c'est que c'est en réalité trop demander et trop compliqué. Et c’est quelque chose sur lequel j’ai changé d’avis. Jusqu'à il y a environ deux ans, j'étais partisan de ce que j'appelle des modèles génératifs à variables latentes, des modèles qui prédisent ce qui va se passer ensuite ou les informations manquantes, éventuellement à l'aide d'une variable latente, si la prédiction ne peut pas être réalisée. déterministe. Et j'ai abandonné ça. Et la raison pour laquelle j'ai abandonné cela est basée sur des résultats empiriques, où les gens ont essayé d'appliquer, en quelque sorte, une formation basée sur la prédiction ou la reconstruction du type utilisé dans BERT.et de grands modèles de langage, ils ont essayé d'appliquer cela aux images, et cela a été un échec complet. Et la raison pour laquelle c'est un échec complet est, encore une fois, à cause des contraintes des modèles probabilistes dans lesquels il est relativement facile de prédire des jetons discrets comme des mots, car nous pouvons calculer la distribution de probabilité sur tous les mots du dictionnaire. C'est facile. Mais si nous demandons au système de produire la distribution de probabilité sur toutes les images vidéo possibles, nous n'avons aucune idée de comment la paramétrer, ou nous avons une idée de comment la paramétrer, mais nous ne savons pas comment la normaliser. Cela touche un problème mathématique insoluble que nous ne savons pas comment résoudre. 

yann-lecun-sept-2022-3

"Nous n'en sommes pas au point où nos machines intelligentes ont autant de bon sens qu'un chat", observe Lecun. « Alors, pourquoi ne commençons-nous pas par là ? Qu’est-ce qui permet à un chat d’appréhender le monde qui l’entoure, de faire des choses assez intelligentes, de planifier et des choses comme ça, et aux chiens encore mieux ? »

C'est pourquoi je dis qu'il faut abandonner la théorie des probabilités ou le cadre pour des choses comme celle-là, le plus faible, les modèles basés sur l'énergie. Je le préconise également depuis des décennies, ce n'est donc pas une chose récente. Mais en même temps, abandonner l’idée de modèles génératifs car il y a beaucoup de choses dans le monde qui ne sont ni compréhensibles ni prévisibles. Si vous êtes ingénieur, vous appelez cela du bruit. Si vous êtes physicien, vous appelez cela de la chaleur. Et si vous êtes un adepte de l'apprentissage automatique, vous appelez cela, vous savez, des détails non pertinents ou autre.

Donc, l’exemple que j’ai utilisé dans le document, ou que j’ai utilisé dans des discussions, est le suivant : vous voulez un système de prévision mondiale qui aiderait une voiture autonome, n’est-ce pas ? Il veut être capable de prédire à l'avance les trajectoires de toutes les autres voitures, ce qui va arriver aux autres objets qui pourraient bouger, les piétons, les vélos, un enfant qui court après un ballon de football, des choses comme ça. Donc, toutes sortes de choses sur le monde. Mais au bord de la route, il y a peut-être des arbres, et il y a du vent aujourd'hui, donc les feuilles bougent dans le vent, et derrière les arbres, il y a un étang, et il y a des ondulations dans l'étang. Et ce sont, pour l’essentiel, des phénomènes largement imprévisibles. Et vous ne voulez pas que votre modèle dépense une quantité importante de ressources pour prédire des choses qui sont à la fois difficiles à prévoir et non pertinentes. C'est pourquoi je préconise l'architecture d'intégration conjointe, ces choses où la variable que vous essayez de modéliser, vous n'essayez pas de la prédire, vous essayez de la modéliser, mais elle passe par un encodeur, et cet encodeur peut éliminer de nombreux détails sur l'entrée qui ne sont pas pertinents ou trop compliqués – en gros, équivalents au bruit.

ZDNet : Nous avons discuté plus tôt cette année des modèles basés sur l'énergie, le JEPA et le H-JEPA. Mon sentiment, si je vous comprends bien, c'est que vous trouvez le point de basse énergie où ces deux prédictions des intégrations X et Y sont les plus similaires, ce qui signifie que s'il y a un pigeon dans un arbre dans un arbre, et qu'il y a quelque chose dans le arrière-plan d'une scène, ce ne sont peut-être pas ces points essentiels qui rapprochent ces intégrations les unes des autres.

YL : Droite. Ainsi, l'architecture JEPA essaie en fait de trouver un compromis, entre l'extraction de représentations qui informent au maximum sur les entrées mais qui sont également prévisibles les unes des autres avec un certain niveau de précision ou de fiabilité. Il trouve un compromis. Donc, s'il a le choix entre dépenser une énorme quantité de ressources, y compris les détails du mouvement des feuilles, puis modéliser la dynamique qui décidera de la manière dont les feuilles se déplaceront dans une seconde, ou simplement les laisser tomber sur le sol en en exécutant simplement la variable Y via un prédicteur qui élimine tous ces détails, cela l'éliminera probablement simplement parce qu'il est tout simplement trop difficile à modéliser et à capturer.

ZDNet : Ce qui est surprenant, c'est que vous étiez un fervent partisan de dire "Ça marche, nous trouverons plus tard la théorie de la thermodynamique pour l'expliquer." Ici, vous avez adopté une approche du genre : « Je ne sais pas comment nous allons nécessairement résoudre ce problème, mais je veux proposer quelques idées pour y réfléchir », et peut-être même aborder une théorie ou une hypothèse, à moins. C'est intéressant parce qu'il y a beaucoup de gens qui dépensent beaucoup d'argent pour travailler sur une voiture qui peut voir le piéton, que la voiture ait ou non du bon sens. Et j'imagine que certaines de ces personnes ne seront pas cochées, mais elles diront : « C'est bien, cela ne nous importe pas si cela n'a pas de bon sens, nous avons construit une simulation, la simulation est incroyable, et nous allons continuer à nous améliorer, nous allons continuer à faire évoluer la simulation. 

Il est donc intéressant que vous puissiez maintenant dire : prenons du recul et réfléchissons à ce que nous faisons. Et l’industrie dit que nous allons simplement évoluer, évoluer, évoluer, évoluer, parce que cette manivelle fonctionne vraiment. Je veux dire, la manivelle semi-conductrice des GPU fonctionne vraiment.

YL : Il y a environ cinq questions. Donc, je veux dire, une mise à l’échelle est nécessaire. Je ne critique pas le fait que nous devrions évoluer. Nous devrions évoluer. Ces réseaux neuronaux s’améliorent à mesure qu’ils grandissent. Il ne fait aucun doute que nous devrions évoluer. Et ceux qui feront preuve d’un certain bon sens seront de grande envergure. Il n'y a aucun moyen de contourner cela, je pense. La mise à l’échelle est donc une bonne chose, elle est nécessaire, mais pas suffisante. C'est ce que je veux dire. Il ne s'agit pas seulement d'une mise à l'échelle. C'est le premier point. 

Deuxième point, si la théorie passe en premier et des choses comme ça. Donc, je pense qu'il y a des concepts qui viennent en premier, il faut prendre du recul et dire, d'accord, nous avons construit cette échelle, mais nous voulons aller sur la lune et il n'y a aucun moyen que cette échelle nous y amène. Donc, fondamentalement, ce que j’écris ici, c’est que nous devons construire des fusées. Je ne peux pas vous donner les détails sur la façon dont nous construisons les fusées, mais voici les principes de base. Et je n'écris pas de théorie à ce sujet ou quoi que ce soit, mais ça va être une fusée, d'accord ? Ou un ascenseur spatial ou autre. Nous n’avons peut-être pas tous les détails de toute la technologie. Nous essayons de faire fonctionner certaines de ces choses, comme j'ai travaillé sur JEPA. L'intégration conjointe fonctionne très bien pour la reconnaissance d'images, mais pour l'utiliser pour former un modèle mondial, il y a des difficultés. Nous y travaillons, nous espérons que cela fonctionnera soon, mais nous pourrions y rencontrer des obstacles que nous ne pourrons peut-être pas surmonter. 

Ensuite, il y a une idée clé dans l'article sur le raisonnement selon lequel si nous voulons que les systèmes soient capables de planifier, ce que vous pouvez considérer comme une forme simple de raisonnement, ils doivent avoir des variables latentes. En d’autres termes, des choses qui ne sont calculées par aucun réseau neuronal mais des choses qui le sont – dont la valeur est déduite de manière à minimiser une fonction objectif, une fonction de coût. Et puis vous pouvez utiliser cette fonction de coût pour piloter le comportement du système. Et ce n’est pas du tout une idée nouvelle, n’est-ce pas ? Il s'agit d'un contrôle optimal très classique dont la base remonte à la fin des années 50 et au début des années 60. Je ne revendique donc aucune nouveauté ici. Mais ce que je dis, c'est que ce type d'inférence doit faire partie d'un système intelligent capable de planifier et dont le comportement peut être spécifié ou contrôlé non pas par un comportement câblé, non par une imitation, mais par une fonction objective qui détermine le comportement – ​​ne stimule pas nécessairement l’apprentissage, mais cela détermine le comportement. Vous savez, nous avons cela dans notre cerveau, et chaque animal a un coût intrinsèque ou des motivations intrinsèques pour certaines choses. Cela pousse les bébés de neuf mois à vouloir se lever. Le prix à payer pour être heureux quand on se lève, ce terme dans la fonction de coût est câblé. Mais la façon dont vous vous levez ne l'est pas, c'est l'apprentissage.

yann-lecun-sept-2022-4

« La mise à l'échelle est une bonne chose, elle est nécessaire, mais pas suffisante », déclare LeCun à propos des modèles de langage géants tels que les programmes basés sur Transformer de la variété GPT-3. Les dévots de Transformer croient : « Nous symbolisons tout et formons de gigantesquesdes modèles pour faire des prédictions discrètes, et d'une manière ou d'une autre, l'IA en émergera… mais je pense qu'il lui manque des éléments essentiels.

ZDNet : Pour compléter ce point, une grande partie de la communauté de l’apprentissage profond semble accepter quelque chose qui n’a pas de bon sens. Il semble que vous avancez ici un argument assez clair selon lequel, à un moment donné, cela devient une impasse. Certains disent que nous n’avons pas besoin d’une voiture autonome dotée de bon sens, car la mise à l’échelle suffira. On dirait que vous dites que ce n'est pas acceptable de continuer sur cette voie ?

YL : Vous savez, je pense qu'il est tout à fait possible que nous ayons des voitures autonomes de niveau cinq sans bon sens. Mais le problème avec cette approche, c'est que cela va être temporaire, parce que vous allez devoir tout mettre en œuvre pour y arriver. Donc, vous savez, cartographiez le monde entier, câblez toutes sortes de comportements spécifiques, collectez suffisamment de données pour avoir toutes les situations étranges que vous pouvez rencontrer sur les routes, bla, bla, bla. Et je suppose qu’avec suffisamment d’investissement et de temps, vous pouvez tout simplement vous en sortir. Mais en fin de compte, il y aura une solution plus satisfaisante et peut-être meilleure, qui impliquera des systèmes qui permettront de mieux comprendre le fonctionnement du monde et qui auront, vous savez, un certain niveau de ce que nous appellerions le bon sens. Il n'est pas nécessaire que ce soit du bon sens au niveau humain, mais un certain type de connaissances que le système peut acquérir en regardant, mais pas en regardant quelqu'un conduire, en regardant simplement des choses se déplacer et en comprenant beaucoup de choses sur le monde, en construisant une base d'arrière-plan. des connaissances sur le fonctionnement du monde, en plus desquelles vous pourrez apprendre à conduire. 

Permettez-moi de prendre un exemple historique. La vision par ordinateur classique était basée sur de nombreux modules câblés et techniques, sur lesquels vous auriez en quelque sorte une fine couche d’apprentissage. Ainsi, les trucs qui ont été battus par AlexNet en 2012 comportaient essentiellement une première étape, en quelque sorte, des extractions de caractéristiques artisanales, comme les SIFT [Scale-Invariant Feature Transform (SIFT), une technique de vision classique pour identifier les objets saillants dans une image] et HOG [Histogramme de dégradés orientés, une autre technique classique] et diverses autres choses. Et puis la deuxième couche de fonctionnalités de niveau intermédiaire basées sur des noyaux de fonctionnalités et autres, et une sorte de méthode non supervisée. Et puis en plus de cela, vous mettez une machine à vecteurs de support, ou bien un classificateur relativement simple. Et c'était en quelque sorte le pipeline standard du milieu des années 2000 à 2012. Et cela a été remplacé par des réseaux convolutifs de bout en bout, où vous ne câblez rien de tout cela, vous avez juste beaucoup de données, et vous entraînez la chose de bout en bout, ce qui est l'approche que je préconisais depuis longtemps, mais vous savez, jusque-là, ce n'était pas pratique pour de gros problèmes. 

Il y a eu une histoire similaire dans le domaine de la reconnaissance vocale où, encore une fois, il y avait une énorme quantité d'ingénierie détaillée pour prétraiter les données, extraire le cepstre à l'échelle de masse [un inverse de la transformation de Fourier rapide pour le traitement du signal], puis vous avez des modèles de Markov cachés, avec une sorte d'architecture prédéfinie, bla, bla, bla, avec un mélange de gaussiennes. Et donc, c'est un peu la même architecture que la vision où vous avez un front-end fabriqué à la main, puis une couche intermédiaire quelque peu non supervisée et formée, puis une couche supervisée au-dessus. Et maintenant, cela a été pratiquement effacé par les réseaux neuronaux de bout en bout. Je vois donc en quelque sorte quelque chose de similaire: essayer de tout apprendre, mais il faut avoir le bon préalable, la bonne architecture, la bonne structure.

yann-lecun-sept-2022-5

Le milieu des voitures autonomes, des startups telles que Waymo et Wayve, ont été « un peu trop optimistes », dit-il, en pensant qu'ils pourraient « y envoyer des données et que vous pouvez apprendre à peu près n'importe quoi ». Les voitures autonomes au niveau 5 de l'ADAS sont possibles, « mais vous allez devoir tout concevoir » et seront « fragiles » comme les premiers modèles de vision par ordinateur.

ZDNet : Ce que vous dites, c'est que certaines personnes vont essayer de concevoir ce qui ne fonctionne pas actuellement avec l'apprentissage profond pour l'appliquer, par exemple, dans l'industrie, et elles vont commencer à créer quelque chose qui est devenu obsolète en vision par ordinateur ?

YL : Droite. Et c'est en partie pourquoi les gens qui travaillent sur la conduite autonome ont été un peu trop optimistes ces dernières années, c'est parce que, vous savez, vous avez ces sortes de choses génériques comme les réseaux convolutifs et les transformateurs, sur lesquels vous pouvez envoyer des données. , et il peut apprendre à peu près n'importe quoi. Alors, vous dites : « D’accord, j’ai la solution à ce problème. La première chose à faire est de créer une démo dans laquelle la voiture roule toute seule pendant quelques minutes sans blesser personne. Et puis vous réalisez qu'il y a beaucoup de cas extrêmes, et vous essayez de tracer la courbe de mon amélioration en doublant l'ensemble d'entraînement, et vous réalisez que vous n'y arriverez jamais parce qu'il y a toutes sortes de cas extrêmes. . Et il faut avoir une voiture qui causera un accident mortel moins de 200 millions de kilomètres, n'est-ce pas ? Donc que fais-tu? Eh bien, vous marchez dans deux directions. 

La première direction est la suivante : comment puis-je réduire la quantité de données nécessaires à l'apprentissage de mon système ? Et c'est là qu'intervient l'apprentissage auto-supervisé. Ainsi, de nombreux constructeurs de voitures autonomes sont très intéressés par l'apprentissage auto-supervisé, car c'est un moyen de continuer à utiliser des quantités gigantesques de données de supervision pour l'apprentissage par imitation, tout en obtenant de meilleures performances en la pré-formation, essentiellement. Et cela n’a pas encore vraiment abouti, mais ce sera le cas. Et puis il y a l'autre option, que la plupart des entreprises les plus avancées à ce stade ont adoptée, à savoir, d'accord, nous pouvons faire la formation de bout en bout, mais il y a beaucoup de cas particuliers que nous pouvons faire. Nous allons donc simplement concevoir des systèmes qui prendront en charge ces cas particuliers et, fondamentalement, les traiter comme des cas spéciaux, câbler le contrôle, puis câbler de nombreux comportements de base pour gérer des situations spéciales. Et si vous disposez d’une équipe d’ingénieurs suffisamment nombreuse, vous pourriez y parvenir. Mais cela prendra beaucoup de temps et, au final, il sera encore un peu fragile, peut-être suffisamment fiable pour que vous puissiez le déployer, mais avec un certain niveau de fragilité qui, avec une approche plus basée sur l'apprentissage, pourrait apparaître dans le futur. À l’avenir, les voitures n’en auront pas parce qu’elles pourraient avoir un certain niveau de bon sens et de compréhension du fonctionnement du monde. 

À court terme, l’approche technique sera gagnante – elle gagne déjà. C'est le Waymo et la croisière du monde et Wayveet peu importe, c'est ce qu'ils font. Ensuite, il y a l’approche d’apprentissage auto-supervisé, qui aidera probablement l’approche d’ingénierie à progresser. Mais à long terme, ce qui pourrait être trop long à attendre pour ces entreprises, il y aurait probablement, en quelque sorte, un système de conduite intelligente autonome plus intégré.

ZDNet : Nous disons au-delà de l’horizon d’investissement de la plupart des investisseurs.

YL : C'est exact. La question est donc de savoir si les gens perdront patience ou manqueront d’argent avant que la performance n’atteigne le niveau souhaité.

ZDNet : Y a-t-il quelque chose d’intéressant à dire sur la raison pour laquelle vous avez choisi certains des éléments que vous avez choisis dans le modèle ? Parce que vous citez Kenneth Craik [1943,La nature de l’explication], et vous citez Bryson et Ho [1969, Contrôle optimal appliqué], et je suis curieux de savoir pourquoi vous avez commencé avec ces influences, si vous pensiez surtout que ces gens avaient réussi ce qu'ils avaient fait. Pourquoi as-tu commencé là ?

YL : Eh bien, je ne pense certainement pas qu’ils aient réglé tous les détails. Donc, Bryson et Ho, c'est un livre que j'ai lu en 1987 lorsque j'étais postdoctoral avec Geoffrey Hinton à Toronto. Mais je connaissais ce domaine de travail auparavant lorsque j'écrivais mon doctorat et j'ai essentiellement fait le lien entre le contrôle optimal et le backprop. Si vous vouliez vraiment être, vous savez, un autre Schmidhuber, vous diriez que les véritables inventeurs du backprop étaient en fait les théoriciens du contrôle optimal Henry J. Kelley, Arthur Bryson et peut-être même Lev Pontryagin, qui est un théoricien russe du contrôle optimal. à la fin des années 50. 

Donc, ils l’ont compris, et en fait, vous pouvez voir que la racine de tout cela, les mathématiques en dessous, sont la mécanique lagrangienne. Vous pouvez donc revenir à Euler et Lagrange, en fait, et en trouver en quelque sorte une odeur dans leur définition de la mécanique classique lagrangienne, en fait. Ainsi, dans le contexte du contrôle optimal, ce qui intéressait ces gars-là, c'était essentiellement le calcul des trajectoires des fusées. Vous savez, c’était le début de l’ère spatiale. Et si vous avez un modèle de la fusée, il vous indique voici l'état de la fusée à ce moment-là. t, et voici l'action que je vais entreprendre, donc, poussée et actionneurs de toutes sortes, voici l'état de la fusée à ce moment-là t + 1.

ZDNet : Un modèle état-action, un modèle de valeur.

YL : C'est vrai, la base du contrôle. Ainsi, vous pouvez maintenant simuler le tir de votre fusée en imaginant une séquence de commandes, et vous disposez alors d'une fonction de coût, qui est la distance de la fusée à sa cible, une station spatiale ou autre. Et puis, grâce à une sorte de descente de gradient, vous pouvez comprendre comment puis-je mettre à jour ma séquence d'action afin que ma fusée se rapproche le plus possible de la cible. Et cela doit se faire par rétro-propagation des signaux dans le temps. Et c’est une rétro-propagation, une rétro-propagation par gradient. Ces signaux, on les appelle des variables conjuguées en mécanique lagrangienne, mais en fait, ce sont des gradients. Ils ont donc inventé le backprop, mais ils n'ont pas réalisé que ce principe pouvait être utilisé pour former un système à plusieurs étapes capable de faire de la reconnaissance de formes ou quelque chose comme ça. Cela n’a été vraiment réalisé qu’à la fin des années 70 et au début des années 80, puis n’a été réellement mis en œuvre et mis en œuvre qu’au milieu des années 80. D'accord, c'est là que le backprop a vraiment décollé, en quelque sorte, parce que les gens ont montré voici quelques lignes de code permettant de former un réseau neuronal, de bout en bout, multicouche. Et cela lève les limites du Perceptron. Et oui, il existe des connexions avec un contrôle optimal, mais ce n'est pas grave.

ZDNet : Donc, c'est une longue façon de dire que ces influences avec lesquelles vous avez commencé allaient revenir au backprop, et c'était important comme point de départ pour vous ?

YL : Oui, mais je pense que ce que les gens ont un peu oublié, c'est qu'il y a eu pas mal de travaux là-dessus, vous savez, dans les années 90, ou même dans les années 80, notamment par des gens comme Michael Jordan [Département du cerveau du MIT et sciences cognitives] et des gens comme ça qui ne font plus de réseaux neuronaux, mais l'idée selon laquelle vous pouvez utiliser des réseaux neuronaux pour le contrôle, et vous pouvez utiliser les idées classiques de contrôle optimal. Donc, des choses comme ce qu'on appelle le contrôle prédictif par modèle, ce qu'on appelle maintenant le contrôle prédictif par modèle, cette idée selon laquelle vous pouvez simuler ou imaginer le résultat d'une séquence d'actions si vous avez un bon modèle du système que vous essayez de contrôler. et l'environnement dans lequel il se trouve. Et puis, par descente graduelle, essentiellement - ce n'est pas un apprentissage, c'est une inférence - vous pouvez déterminer quelle est la meilleure séquence d'actions qui minimisera mon objectif. Ainsi, l’utilisation d’une fonction de coût avec une variable latente pour l’inférence est, je pense, quelque chose que les cultures actuelles de réseaux neuronaux à grande échelle ont oublié. Mais cela a longtemps été une composante très classique du machine learning. Ainsi, chaque réseau bayésien, modèle graphique ou modèle graphique probabiliste utilisait ce type d'inférence. Vous disposez d'un modèle qui capture les dépendances entre un ensemble de variables, on vous indique la valeur de certaines variables, puis vous devez déduire la valeur la plus probable du reste des variables. C'est le principe de base de l'inférence dans les modèles graphiques et les réseaux bayésiens, et des choses comme ça. Et je pense que c'est essentiellement cela qui devrait être le raisonnement, le raisonnement et la planification.

ZDNet : Vous êtes un bayésien discret.

YL : Je suis un bayésien non probabiliste. J'ai déjà fait cette blague. En fait, j'étais à NeurIPS il y a quelques années, je pense que c'était en 2018 ou 2019, et j'ai été filmé par un bayésien qui m'a demandé si j'étais bayésien, et j'ai dit : Oui, je suis bayésien, mais je Je suis un bayésien non probabiliste, en quelque sorte, un bayésien basé sur l'énergie, si vous voulez. 

ZDNet : Ce qui ressemble définitivement à quelque chose de Star Trek. Vous avez mentionné à la fin de cet article qu'il faudra des années de travail acharné pour réaliser ce que vous envisagez. Parlez-moi en quoi consiste une partie de ce travail en ce moment.

YL : J'explique donc comment vous formez et construisez le JEPA dans le document. Et le critère que je préconise est de disposer d'un moyen de maximiser le contenu informationnel que les représentations extraites ont sur l'entrée. Et puis la seconde consiste à minimiser l’erreur de prédiction. Et si vous avez une variable latente dans le prédicteur qui permet au prédicteur d'être non déterministe, vous devez également régulariser cette variable latente en minimisant son contenu informationnel. Vous avez donc deux problèmes maintenant : comment maximiser le contenu informationnel de la sortie d'un réseau neuronal, et l'autre est comment minimiser le contenu informationnel d'une variable latente ? Et si vous ne faites pas ces deux choses, le système s’effondrera. Il n'apprendra rien d'intéressant. Cela donnera zéro énergie à tout, quelque chose comme ça, ce qui n’est pas un bon modèle de dépendance. C'est le problème de la prévention des effondrements que je mentionne. 

Et je dis que de tout ce que les gens ont fait, il n'y a que deux catégories de méthodes pour empêcher l'effondrement. L’une concerne les méthodes contrastives et l’autre les méthodes régularisées. Donc, cette idée de maximiser le contenu informationnel des représentations des deux entrées et de minimiser le contenu informationnel de la variable latente, qui appartient aux méthodes régularisées. Mais une grande partie du travail dans ces architectures d’intégration conjointe utilise des méthodes contrastées. En fait, ils sont probablement les plus populaires du moment. La question est donc de savoir exactement comment mesurer le contenu de l’information de manière à l’optimiser ou à le minimiser ? Et c’est là que les choses se compliquent parce que nous ne savons pas réellement comment mesurer le contenu de l’information. Nous pouvons l'approcher, nous pouvons le limiter, nous pouvons faire des choses comme ça. Mais ils ne mesurent pas réellement le contenu de l’information, qui, dans une certaine mesure, n’est même pas bien défini.

ZDNet : Ce n'est pas la loi de Shannon ? Ce n'est pas de la théorie de l'information ? Vous avez une certaine quantité d'entropie, une bonne entropie et une mauvaise entropie, et la bonne entropie est un système de symboles qui fonctionne, la mauvaise entropie est du bruit. Tout n'est-il pas résolu par Shannon ?

YL : Vous avez raison, mais il y a un défaut majeur derrière cela. Vous avez raison dans le sens où si vous recevez des données et que vous pouvez d'une manière ou d'une autre quantifier les données en symboles discrets, puis que vous mesurez la probabilité de chacun de ces symboles, alors la quantité maximale d'informations transportées par ces symboles est la somme sur les symboles possibles de Pi journal Pi, droite? Où Pi est la probabilité du symbole je - c'est l'entropie de Shannon. [La loi de Shannon est communément formulée comme H = – ∑ pi log pi.]

Mais voici le problème : qu'est-ce que Pi? C'est facile lorsque le nombre de symboles est petit et que les symboles sont dessinés indépendamment. Quand il y a beaucoup de symboles et de dépendances, c'est très difficile. Donc, si vous avez une séquence de bits et que vous supposez que les bits sont indépendants les uns des autres et que la probabilité est égale entre un et zéro ou autre, alors vous pouvez facilement mesurer l'entropie, sans problème. Mais si les choses qui vous parviennent sont des vecteurs de grande dimension, comme, vous savez, des trames de données, ou quelque chose comme ça, qu'est-ce que c'est ? Pi? Quelle est la répartition ? Vous devez d’abord quantifier cet espace, qui est un espace continu de grande dimension. Vous ne savez pas comment quantifier cela correctement. Vous pouvez utiliser des k-means, etc. C'est ce que font les gens lorsqu'ils effectuent une compression vidéo et une compression d'image. Mais ce n'est qu'une approximation. Et puis il faut faire des hypothèses d’indépendance. Il est donc clair que dans une vidéo, les images successives ne sont pas indépendantes. Il existe des dépendances, et cette image peut dépendre d'une autre image que vous avez vue il y a une heure et qui était une image de la même chose. Donc, vous savez, vous ne pouvez pas mesurer Pi. Mesurer Pi, vous devez disposer d’un système d’apprentissage automatique qui apprend à prédire. Et vous revenez donc au problème précédent. Ainsi, vous ne pouvez essentiellement qu’approximer la mesure de l’information. 

yann-lecun-sept-2022-6

« La question est de savoir exactement comment mesurer le contenu de l’information de manière à l’optimiser ou à le minimiser ? dit LeCun. "Et c'est là que les choses se compliquent parce que nous ne savons pas réellement comment mesurer le contenu de l'information." Le mieux que l’on puisse faire jusqu’à présent est de trouver un proxy « assez bon pour la tâche que nous souhaitons ».

Permettez-moi de prendre un exemple plus concret. L'un des algorithmes avec lesquels nous avons joué, et dont j'ai parlé dans l'article, est ce qu'on appelle VICReg, régularisation variance-invariance-covariance. C'est dans un article séparé qui a été publié à l'ICLR, et il a été mis sur arXiv environ un an avant, 2021. Et l’idée est de maximiser l’information. Et l'idée est en fait issue d'un article antérieur de mon groupe intitulé Jumeaux Barlow. Vous maximisez le contenu informationnel d'un vecteur sortant d'un réseau neuronal en supposant essentiellement que la seule dépendance entre les variables est une corrélation, une dépendance linéaire. Ainsi, si vous supposez que la seule dépendance possible entre des paires de variables, ou entre des variables de votre système, est la corrélation entre des paires de valeurs, ce qui constitue une approximation extrêmement grossière, vous pouvez alors maximiser le contenu des informations sortant de votre système. en s'assurant que toutes les variables ont une variance non nulle - disons, la variance un, peu importe ce que c'est - puis en les rétro-corrélant, le même processus qu'on appelle blanchiment, ce n'est pas nouveau non plus. Le problème est que vous pouvez très bien avoir des dépendances extrêmement complexes entre des groupes de variables ou même simplement des paires de variables qui ne sont pas des dépendances linéaires, et elles n'apparaissent pas dans les corrélations. Ainsi, par exemple, si vous avez deux variables et que tous les points de ces deux variables s’alignent dans une sorte de spirale, il existe une très forte dépendance entre ces deux variables, n’est-ce pas ? Mais en fait, si vous calculez la corrélation entre ces deux variables, elles ne sont pas corrélées. Voici donc un exemple où le contenu informationnel de ces deux variables est en réalité très petit, il ne s'agit que d'une seule quantité car c'est votre position dans la spirale. Elles sont décorrélées, donc vous pensez avoir beaucoup d'informations provenant de ces deux variables alors qu'en fait ce n'est pas le cas, vous savez, vous pouvez essentiellement prédire l'une des variables de l'autre. Cela montre donc que nous ne disposons que de moyens très approximatifs pour mesurer le contenu de l’information.

ZDNet : Et donc c’est l’une des choses sur lesquelles vous devez travailler maintenant avec ça ? Il s’agit de la question plus vaste : comment savoir quand nous maximisons et minimisons le contenu de l’information ?

YL :  Ou si le proxy que nous utilisons pour cela est suffisamment performant pour la tâche que nous souhaitons. En fait, nous faisons cela tout le temps dans le cadre de l’apprentissage automatique. Les fonctions de coût que nous minimisons ne sont jamais celles que nous souhaitons réellement minimiser. Donc, par exemple, vous voulez faire de la classification, d'accord ? La fonction de coût que vous souhaitez minimiser lorsque vous entraînez un classificateur est le nombre d'erreurs commises par le classificateur. Mais c'est une horrible fonction de coût non différenciable que vous ne pouvez pas minimiser parce que vous savez que vous allez modifier les poids de votre réseau neuronal, rien ne changera jusqu'à ce qu'un de ces échantillons change sa décision, et puis un saut dans l'erreur, positive ou négative.

ZDNet : Vous avez donc un proxy qui est une fonction objective dont vous pouvez certainement dire que nous pouvons certainement faire circuler des gradients de cette chose.

YL : C'est exact. Donc les gens utilisent cette perte d'entropie croisée, ou SOFTMAX, vous avez plusieurs noms pour cela, mais c'est la même chose. Et il s’agit fondamentalement d’une approximation douce du nombre d’erreurs commises par le système, où le lissage est effectué essentiellement en tenant compte du score que le système attribue à chacune des catégories.

ZDNet : Y a-t-il quelque chose que nous n'avons pas abordé et que vous aimeriez aborder ?

YL : Cela met probablement l'accent sur les points principaux. Je pense que les systèmes d'IA doivent être capables de raisonner, et le processus que je préconise consiste à minimiser un objectif par rapport à une variable latente. Cela permet aux systèmes de planifier et de raisonner. Je pense que nous devrions abandonner le cadre probabiliste car il est insoluble lorsque nous voulons faire des choses comme capturer les dépendances entre des variables continues de grande dimension. Et je préconise l'abandon des modèles génératifs, car le système devra consacrer trop de ressources à la prévision de choses trop difficiles à prédire et peut-être consommer trop de ressources. Et c'est à peu près tout. Ce sont les principaux messages, si vous voulez. Et puis l'architecture globale. Ensuite, il y a ces spéculations sur la nature de la conscience et le rôle du configurateur, mais ce ne sont en réalité que des spéculations.

ZDNet : Nous y reviendrons la prochaine fois. J'allais vous demander, comment évaluez-vous cette chose ? Mais je suppose que vous êtes un peu plus loin du benchmarking en ce moment ?

YL : Pas nécessairement aussi loin dans les versions simplifiées. Vous pouvez faire ce que tout le monde fait en matière de contrôle ou d'apprentissage par renforcement, c'est-à-dire que vous entraînez la chose à jouer à des jeux Atari ou quelque chose comme ça ou à un autre jeu comportant une certaine incertitude.

ZDNet : Merci pour votre temps, Yann.

Identifier