Metas KI-Guru LeCun: Die meisten der heutigen KI-Ansätze werden niemals zu echter Intelligenz führen

yann-lecun-sept-2022-1

„Ich denke, KI-Systeme müssen logisch denken können“, sagt Yann LeCun, leitender KI-Wissenschaftler von Meta. Die heute populären KI-Ansätze wie Transformers, von denen viele auf seiner eigenen Pionierarbeit auf diesem Gebiet aufbauen, werden nicht ausreichen. „Man muss einen Schritt zurücktreten und sagen: Okay, wir haben diese Leiter gebaut, aber wir wollen zum Mond, und diese Leiter wird uns auf keinen Fall dorthin bringen“, sagt LeCun.

Yann LeCun, leitender KI-Wissenschaftler von Meta Properties, Eigentümer von Facebook, Instagram und WhatsApp, wird wahrscheinlich viele Leute in seinem Bereich verärgern. 

Mit der Veröffentlichung im Juni eines Denkstücks auf dem Open Review-Server, bot LeCun einen breiten Überblick über einen Ansatz, der seiner Meinung nach vielversprechend ist, um Intelligenz auf menschlicher Ebene in Maschinen zu erreichen. 

Implizit, wenn nicht artikuliert, ist in dem Papier die Behauptung, dass die meisten der heutigen großen Projekte in der KI niemals in der Lage sein werden, dieses Ziel auf menschlicher Ebene zu erreichen.

In einer Diskussion in diesem Monat mit ZDNet Via Zoom machte LeCun deutlich, dass er viele der derzeit erfolgreichsten Forschungsrichtungen im Bereich Deep Learning mit großer Skepsis betrachtet.

„Ich denke, sie sind notwendig, aber nicht ausreichend“, sagte der Gewinner des Turing-Preises ZDNet der Aktivitäten seiner Kollegen. 

Dazu gehören große Sprachmodelle wie das Transformer-basierte GPT-3 und dergleichen. Wie LeCun es charakterisiert, glauben die Transformer-Anhänger: „Wir tokenisieren alles und trainieren gigantischModelle, um diskrete Vorhersagen zu treffen, und irgendwie wird KI daraus hervorgehen.“

„Sie liegen nicht falsch“, sagt er, „in dem Sinne, dass dies eine Komponente eines zukünftigen intelligenten Systems sein könnte, aber ich denke, es fehlen wesentliche Teile.“

Außerdem: Metas KI-Koryphäe LeCun erforscht die Energiegrenze von Deep Learning

Es ist eine verblüffende Kritik an dem, was zu funktionieren scheint, von dem Gelehrten, der die Verwendung von Convolutional Neural Networks perfektionierte, einer praktischen Technik, die in Deep-Learning-Programmen unglaublich produktiv war. 

LeCun sieht Mängel und Einschränkungen in vielen anderen sehr erfolgreichen Bereichen der Disziplin. 

Reinforcement Learning werde auch nie ausreichen, behauptet er. Forscher wie David Silver von DeepMind, der das AlphaZero-Programm entwickelt hat, das Schach, Shogi und Go gemeistert hat, konzentrieren sich auf Programme, die „sehr aktionsbasiert“ sind, beobachtet LeCun, aber „das meiste, was wir lernen, tun wir nicht wir tun es, indem wir tatsächlich handeln, wir tun es, indem wir beobachten.“ 

Der 62-jährige Lecun drückt aus der Perspektive jahrzehntelanger Erfolge dennoch die Dringlichkeit aus, sich mit den Sackgassen auseinanderzusetzen, in die viele möglicherweise eilen, und zu versuchen, sein Feld in die Richtung zu überreden, in die die Dinge seiner Meinung nach gehen sollten. 

„Wir sehen viele Behauptungen darüber, was wir tun sollten, um die KI auf menschlicher Ebene voranzutreiben“, sagt er. „Und es gibt Ideen, die meiner Meinung nach fehlgeleitet sind.“

„Wir sind noch nicht an dem Punkt angelangt, an dem unsere intelligenten Maschinen so viel gesunden Menschenverstand wie eine Katze haben“, beobachtet Lecun. "Also, warum fangen wir nicht dort an?" 

Er hat sein bisheriges Vertrauen in die Verwendung generativer Netzwerke für Dinge wie die Vorhersage des nächsten Frames in einem Video aufgegeben. „Es war ein kompletter Misserfolg“, sagt er. 

LeCun verurteilt diejenigen, die er die „religiösen Probabilisten“ nennt, die „denken, dass die Wahrscheinlichkeitstheorie der einzige Rahmen ist, den man verwenden kann, um maschinelles Lernen zu erklären“. 

Der rein statistische Ansatz sei unlösbar, sagt er. „Es ist zu viel verlangt, dass ein Weltmodell vollständig probabilistisch ist; wir wissen nicht, wie es geht.“

Nicht nur die Akademiker, auch die industrielle KI muss tiefgreifend überdacht werden, argumentiert LeCun. Die Masse der selbstfahrenden Autos, Start-ups wie Wayve, seien „etwas zu optimistisch“ gewesen, sagt er, indem sie dachten, sie könnten „Daten auf“ große neuronale Netze werfen, „und man kann so ziemlich alles lernen“.

„Weißt du, ich denke, es ist durchaus möglich, dass wir autonome Autos der Stufe fünf ohne gesunden Menschenverstand haben werden“, sagt er und bezieht sich auf „ADAS“. fortschrittliches Fahrerassistenzsystem Begriffe für autonomes Fahren, „aber Sie müssen sich die Hölle daraus machen.“

Er glaubt, dass solch überentwickelte selbstfahrende Technologie so knarrend und spröde sein wird wie all die Computer-Vision-Programme, die durch Deep Learning obsolet geworden sind.

„Letztendlich wird es eine zufriedenstellendere und möglicherweise bessere Lösung geben, die Systeme beinhaltet, die besser verstehen, wie die Welt funktioniert.“

Unterwegs bietet LeCun einige vernichtende Ansichten seiner größten Kritiker, wie NYU-Professor Gary Marcus – „er hat nie etwas zur KI beigetragen“ – und Jürgen Schmidhuber, Co-Direktor des Dalle Molle Institute for Artificial Intelligence Research – „es ist sehr einfach, Fahnen zu pflanzen.“

Abgesehen von der Kritik ist der wichtigere Punkt von LeCun, dass bestimmte grundlegende Probleme die gesamte KI betreffen, insbesondere die Messung von Informationen.

„Man muss einen Schritt zurücktreten und sagen: Okay, wir haben diese Leiter gebaut, aber wir wollen zum Mond, und diese Leiter wird uns auf keinen Fall dorthin bringen“, sagt LeCun über seinen Wunsch, zum Umdenken anzuregen von Grundbegriffen. „Im Grunde schreibe ich hier, dass wir Raketen bauen müssen. Ich kann Ihnen nicht im Detail sagen, wie wir Raketen bauen, aber hier sind die Grundprinzipien.“

Das Papier und LeCuns Gedanken in dem Interview können besser verstanden werden, wenn man LeCuns Interview Anfang dieses Jahres liest ZDNet in dem er für energiebasiertes selbstüberwachtes Lernen als Weg nach vorn für Deep Learning plädiert. Diese Überlegungen geben einen Eindruck von dem Kernansatz dessen, was er als Alternative zu den Dingen zu bauen hofft, von denen er behauptet, dass sie es nicht bis zur Ziellinie schaffen werden. 

Was folgt, ist eine leicht bearbeitete Abschrift des Interviews.

ZDNet: Das Thema unseres Chats ist dieses Papier, „Ein Weg zu autonomer Maschinenintelligenz“, von der Version 0.9.2 die vorhandene Version ist, ja?

Yann Le Cun: Ja, ich betrachte das als eine Art Arbeitsdokument. Also habe ich es auf Open Review gepostet und darauf gewartet, dass Leute Kommentare und Vorschläge machen, vielleicht zusätzliche Referenzen, und dann werde ich eine überarbeitete Version erstellen. 

ZDNet: Wie ich sehe, hat Jürgen Schmidhuber bereits einige Kommentare zu Open Review hinzugefügt.

YL: Ja, das tut er immer. Ich zitiere eine seiner Arbeiten dort in meiner Arbeit. Ich denke, die Argumente, die er in den sozialen Netzwerken vorgebracht hat, dass er all dies im Grunde 1991 erfunden hat, wie er es in anderen Fällen getan hat, sind einfach nicht der Fall. Ich meine, es ist sehr einfach zu tunFahnen setzen, und eine Idee ohne Experimente, ohne Theorie zu schreiben, einfach vorschlagen, dass man es so machen könnte. Aber wissen Sie, es ist ein großer Unterschied, ob Sie nur eine Idee haben und sie dann bei einem Spielzeugproblem zum Laufen bringen, und dann bei einem echten Problem zum Laufen bringen und dann eine Theorie entwickeln, die zeigt, warum es funktioniert, und dann es einzusetzen. Es gibt eine ganze Kette, und seine Vorstellung von wissenschaftlichem Verdienst ist, dass die allererste Person, die sozusagen die Idee dazu hatte, den ganzen Verdienst bekommen sollte. Und das ist lächerlich. 

ZDNet: Glauben Sie nicht alles, was Sie in den sozialen Medien hören. 

YL: Ich meine, das Hauptpapier, von dem er sagt, dass ich es zitieren sollte, enthält keine der Hauptideen, über die ich in dem Papier spreche. Er hat das auch mit GANs und anderen Dingen gemacht, was sich nicht als wahr herausstellte. Es ist einfach, Flaggen zu hissen, es ist viel schwieriger, einen Beitrag zu leisten. Übrigens habe ich in dieser speziellen Arbeit ausdrücklich gesagt, dass dies keine wissenschaftliche Arbeit im üblichen Sinne des Wortes ist. Es ist eher ein Positionspapier darüber, wohin das Ding gehen soll. Und es gibt ein paar Ideen, die neu sein könnten, aber die meisten sind es nicht. Ich beanspruche im Grunde keine Priorität auf das meiste, was ich in dieser Abhandlung geschrieben habe.

yann-lecun-sept-2022-2

Reinforcement Learning wird auch niemals ausreichen, behauptet LeCun. Forscher wie David Silver von DeepMind, der das AlphaZero-Programm entwickelt hat, das Schach, Shogi und Go beherrscht, sind „sehr aktionsbasiert“, beobachtet LeCun, aber „das meiste, was wir lernen, tun wir nicht, indem wir es tatsächlich nehmen Handlungen, wir tun es, indem wir beobachten.“ 

ZDNet: Und das ist vielleicht ein guter Anfang, denn ich frage mich, warum Sie diesen Weg jetzt eingeschlagen haben? Was hat Sie dazu gebracht? Warum wolltest du das schreiben?

YL: Nun, ich habe sehr lange darüber nachgedacht, über einen Weg zu menschlicher oder tierischer Intelligenz oder zu Lernen und Fähigkeiten. Und in meinen Vorträgen habe ich mich ziemlich lautstark zu dieser ganzen Sache geäußert, dass sowohl überwachtes Lernen als auch bestärkendes Lernen nicht ausreichen, um die Art des Lernens nachzuahmen, die wir bei Tieren und Menschen beobachten. Ich mache das seit ungefähr sieben oder acht Jahren. Es ist also nicht neu. Ich hatte vor vielen Jahren eine Keynote bei NeurIPS, wo ich im Wesentlichen darauf hingewiesen habe, und verschiedene Vorträge, es gibt Aufnahmen. Nun, warum jetzt eine Arbeit schreiben? Ich bin zu dem Punkt gekommen – [Google Brain Researcher] Geoff Hinton hatte etwas Ähnliches getan – ich meine, sicherlich, er mehr als ich, wir sehen, dass die Zeit davonläuft. Wir sind nicht jung.

ZDNet: Sechzig ist das neue Fünfzig. 

YL: Das stimmt, aber der Punkt ist, dass wir viele Behauptungen darüber sehen, was wir tun sollten, um KI auf menschliches Niveau zu bringen. Und es gibt Ideen, die meiner Meinung nach fehlgeleitet sind. Eine Idee ist also, oh, wir sollten einfach symbolisches Denken zusätzlich zu neuronalen Netzen hinzufügen. Und ich weiß nicht, wie ich das machen soll. Also könnte das, was ich in dem Artikel erklärt habe, vielleicht ein Ansatz sein, der dasselbe ohne explizite Symbolmanipulation tun würde. Dies ist die Art von traditionell Gary Marcuses der Welt. Gary Marcus ist übrigens kein KI-Mensch, er ist Psychologe. Er hat nie etwas zur KI beigetragen. Er hat wirklich gute Arbeit in der experimentellen Psychologie geleistet, aber er hat noch nie eine begutachtete Arbeit über KI geschrieben. Also, da sind diese Leute. 

Es gibt den [DeepMind-Forschungsleiter] David Silvers aus der ganzen Welt, der sagt, Belohnung ist genug, im Grunde dreht sich alles um bestärkendes Lernen, wir müssen es nur ein wenig effizienter machen, okay? Und ich denke, sie liegen nicht falsch, aber ich denke, die notwendigen Schritte, um das bestärkende Lernen effizienter zu machen, würden das bestärkende Lernen im Grunde zu einer Art Sahnehäubchen degradieren. Und der wichtigste fehlende Teil besteht darin, zu lernen, wie die Welt funktioniert, hauptsächlich durch Beobachtung ohne Handeln. Reinforcement Learning ist sehr handlungsbasiert, man lernt Dinge über die Welt, indem man Maßnahmen ergreift und die Ergebnisse sieht.

ZDNet: Und es ist belohnungsorientiert.

YL: Es ist belohnungsorientiert und auch handlungsorientiert. Man muss also in der Welt agieren, um etwas über die Welt lernen zu können. Und die Hauptbehauptung, die ich in dem Artikel über selbstüberwachtes Lernen aufstelle, ist, dass wir das meiste Lernen nicht durch tatsächliches Handeln tun, sondern durch Beobachten. Und es ist sehr unorthodox, sowohl für Menschen, die durch Verstärkung lernen, als auch für viele Psychologen und Kognitionswissenschaftler, die denken, dass Handeln – ich sage nicht, dass Handeln nicht wesentlich ist, es ist is wesentlich. Aber ich denke, der Großteil dessen, was wir lernen, dreht sich hauptsächlich um die Struktur der Welt und beinhaltet natürlich Interaktion und Aktion und Spiel und solche Dinge, aber vieles davon ist Beobachtung.

ZDNet: Sie werden es auch schaffen, die Transformer-Leute, die Sprache-zuerst-Leute, gleichzeitig abzuhaken. Wie können Sie dies zuerst ohne Sprache erstellen? Sie können es schaffen, eine Menge Leute abzuhaken. 

YL: Ja, das bin ich gewohnt. Also, ja, es gibt die Sprache-zuerst-Leute, die sagen, wissen Sie, bei Intelligenz geht es um Sprache, das Substrat von Intelligenz ist Sprache, bla, bla, bla. Aber das entlässt irgendwie tierische Intelligenz. Wissen Sie, wir sind noch nicht an dem Punkt angelangt, an dem unsere intelligenten Maschinen so viel gesunden Menschenverstand wie eine Katze haben. Also, warum fangen wir nicht dort an? Was ermöglicht es einer Katze, die sie umgebende Welt zu erfassen, ziemlich schlaue Dinge zu tun und zu planen und so etwas, und Hunde noch besser? 

Dann gibt es all die Leute, die sagen: Oh, Intelligenz ist eine soziale Sache, richtig? Wir sind intelligent, weil wir miteinander reden und Informationen austauschen und bla, bla, bla. Es gibt alle Arten von nichtsozialen Arten, die ihre Eltern, die sehr schlau sind, nie treffen, wie Tintenfische oder Orang-Utans.Ich meine, sie [Orang-Utans] werden sicherlich von ihrer Mutter erzogen, aber sie sind keine sozialen Tiere. 

Aber die andere Kategorie von Leuten, die ich abhaken könnte, sind Leute, die sagen, dass Skalierung genug ist. Also verwenden wir im Grunde nur gigantische Transformer, wir trainieren sie mit multimodalen Daten, die Video, Text, bla, bla, bla beinhalten. Wir versteinern irgendwiealles, und alles tokenisieren, und dann gigantisch trainierenModelle, um im Grunde diskrete Vorhersagen zu treffen, und irgendwie wird KI daraus hervorgehen. Sie liegen nicht falsch, in dem Sinne, dass dies eine Komponente eines zukünftigen intelligenten Systems sein könnte. Aber ich denke, es fehlen wesentliche Teile. 

Es gibt noch eine andere Kategorie von Menschen, die ich mit diesem Artikel ansprechen werde. Und es sind die Probabilisten, die religiösen Probabilisten. Also, die Leute, die glauben, dass die Wahrscheinlichkeitstheorie der einzige Rahmen ist, den Sie verwenden können, um maschinelles Lernen zu erklären. Und wie ich in dem Artikel zu erklären versuchte, ist es im Grunde zu viel verlangt, dass ein Weltmodell vollständig probabilistisch ist. Wir wissen nicht, wie es geht. Da ist die rechnerische Widerspenstigkeit. Also schlage ich vor, diese ganze Idee fallen zu lassen. Und natürlich ist dies eine enorme Säule nicht nur des maschinellen Lernens, sondern der gesamten Statistik, die den Anspruch erhebt, der normale Formalismus für maschinelles Lernen zu sein. 

Die andere Sache - 

ZDNet: Du bist in Fahrt…

YL: — nennt man generative Modelle. Also die Idee, dass man lernen kann, Vorhersagen zu treffen, und dass man durch Vorhersagen vielleicht viel über die Welt lernen kann. Ich gebe Ihnen also ein Stück Video und bitte das System, vorherzusagen, was als nächstes im Video passiert. Und ich kann Sie bitten, tatsächliche Videoframes mit allen Details vorherzusagen. Aber worüber ich in dem Papier argumentiere, ist, dass das eigentlich zu viel verlangt und zu kompliziert ist. Und das ist etwas, worüber ich meine Meinung geändert habe. Bis vor etwa zwei Jahren war ich ein Verfechter dessen, was ich als generative Modelle mit latenten Variablen bezeichne, Modelle, die vorhersagen, was als Nächstes passieren wird oder fehlende Informationen, möglicherweise mit Hilfe einer latenten Variablen, wenn die Vorhersage nicht möglich ist deterministisch. Und das habe ich aufgegeben. Und der Grund, warum ich dies aufgegeben habe, basiert auf empirischen Ergebnissen, bei denen Menschen versucht haben, eine Art Vorhersage- oder rekonstruktionsbasiertes Training des Typs anzuwenden, der in BERT verwendet wirdund große Sprachmodelle haben sie versucht, dies auf Bilder anzuwenden, und es war ein kompletter Fehlschlag. Und der Grund für das völlige Versagen liegt wiederum in den Einschränkungen probabilistischer Modelle, bei denen es relativ einfach ist, diskrete Token wie Wörter vorherzusagen, weil wir die Wahrscheinlichkeitsverteilung über alle Wörter im Wörterbuch berechnen können. Das ist leicht. Aber wenn wir das System bitten, die Wahrscheinlichkeitsverteilung über alle möglichen Videoframes zu erzeugen, haben wir keine Ahnung, wie wir sie parametrisieren sollen, oder wir haben eine Idee, wie wir sie parametrisieren sollen, aber wir wissen nicht, wie wir sie normalisieren sollen. Es trifft auf ein hartnäckiges mathematisches Problem, von dem wir nicht wissen, wie wir es lösen sollen. 

yann-lecun-sept-2022-3

„Wir sind noch nicht an dem Punkt angelangt, an dem unsere intelligenten Maschinen so viel gesunden Menschenverstand wie eine Katze haben“, beobachtet Lecun. „Also, warum fangen wir nicht dort an? Was ermöglicht es einer Katze, die sie umgebende Welt wahrzunehmen, ziemlich schlaue Dinge zu tun und zu planen und so etwas, und Hunde noch besser?“

Deshalb sage ich, lassen Sie uns die Wahrscheinlichkeitstheorie oder den Rahmen für solche Dinge aufgeben, das schwächere, energiebasierte Modell. Ich setze mich auch seit Jahrzehnten dafür ein, also ist dies keine neue Sache. Aber gleichzeitig die Idee generativer Modelle aufzugeben, weil es viele Dinge auf der Welt gibt, die nicht verständlich und nicht vorhersehbar sind. Wenn Sie ein Ingenieur sind, nennen Sie es Rauschen. Wenn Sie Physiker sind, nennen Sie es Wärme. Und wenn Sie eine Person für maschinelles Lernen sind, nennen Sie es, Sie wissen schon, irrelevante Details oder wie auch immer.

Das Beispiel, das ich in der Zeitung oder in Gesprächen verwendet habe, ist also, Sie wollen ein Weltvorhersagesystem, das in einem selbstfahrenden Auto helfen würde, richtig? Es möchte in der Lage sein, die Flugbahnen aller anderen Autos im Voraus vorherzusagen, was mit anderen Objekten passieren wird, die sich bewegen könnten, Fußgängern, Fahrrädern, einem Kind, das einem Fußball hinterherrennt, und so weiter. Also alles Mögliche über die Welt. Aber am Straßenrand stehen vielleicht Bäume, und heute weht Wind, also bewegen sich die Blätter im Wind, und hinter den Bäumen ist ein Teich, und im Teich kräuselt es sich. Und das sind im Wesentlichen weitgehend unvorhersehbare Phänomene. Und Sie möchten nicht, dass Ihr Modell eine erhebliche Menge an Ressourcen für die Vorhersage von Dingen aufwendet, die sowohl schwer vorhersagbar als auch irrelevant sind. Deshalb plädiere ich für die Joint-Embedding-Architektur, diese Dinge, bei denen die Variable, die Sie zu modellieren versuchen, Sie nicht versuchen, sie vorherzusagen, Sie versuchen, sie zu modellieren, aber sie läuft durch einen Encoder, und Dieser Encoder kann viele Details über die Eingabe eliminieren, die irrelevant oder zu kompliziert sind – im Grunde gleichbedeutend mit Rauschen.

ZDNet: Wir haben Anfang dieses Jahres energiebasierte Modelle, JEPA und H-JEPA, diskutiert. Mein Gefühl, wenn ich Sie richtig verstehe, ist, dass Sie den Punkt niedriger Energie finden, an dem diese beiden Vorhersagen von X- und Y-Einbettungen am ähnlichsten sind, was bedeutet, dass, wenn eine Taube in einem Baum in einer ist, und etwas in der Hintergrund einer Szene, das sind vielleicht nicht die wesentlichen Punkte, die diese Einbettungen nahe beieinander machen.

YL: Recht. Die JEPA-Architektur versucht also tatsächlich, einen Kompromiss zu finden, zwischen dem Extrahieren von Darstellungen, die maximal informativ über die Eingaben sind, aber auch voneinander mit einem gewissen Grad an Genauigkeit oder Zuverlässigkeit vorhersagbar sind. Es findet einen Kompromiss. Also, wenn es die Wahl hat, eine riesige Menge an Ressourcen aufzuwenden, einschließlich der Details der Bewegung der Blätter, und dann die Dynamik zu modellieren, die entscheidet, wie sich die Blätter in einer Sekunde bewegen, oder das einfach auf den Boden fallen zu lassen Wenn Sie die Y-Variable einfach durch einen Prädiktor laufen lassen, der all diese Details eliminiert, wird er sie wahrscheinlich einfach eliminieren, weil es einfach zu schwer zu modellieren und zu erfassen ist.

ZDNet: Eine Sache, die überrascht, ist, dass Sie ein großer Befürworter der Aussage waren: „Es funktioniert, wir werden später die Theorie der Thermodynamik herausfinden, um es zu erklären.“ Hier haben Sie einen Ansatz gewählt wie: „Ich weiß nicht, wie wir das unbedingt lösen werden, aber ich möchte einige Ideen vorschlagen, um darüber nachzudenken“, und vielleicht sogar eine Theorie oder Hypothese annähern am wenigsten. Das ist interessant, weil viele Leute viel Geld für die Arbeit an einem Auto ausgeben, das den Fußgänger sehen kann, unabhängig davon, ob das Auto über gesunden Menschenverstand verfügt. Und ich kann mir vorstellen, dass einige dieser Leute nicht abgehakt sein werden, aber sie werden sagen: „Das ist in Ordnung, es ist uns egal, ob es keinen gesunden Menschenverstand hat, wir haben eine Simulation gebaut, die Simulation ist erstaunlich, und wir werden uns weiter verbessern, wir werden die Simulation weiter skalieren.“ 

Und deshalb ist es interessant, dass Sie jetzt sagen können, lasst uns einen Schritt zurücktreten und darüber nachdenken, was wir tun. Und die Industrie sagt, wir werden einfach skalieren, skalieren, skalieren, skalieren, weil diese Kurbel wirklich funktioniert. Ich meine, die Halbleiterkurbel von GPUs funktioniert wirklich.

YL: Da sind ungefähr fünf Fragen. Also, ich meine, Skalierung ist notwendig. Ich kritisiere nicht die Tatsache, dass wir skalieren sollten. Wir sollten skalieren. Diese neuronalen Netze werden besser, wenn sie größer werden. Es steht außer Frage, dass wir skalieren sollten. Und diejenigen, die ein gewisses Maß an gesundem Menschenverstand haben, werden groß sein. Daran führt kein Weg vorbei, denke ich. Skalierung ist also gut, sie ist notwendig, aber nicht ausreichend. Das ist der Punkt, den ich mache. Es wird nicht nur skaliert. Das ist der erste Punkt. 

Zweiter Punkt, ob die Theorie zuerst kommt und so. Also, ich denke, es gibt Konzepte, die zuerst kommen, man muss einen Schritt zurücktreten und sagen, okay, wir haben diese Leiter gebaut, aber wir wollen zum Mond und diese Leiter wird uns auf keinen Fall dorthin bringen. Also, was ich hier schreibe, ist im Grunde, dass wir Raketen bauen müssen. Ich kann Ihnen nicht im Detail sagen, wie wir Raketen bauen, aber hier sind die Grundprinzipien. Und ich schreibe keine Theorie dafür oder so, aber es wird eine Rakete, okay? Oder ein Weltraumaufzug oder was auch immer. Wir haben möglicherweise nicht alle Details der gesamten Technologie. Wir versuchen, einige dieser Dinge zum Laufen zu bringen, so wie ich an JEPA gearbeitet habe. Gemeinsame Einbettung funktioniert sehr gut für die Bilderkennung, aber damit ein Weltmodell zu trainieren, gibt es Schwierigkeiten. Wir arbeiten daran, wir hoffen, dass wir es schaffen werden soon, aber wir könnten dort auf einige Hindernisse stoßen, die wir möglicherweise nicht überwinden können. 

Dann gibt es in dem Artikel eine Schlüsselidee zum Denken, wonach Systeme latente Variablen haben müssen, wenn wir wollen, dass sie planen können, was Sie sich als eine einfache Form des Denkens vorstellen können. Mit anderen Worten, Dinge, die nicht von einem neuronalen Netz berechnet werden, sondern Dinge, deren Wert abgeleitet wird, um eine objektive Funktion, eine Kostenfunktion zu minimieren. Und dann können Sie diese Kostenfunktion verwenden, um das Verhalten des Systems zu steuern. Und das ist überhaupt keine neue Idee, oder? Dies ist eine sehr klassische, optimale Steuerung, deren Grundlage in die späten 50er, frühen 60er Jahre zurückreicht. Also, ich behaupte hier keine Neuheit. Aber was ich sagen will, ist, dass diese Art von Inferenz Teil eines intelligenten Systems sein muss, das planen kann und dessen Verhalten nicht durch ein fest verdrahtetes Verhalten, nicht durch Nachahmung, sondern durch eine objektive Funktion spezifiziert oder gesteuert werden kann treibt das Verhalten an – treibt nicht unbedingt das Lernen voran, aber es treibt das Verhalten an. Wissen Sie, wir haben das in unserem Gehirn, und jedes Tier hat intrinsische Kosten oder intrinsische Motivationen für Dinge. Das treibt neun Monate alte Babys dazu, aufstehen zu wollen. Die Kosten dafür, glücklich zu sein, wenn man aufsteht, dieser Begriff in der Kostenfunktion ist fest verdrahtet. Aber wie du aufstehst, ist nicht, das ist Lernen.

yann-lecun-sept-2022-4

„Skalierung ist gut, sie ist notwendig, aber nicht ausreichend“, sagt LeCun über riesige Sprachmodelle wie die Transformer-basierten Programme der GPT-3-Variante. Die Transformer-Anhänger glauben: „Wir tokenisieren alles und trainieren gigantischModelle, um diskrete Vorhersagen zu treffen, und irgendwie wird KI daraus hervorgehen … aber ich denke, es fehlen wesentliche Teile.“

ZDNet: Nur um diesen Punkt abzurunden, ein Großteil der Deep-Learning-Community scheint in Ordnung zu sein, etwas voranzutreiben, das keinen gesunden Menschenverstand hat. Es scheint, als würden Sie hier ziemlich klar argumentieren, dass es irgendwann zu einer Sackgasse wird. Einige Leute sagen, wir brauchen kein autonomes Auto mit gesundem Menschenverstand, weil Skalierung es tun wird. Es klingt, als wollten Sie damit sagen, dass es nicht in Ordnung ist, diesen Weg einfach weiterzugehen?

YL: Weißt du, ich denke, es ist durchaus möglich, dass wir autonome Autos der Stufe fünf ohne gesunden Menschenverstand haben werden. Aber das Problem bei diesem Ansatz ist, dass dies vorübergehend sein wird, weil Sie es verdammt noch mal konstruieren müssen. Also, wissen Sie, kartieren Sie die ganze Welt, verdrahten Sie alle Arten von spezifischem Eckfallverhalten, sammeln Sie genug Daten, um all die seltsamen Situationen zu haben, denen Sie auf den Straßen begegnen können, bla, bla, bla. Und ich vermute, dass Sie mit genügend Investitionen und Zeit einfach die Hölle daraus machen können. Aber letztendlich wird es eine zufriedenstellendere und möglicherweise bessere Lösung geben, die Systeme beinhaltet, die besser verstehen, wie die Welt funktioniert, und die, wissen Sie, ein gewisses Maß an dem haben, was wir als gesunden Menschenverstand bezeichnen würden. Es muss kein gesunder Menschenverstand sein, sondern irgendeine Art von Wissen, das das System erwerben kann, indem es beobachtet, aber nicht jemandem beim Fahren zusieht, sondern nur Dinge beobachtet, die sich bewegen, und viel über die Welt versteht, um eine Hintergrundgrundlage aufzubauen Wissen darüber, wie die Welt funktioniert, und darüber hinaus kann man Autofahren lernen. 

Lassen Sie mich dafür ein historisches Beispiel nehmen. Die klassische Computer-Vision basierte auf vielen festverdrahteten, konstruierten Modulen, auf denen man sozusagen eine dünne Lernschicht hätte. Das Zeug, das 2012 von AlexNet geschlagen wurde, hatte im Grunde eine erste Stufe, eine Art handgefertigte Merkmalsextraktion, wie SIFTs [Scale-Invariant Feature Transform (SIFT), eine klassische Bildverarbeitungstechnik zum Identifizieren hervorstechender Objekte in einem Bild] und HOG [Histogram of Oriented Gradients, eine weitere klassische Technik] und verschiedene andere Dinge. Und dann die zweite Schicht von Features auf mittlerer Ebene, die auf Feature-Kernels und was auch immer basieren, und einer Art nicht überwachter Methode. Und dann setzt man noch eine Support-Vector-Machine oder einen relativ einfachen Klassifikator hinzu. Und das war sozusagen die Standard-Pipeline von Mitte der 2000er bis 2012. Und das wurde durch End-to-End-Faltungsnetze ersetzt, wo Sie nichts davon fest verdrahten, Sie haben nur eine Menge Daten, und Sie trainieren das Ding von Ende zu Ende, das ist der Ansatz, den ich seit langem befürworte, aber wissen Sie, bis dahin war er für große Probleme nicht praktikabel. 

Es gab eine ähnliche Geschichte in der Spracherkennung, wo es wieder eine Menge detaillierter Technik gab, wie Sie die Daten vorverarbeiten, wie Sie Cepstrum im Massenmaßstab extrahieren [eine Umkehrung der schnellen Fourier-Transformation für die Signalverarbeitung] und dann Sie haben Hidden-Markov-Modelle mit einer Art voreingestellter Architektur, bla, bla, bla, mit einer Mischung aus Gaußschen. Und so ist es ein bisschen die gleiche Architektur wie Vision, wo Sie ein handgefertigtes Front-End haben und dann eine etwas unbeaufsichtigte, trainierte mittlere Schicht und dann eine überwachte Schicht darüber. Und jetzt wurde das im Grunde durch neuronale End-to-End-Netze ausgelöscht. Ich sehe also etwas Ähnliches darin, dass man versucht, alles zu lernen, aber man muss die richtige Priorisierung haben, die richtige Architektur, die richtige Struktur.

yann-lecun-sept-2022-5

Die Masse der selbstfahrenden Autos, Start-ups wie Waymo und Wayve, seien „etwas zu optimistisch“ gewesen, sagt er, indem sie dachten, sie könnten „Daten darauf werfen, und man kann so ziemlich alles lernen“. Selbstfahrende Autos auf Level 5 von ADAS sind möglich, „aber Sie müssen sich die Hölle daraus machen“ und werden „brüchig“ sein wie frühe Computer-Vision-Modelle.

ZDNet: Was Sie sagen, ist, dass einige Leute versuchen werden, etwas zu konstruieren, was derzeit mit Deep Learning nicht für die Anwendbarkeit, sagen wir, in der Industrie funktioniert, und sie werden anfangen, etwas zu schaffen, das in der Computer Vision veraltet ist?

YL: Recht. Und das ist zum Teil der Grund, warum Leute, die am autonomen Fahren arbeiten, in den letzten Jahren etwas zu optimistisch waren, weil Sie diese Art von generischen Dingen wie Convolutional Nets und Transformers haben, dass Sie Daten darauf werfen können , und es kann so ziemlich alles lernen. Sie sagen also: Okay, ich habe die Lösung für dieses Problem. Das erste, was Sie tun, ist, eine Demo zu bauen, bei der das Auto einige Minuten lang von selbst fährt, ohne jemanden zu verletzen. Und dann erkennst du, dass es viele Sonderfälle gibt, und du versuchst, die Kurve zu zeichnen, wie viel besser ich werde, wenn ich den Trainingssatz verdoppele, und dir wird klar, dass du nie dorthin gelangen wirst, weil es alle möglichen Sonderfälle gibt . Und Sie brauchen ein Auto, das weniger als alle 200 Millionen Kilometer einen tödlichen Unfall verursacht, oder? Also, was machst du? Nun, du gehst in zwei Richtungen. 

Die erste Richtung lautet: Wie kann ich die Datenmenge reduzieren, die mein System zum Lernen benötigt? Und hier kommt das selbstüberwachte Lernen ins Spiel. Viele Hersteller von selbstfahrenden Autos interessieren sich sehr für das selbstüberwachte Lernen, weil das eine Möglichkeit ist, immer noch gigantische Mengen an Überwachungsdaten für das Nachahmungslernen zu verwenden, aber dadurch eine bessere Leistung zu erzielen Vortraining, im Wesentlichen. Und es ist noch nicht ganz fertig, aber es wird. Und dann gibt es die andere Option, die die meisten Unternehmen, die zu diesem Zeitpunkt weiter fortgeschritten sind, übernommen haben, nämlich, okay, wir können die End-to-End-Schulung durchführen, aber es gibt viele Sonderfälle, die wir können. nicht handhaben, also werden wir einfach Systeme entwickeln, die sich um diese Eckfälle kümmern, und sie im Grunde als Sonderfälle behandeln und die Steuerung fest verdrahten und dann eine Menge grundlegender Verhaltensweisen fest verdrahten, um mit besonderen Situationen umzugehen. Und wenn Sie ein ausreichend großes Team von Ingenieuren haben, könnten Sie es schaffen. Aber es wird lange dauern, und am Ende wird es immer noch ein wenig spröde sein, vielleicht zuverlässig genug, dass Sie es einsetzen können, aber mit einem gewissen Grad an Sprödigkeit, was bei einem eher lernbasierten Ansatz in der erscheinen könnte Zukunft werden Autos nicht haben, weil sie vielleicht ein gewisses Maß an gesundem Menschenverstand und Verständnis dafür haben, wie die Welt funktioniert. 

Kurzfristig wird der sozusagen technische Ansatz gewinnen – er gewinnt bereits. Das ist Waymo und Cruise der Welt und Wayveund was auch immer, das ist, was sie tun. Dann gibt es noch den Ansatz des selbstüberwachten Lernens, der dem technischen Ansatz wahrscheinlich helfen wird, Fortschritte zu machen. Aber auf lange Sicht, auf die diese Unternehmen möglicherweise zu lange warten, wäre es wahrscheinlich ein stärker integriertes autonomes intelligentes Fahrsystem.

ZDNet: Wir sagen über den Anlagehorizont der meisten Anleger hinaus.

YL: Das stimmt. Die Frage ist also, ob die Leute die Geduld verlieren oder ihnen das Geld ausgeht, bevor die Leistung das gewünschte Niveau erreicht.

ZDNet: Gibt es etwas Interessantes darüber zu sagen, warum Sie einige der Elemente ausgewählt haben, die Sie für das Modell ausgewählt haben? Weil Sie Kenneth Craik zitieren [1943,Die Natur der Erklärung], und Sie zitieren Bryson und Ho [1969, Angewandte optimale Steuerung], und ich bin neugierig, warum Sie mit diesen Einflüssen angefangen haben, wenn Sie besonders geglaubt haben, dass diese Leute es so weit gebracht haben, was sie getan haben. Warum hast du dort angefangen?

YL: Nun, ich glaube nicht, dass sie sicher alle Details festgenagelt hatten. Also, Bryson und Ho, dies ist ein Buch, das ich 1987 gelesen habe, als ich Postdoc bei Geoffrey Hinton in Toronto war. Aber ich kannte diese Arbeitsrichtung schon vorher, als ich meine Doktorarbeit schrieb, und stellte im Wesentlichen die Verbindung zwischen optimaler Steuerung und Backprop her. Wenn Sie wirklich ein anderer Schmidhuber sein wollten, würden Sie sagen, dass die eigentlichen Erfinder des Backprop tatsächlich die Theoretiker der optimalen Kontrolle Henry J. Kelley, Arthur Bryson und vielleicht sogar Lev Pontryagin waren, der ein russischer Theoretiker der optimalen Kontrolle des Rückens ist Ende der 50er Jahre. 

Sie haben es also herausgefunden, und tatsächlich können Sie tatsächlich erkennen, dass die Wurzel davon, die Mathematik darunter, die Lagrange-Mechanik ist. Sie können also tatsächlich zu Euler und Lagrange zurückkehren und in ihrer Definition der klassischen Lagrange-Mechanik wirklich einen Hauch davon finden. Im Zusammenhang mit optimaler Steuerung interessierten sich diese Typen also im Grunde für die Berechnung von Raketenflugbahnen. Weißt du, das war das frühe Weltraumzeitalter. Und wenn Sie ein Modell der Rakete haben, zeigt es Ihnen hier den aktuellen Zustand der Rakete t, und hier ist die Aktion, die ich ausführen werde, also Schub und Aktuatoren verschiedener Art, hier ist der Zustand der Rakete zu der Zeit t + 1.

ZDNet: Ein State-Action-Modell, ein Wertemodell.

YL: Das ist richtig, die Grundlage der Kontrolle. Jetzt können Sie also das Abschießen Ihrer Rakete simulieren, indem Sie sich eine Folge von Befehlen vorstellen, und dann haben Sie eine Kostenfunktion, die die Entfernung der Rakete zu ihrem Ziel, einer Raumstation oder was auch immer, ist. Und dann können Sie durch eine Art Gradientenabstieg herausfinden, wie ich meine Aktionssequenz aktualisieren kann, damit meine Rakete tatsächlich so nah wie möglich an das Ziel herankommt. Und das muss durch die Rückwärtsausbreitung von Signalen in der Zeit geschehen. Und das ist Back-Propagation, Gradient-Back-Propagation. Diese Signale werden in der Lagrange-Mechanik konjugierte Variablen genannt, aber tatsächlich sind sie Gradienten. Also erfanden sie Backprop, aber sie erkannten nicht, dass dieses Prinzip verwendet werden konnte, um ein mehrstufiges System zu trainieren, das Mustererkennung oder ähnliches leisten kann. Dies wurde erst Ende der 70er, Anfang der 80er Jahre wirklich realisiert und dann erst Mitte der 80er Jahre tatsächlich implementiert und zum Laufen gebracht. Okay, hier hat Backprop wirklich sozusagen abgenommen, weil die Leute hier ein paar Codezeilen gezeigt haben, mit denen man ein neuronales Netz trainieren kann, Ende-zu-Ende, mehrschichtig. Und das hebt die Beschränkungen des Perzeptrons auf. Und ja, es gibt Verbindungen mit optimaler Kontrolle, aber das ist okay.

ZDNet: Das ist also eine lange Art zu sagen, dass diese Einflüsse, mit denen Sie angefangen haben, zurück zu Backprop gingen, und das war als Ausgangspunkt für Sie wichtig?

YL: Ja, aber ich denke, was die Leute ein bisschen vergessen haben, es gab ziemlich viel Arbeit daran, weißt du, damals in den 90ern oder sogar in den 80ern, einschließlich von Leuten wie Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] und solche Leute, die keine neuronalen Netze mehr machen, sondern die Idee, dass man neuronale Netze zur Steuerung verwenden kann, und man kann klassische Ideen der optimalen Steuerung verwenden. Also Dinge wie die sogenannte modellprädiktive Steuerung, die jetzt als modellprädiktive Steuerung bezeichnet wird, diese Idee, dass Sie das Ergebnis einer Abfolge von Aktionen simulieren oder sich vorstellen können, wenn Sie ein gutes Modell des Systems haben, das Sie steuern möchten und die Umgebung, in der es sich befindet. Und dann können Sie im Wesentlichen durch Gradientenabstieg – das ist kein Lernen, das ist Schlussfolgerung – herausfinden, was die beste Abfolge von Aktionen ist, die mein Ziel minimieren. Die Verwendung einer Kostenfunktion mit einer latenten Variablen für die Inferenz ist also etwas, das meiner Meinung nach bei der derzeitigen Ernte großer neuronaler Netze vergessen wurde. Aber es war lange Zeit ein ganz klassischer Bestandteil des maschinellen Lernens. Also verwendete jedes Bayes'sche Netz oder grafische Modell oder probabilistische grafische Modell diese Art von Inferenz. Sie haben ein Modell, das die Abhängigkeiten zwischen einer Reihe von Variablen erfasst, Ihnen wird der Wert einiger Variablen mitgeteilt, und dann müssen Sie den wahrscheinlichsten Wert der restlichen Variablen ableiten. Das ist das Grundprinzip der Inferenz in grafischen Modellen und Bayes'schen Netzen und solchen Dingen. Und ich denke, darum sollte es im Grunde beim Denken gehen, beim Denken und Planen.

ZDNet: Du bist ein Schrank-Bayesianer.

YL: Ich bin ein nicht-probabilistischer Bayesianer. Den Witz habe ich schon mal gemacht. Ich war tatsächlich vor ein paar Jahren bei NeurIPS, ich glaube, es war 2018 oder 2019, und ich wurde von einem Bayesianer auf Video festgehalten, der mich fragte, ob ich ein Bayesianer sei, und ich sagte: Ja, ich bin ein Bayesianer, aber ich Ich bin ein nicht probabilistischer Bayesianer, sozusagen ein energiebasierter Bayesianer, wenn Sie so wollen. 

ZDNet: Was definitiv nach etwas von klingt Star Trek. Sie haben am Ende dieses Dokuments erwähnt, dass es Jahre wirklich harter Arbeit erfordern wird, um zu verwirklichen, was Sie sich vorstellen. Erzählen Sie mir, woraus ein Teil dieser Arbeit im Moment besteht.

YL: Also erkläre ich in der Zeitung, wie man das JEPA trainiert und aufbaut. Und das Kriterium, für das ich plädiere, ist eine Möglichkeit, den Informationsgehalt zu maximieren, den die extrahierten Repräsentationen über die Eingabe haben. Und dann minimiert der zweite den Vorhersagefehler. Und wenn Sie eine latente Variable im Prädiktor haben, die es dem Prädiktor ermöglicht, nicht deterministisch zu sein, müssen Sie auch diese latente Variable regularisieren, indem Sie ihren Informationsgehalt minimieren. Sie haben also jetzt zwei Probleme, wie maximieren Sie den Informationsgehalt der Ausgabe eines neuronalen Netzes, und das andere ist, wie minimieren Sie den Informationsgehalt einer latenten Variablen? Und wenn Sie diese beiden Dinge nicht tun, wird das System zusammenbrechen. Es wird nichts Interessantes lernen. Es wird allem null Energie geben, so etwas in der Art, was kein gutes Modell der Abhängigkeit ist. Es ist das Problem der Kollapsprävention, das ich erwähne. 

Und ich sage von all den Dingen, die Menschen jemals getan haben, dass es nur zwei Kategorien von Methoden gibt, um einen Kollaps zu verhindern. Das eine sind kontrastive Methoden und das andere sind diese regularisierten Methoden. Diese Idee, den Informationsgehalt der Darstellungen der beiden Eingaben zu maximieren und den Informationsgehalt der latenten Variablen zu minimieren, gehört also zu regularisierten Methoden. Aber ein Großteil der Arbeit in diesen gemeinsamen Einbettungsarchitekturen verwendet kontrastive Methoden. Tatsächlich sind sie derzeit wahrscheinlich die beliebtesten. Die Frage ist also genau, wie Sie den Informationsgehalt so messen, dass Sie ihn optimieren oder minimieren können. Und da wird es kompliziert, weil wir nicht wissen, wie man den Informationsgehalt misst. Wir können es annähern, wir können es nach oben begrenzen, wir können solche Dinge tun. Aber sie messen nicht wirklich den Informationsgehalt, der tatsächlich teilweise nicht einmal genau definiert ist.

ZDNet: Es ist nicht Shannons Gesetz? Es ist keine Informationstheorie? Sie haben eine bestimmte Menge an Entropie, gute Entropie und schlechte Entropie, und die gute Entropie ist ein Symbolsystem, das funktioniert, schlechte Entropie ist Rauschen. Wird das nicht alles von Shannon gelöst?

YL: Sie haben Recht, aber dahinter steckt ein großer Fehler. Sie haben Recht in dem Sinne, dass, wenn Daten auf Sie zukommen und Sie die Daten irgendwie in diskrete Symbole quantisieren können und dann die Wahrscheinlichkeit jedes dieser Symbole messen, die maximale Menge an Informationen, die von diesen Symbolen getragen wird, die ist Summe über die möglichen Symbole von Pi log Pi, Rechts? Wo Pi ist die Wahrscheinlichkeit des Symbols ich - das ist die Shannon-Entropie. [Das Gesetz von Shannon wird üblicherweise als H = – ∑ pi log pi formuliert.]

Hier ist jedoch das Problem: Was ist Pi? Es ist einfach, wenn die Anzahl der Symbole klein ist und die Symbole unabhängig voneinander gezeichnet werden. Wenn es viele Symbole und Abhängigkeiten gibt, ist es sehr schwierig. Wenn Sie also eine Folge von Bits haben und davon ausgehen, dass die Bits unabhängig voneinander sind und die Wahrscheinlichkeit zwischen eins und null oder was auch immer gleich ist, dann können Sie die Entropie leicht messen, kein Problem. Aber wenn die Dinge, die zu Ihnen kommen, hochdimensionale Vektoren sind, wie Sie wissen, Datenrahmen oder so etwas, was ist Pi? Wie ist die Verteilung? Zuerst müssen Sie diesen Raum quantisieren, der ein hochdimensionaler, kontinuierlicher Raum ist. Sie haben keine Ahnung, wie man das richtig quantisiert. Sie können k-Means usw. verwenden. Dies ist, was Leute tun, wenn sie Videokomprimierung und Bildkomprimierung durchführen. Aber es ist nur eine Annäherung. Und dann müssen Sie Annahmen über die Unabhängigkeit treffen. Es ist also klar, dass aufeinanderfolgende Frames in einem Video nicht unabhängig voneinander sind. Es gibt Abhängigkeiten, und dieser Rahmen könnte von einem anderen Rahmen abhängen, den Sie vor einer Stunde gesehen haben und der ein Bild derselben Sache war. Sie können also nicht messen Pi. Messen Pi, müssen Sie ein maschinelles Lernsystem haben, das Vorhersagen lernt. Und damit sind Sie wieder beim vorherigen Problem. Sie können also das Informationsmaß im Wesentlichen nur annähern. 

yann-lecun-sept-2022-6

„Die Frage ist genau, wie misst man den Informationsgehalt so, dass man ihn optimieren oder minimieren kann?“ sagt LeCun. „Und da wird es kompliziert, weil wir eigentlich nicht wissen, wie man den Informationsgehalt misst.“ Das Beste, was bisher getan werden kann, ist, einen Proxy zu finden, der „gut genug für die Aufgabe ist, die wir wollen“.

Lassen Sie mich ein konkreteres Beispiel nennen. Einer der Algorithmen, mit denen wir gespielt haben und über den ich in dem Artikel gesprochen habe, ist dieses Ding namens VICReg, Varianz-Invarianz-Kovarianz-Regularisierung. Es ist in einem separaten Papier, das bei ICLR veröffentlicht wurde, und es wurde auf arXiv gesetzt etwa ein Jahr vor 2021. Und die Idee dort ist, Informationen zu maximieren. Und die Idee kam tatsächlich aus einem früheren Artikel meiner Gruppe mit dem Titel Barlow-Zwillinge. Sie maximieren den Informationsgehalt eines Vektors, der aus einem neuronalen Netz kommt, indem Sie im Grunde davon ausgehen, dass die einzige Abhängigkeit zwischen Variablen eine Korrelation ist, eine lineare Abhängigkeit. Wenn Sie also davon ausgehen, dass die einzige mögliche Abhängigkeit zwischen Paaren von Variablen oder zwischen Variablen in Ihrem System Korrelationen zwischen Paaren von Werten sind, was eine extrem grobe Annäherung ist, dann können Sie den Informationsgehalt maximieren, der aus Ihrem System kommt Indem sichergestellt wird, dass alle Variablen eine Varianz ungleich Null haben – sagen wir, Varianz eins, es spielt keine Rolle, was es ist – und sie dann rückkorrelieren, ist derselbe Prozess, der Whitening genannt wird, auch nicht neu. Das Problem dabei ist, dass Sie sehr wohl extrem komplexe Abhängigkeiten zwischen Gruppen von Variablen oder sogar nur Paaren von Variablen haben können, die keine linearen Abhängigkeiten sind, und sie erscheinen nicht in Korrelationen. Wenn Sie also beispielsweise zwei Variablen haben und alle Punkte dieser beiden Variablen in einer Art Spirale angeordnet sind, besteht eine sehr starke Abhängigkeit zwischen diesen beiden Variablen, richtig? Aber wenn Sie die Korrelation zwischen diesen beiden Variablen berechnen, sind sie nicht korreliert. Hier ist also ein Beispiel, bei dem der Informationsgehalt dieser beiden Variablen eigentlich sehr klein ist, es ist nur eine Größe, weil es Ihre Position in der Spirale ist. Sie sind dekorreliert, also denken Sie, dass Sie eine Menge Informationen aus diesen beiden Variablen erhalten, obwohl Sie das tatsächlich nicht tun, Sie können im Wesentlichen nur eine der Variablen aus der anderen vorhersagen. Das zeigt also, dass wir nur sehr ungefähre Möglichkeiten haben, den Informationsgehalt zu messen.

ZDNet: Und das ist also eines der Dinge, an denen Sie jetzt arbeiten müssen? Dies ist die größere Frage, woher wir wissen, wann wir den Informationsgehalt maximieren und minimieren.

YL:  Oder ob der Proxy, den wir dafür verwenden, für die gewünschte Aufgabe gut genug ist. Tatsächlich tun wir dies beim maschinellen Lernen ständig. Die Kostenfunktionen, die wir minimieren, sind nie die, die wir eigentlich minimieren wollen. Sie wollen also zum Beispiel eine Klassifizierung vornehmen, okay? Die Kostenfunktion, die Sie beim Trainieren eines Klassifikators minimieren möchten, ist die Anzahl der Fehler, die der Klassifikator macht. Aber das ist eine nicht differenzierbare, schreckliche Kostenfunktion, die Sie nicht minimieren können, weil Sie wissen, dass Sie die Gewichte Ihres neuronalen Netzes ändern werden, nichts wird sich ändern, bis eines dieser Samples seine Entscheidung umkehrt, und dann ein Sprung im Fehler, positiv oder negativ.

ZDNet: Sie haben also einen Proxy, der eine objektive Funktion ist, von der Sie definitiv sagen können, dass wir definitiv Gradienten dieser Sache fließen lassen können.

YL: Das stimmt. Die Leute verwenden also diesen Kreuzentropieverlust oder SOFTMAX, Sie haben mehrere Namen dafür, aber es ist dasselbe. Und es ist im Grunde eine glatte Annäherung an die Anzahl der Fehler, die das System macht, wobei die Glättung im Grunde durch die Berücksichtigung der Punktzahl erfolgt, die das System jeder der Kategorien gibt.

ZDNet: Gibt es etwas, das wir noch nicht abgedeckt haben und das Sie gerne behandeln möchten?

YL: Es betont wahrscheinlich die Hauptpunkte. Ich denke, KI-Systeme müssen in der Lage sein, zu argumentieren, und der Prozess dafür, den ich befürworte, besteht darin, ein Ziel in Bezug auf eine latente Variable zu minimieren. Dadurch können Systeme planen und argumentieren. Ich denke, wir sollten das probabilistische Framework aufgeben, weil es schwer zu handhaben ist, wenn wir Dinge wie die Erfassung von Abhängigkeiten zwischen hochdimensionalen, kontinuierlichen Variablen tun wollen. Und ich plädiere dafür, generative Modelle aufzugeben, da das System zu viele Ressourcen für die Vorhersage von Dingen aufwenden muss, die zu schwierig vorherzusagen sind, und möglicherweise zu viele Ressourcen verbrauchen. Und das ist so ziemlich alles. Das sind die Hauptbotschaften, wenn Sie so wollen. Und dann die Gesamtarchitektur. Dann gibt es diese Spekulationen über die Natur des Bewusstseins und die Rolle des Konfigurators, aber das ist wirklich Spekulation.

ZDNet: Darauf kommen wir beim nächsten Mal. Ich wollte Sie fragen, wie messen Sie dieses Ding? Aber ich nehme an, Sie sind im Moment etwas weiter vom Benchmarking entfernt?

YL: Nicht unbedingt so weit in vereinfachten Versionen. Sie können das tun, was jeder beim Kontroll- oder Verstärkungslernen tut, das heißt, Sie trainieren das Ding, um Atari-Spiele oder ähnliches oder ein anderes Spiel zu spielen, das eine gewisse Unsicherheit enthält.

ZDNet: Danke für deine Zeit, Yann.

Quelle