Meta's AI-goeroe LeCun: de meeste van de huidige AI-benaderingen zullen nooit tot echte intelligentie leiden

yann-lecun-sept-2022-1

"Ik denk dat AI-systemen moeten kunnen redeneren", zegt Yann LeCun, hoofd AI-wetenschapper van Meta. De huidige populaire AI-benaderingen zoals Transformers, waarvan er vele voortbouwen op zijn eigen pionierswerk in het veld, zullen niet voldoende zijn. "Je moet een stap achteruit doen en zeggen: Oké, we hebben deze ladder gebouwd, maar we willen naar de maan, en deze ladder zal ons daar nooit brengen", zegt LeCun.

Yann LeCun, hoofd AI-wetenschapper van Meta Properties, eigenaar van Facebook, Instagram en WhatsApp, zal waarschijnlijk veel mensen in zijn vakgebied afvinken. 

Met de posting in juni van een denkstuk op de Open Review-server, bood LeCun een breed overzicht van een benadering die volgens hem veelbelovend is voor het bereiken van intelligentie op menselijk niveau in machines. 

Impliciet, zo niet verwoord in de paper, is de stelling dat de meeste van de huidige grote projecten op het gebied van AI nooit in staat zullen zijn om dat doel op menselijk niveau te bereiken.

In een discussie deze maand met ZDNet via Zoom maakte LeCun duidelijk dat hij op dit moment met grote scepsis veel van de meest succesvolle onderzoeksrichtingen op het gebied van deep learning bekijkt.

"Ik denk dat ze nodig zijn, maar niet voldoende", vertelde de Turing Award-winnaar ZDNet van de bezigheden van zijn leeftijdsgenoten. 

Die omvatten grote taalmodellen zoals de op Transformer gebaseerde GPT-3 en dergelijke. Zoals LeCun het karakteriseert, geloven de toegewijden van Transformer: "We symboliseren alles en trainen gigantischemodellen om discrete voorspellingen te doen, en op de een of andere manier zal hier AI uit voortkomen.”

"Ze hebben het niet mis," zegt hij, "in de zin dat dat misschien een onderdeel is van een toekomstig intelligent systeem, maar ik denk dat er essentiële onderdelen ontbreken."

Ook: Meta's AI-held LeCun verkent de energiegrens van deep learning

Het is een verrassende kritiek op wat lijkt te werken, afkomstig van de geleerde die het gebruik van convolutionele neurale netwerken heeft geperfectioneerd, een praktische techniek die ongelooflijk productief is geweest in deep learning-programma's. 

LeCun ziet tekortkomingen en beperkingen in tal van andere zeer succesvolle gebieden van de discipline. 

Versterkend leren zal ook nooit genoeg zijn, stelt hij. Onderzoekers zoals David Silver van DeepMind, die het AlphaZero-programma heeft ontwikkeld dat Chess, Shogi en Go beheerst, richten zich op programma's die "zeer actiegericht" zijn, merkt LeCun op, maar "het meeste leren dat we doen, leren we niet doen door daadwerkelijk actie te ondernemen, we doen het door te observeren.” 

Lecun, 62, spreekt vanuit een perspectief van tientallen jaren van prestatie niettemin de urgentie uit om de confrontatie aan te gaan met wat volgens hem de doodlopende wegen zijn waar velen zich naar toe haasten, en om te proberen zijn vakgebied te verleiden in de richting waarvan hij denkt dat de dingen moeten gaan. 

"We zien veel beweringen over wat we moeten doen om vooruitgang te boeken in de richting van AI op menselijk niveau", zegt hij. "En er zijn ideeën waarvan ik denk dat ze verkeerd zijn gericht."

"We zijn nog niet zover dat onze intelligente machines zoveel gezond verstand hebben als een kat", merkt Lecun op. "Dus, waarom beginnen we daar niet?" 

Hij heeft zijn eerdere vertrouwen in het gebruik van generatieve netwerken voor zaken als het voorspellen van het volgende frame in een video opgegeven. "Het is een complete mislukking geworden", zegt hij. 

LeCun hekelt degenen die hij de 'religieuze probabilisten' noemt, die 'denken dat de waarschijnlijkheidstheorie het enige raamwerk is dat je kunt gebruiken om machinaal leren te verklaren'. 

De puur statistische benadering is onhandelbaar, zegt hij. “Het is te veel gevraagd om een ​​wereldmodel volledig probabilistisch te maken; we weten niet hoe we het moeten doen.”

Niet alleen de academici, maar ook industriële AI heeft een grondige heroverweging nodig, stelt LeCun. Het publiek van zelfrijdende auto's, startups zoals Wayve, was 'een beetje te optimistisch', zegt hij, door te denken dat ze 'gegevens naar 'grote neurale netwerken' konden gooien 'en dat je vrijwel alles kunt leren'.

"Weet je, ik denk dat het heel goed mogelijk is dat we autonome auto's van niveau vijf hebben zonder gezond verstand", zegt hij, verwijzend naar de "ADAS", geavanceerd rijhulpsysteem termen voor zelfrijdend rijden, "maar je zult er verdomd veel van moeten maken."

Zo'n overontwikkelde technologie voor zelfrijdende auto's zal iets zo krakkemikkig en broos zijn als alle computer vision-programma's die verouderd zijn door diepgaand leren, denkt hij.

"Uiteindelijk zal er een meer bevredigende en mogelijk betere oplossing zijn waarbij systemen betrokken zijn die beter begrijpen hoe de wereld werkt."

Onderweg biedt LeCun een aantal vernietigende opvattingen over zijn grootste critici, zoals NYU-professor Gary Marcus - "hij heeft nooit iets bijgedragen aan AI" - en Jürgen Schmidhuber, mededirecteur van het Dalle Molle Institute for Artificial Intelligence Research - "het is heel gemakkelijk om vlaggen te planten.”

Afgezien van de kritieken, is het belangrijkste punt van LeCun dat bepaalde fundamentele problemen met AI worden geconfronteerd, met name hoe informatie moet worden gemeten.

"Je moet een stap achteruit doen en zeggen: Oké, we hebben deze ladder gebouwd, maar we willen naar de maan, en het is onmogelijk dat deze ladder ons daar zal brengen", zegt LeCun over zijn verlangen om een ​​heroverweging aan te vragen. van basisconcepten. "Kortom, wat ik hier schrijf, is dat we raketten moeten bouwen, ik kan je niet de details geven van hoe we raketten bouwen, maar hier zijn de basisprincipes."

De paper, en LeCun's gedachten in het interview, kunnen beter worden begrepen door LeCun's interview eerder dit jaar te lezen met ZDNet waarin hij pleit voor op energie gebaseerd zelf-gesuperviseerd leren als een weg voorwaarts voor diep leren. Die reflecties geven een idee van de kernaanpak van wat hij hoopt te bouwen als alternatief voor de dingen waarvan hij beweert dat ze de eindstreep niet zullen halen. 

Wat volgt is een licht bewerkte transcriptie van het interview.

ZDNet: Het onderwerp van onze chat is dit artikel, "Een pad naar autonome machine-intelligentie", waarvan versie 0.9.2 de bestaande versie is, ja?

Yann LeCun: Ja, ik beschouw dit als een soort werkdocument. Dus ik plaatste het op Open Review, wachtend op mensen om opmerkingen en suggesties te maken, misschien aanvullende referenties, en dan zal ik een herziene versie produceren. 

ZDNet: Ik zie dat Juergen Schmidhuber al enkele opmerkingen heeft toegevoegd aan Open Review.

YL: Nou ja, dat doet hij altijd. Ik citeer een van zijn papieren daar in mijn krant. Ik denk dat de argumenten die hij op sociale netwerken aanvoerde dat hij dit allemaal in 1991 heeft uitgevonden, zoals hij in andere gevallen heeft gedaan, gewoon niet het geval is. Ik bedoel, het is heel gemakkelijk om te doenvlaggen planten, en om een ​​idee te schrijven zonder enige experimenten, zonder enige theorie, suggereer gewoon dat je het op deze manier zou kunnen doen. Maar weet je, er is een groot verschil tussen het idee hebben en het vervolgens laten werken aan een speelgoedprobleem, en het vervolgens laten werken aan een echt probleem, en dan een theorie doen die laat zien waarom het werkt, en dan het inzetten. Er is een hele keten, en zijn idee van wetenschappelijk krediet is dat het de allereerste persoon is die zo'n beetje, je weet wel, het idee had, die alle eer zou moeten krijgen. En dat is belachelijk. 

ZDNet: Geloof niet alles wat je op sociale media hoort. 

YL: Ik bedoel, het hoofdartikel waarvan hij zegt dat ik het moet citeren, bevat geen van de hoofdideeën waar ik het in de krant over heb. Hij heeft dit ook gedaan met GAN's en andere dingen, wat niet waar bleek te zijn. Het is gemakkelijk om vlaggen te planten, het is veel moeilijker om een ​​bijdrage te leveren. En tussen haakjes, in dit specifieke artikel heb ik expliciet gezegd dat dit geen wetenschappelijk artikel is in de gebruikelijke zin van het woord. Het is meer een position paper over waar dit ding heen moet. En er zijn een paar ideeën die misschien nieuw zijn, maar de meeste niet. Ik claim in wezen geen prioriteit op het meeste van wat ik in die krant heb geschreven.

yann-lecun-sept-2022-2

Reinforcement learning zal ook nooit genoeg zijn, stelt LeCun. Onderzoekers zoals David Silver van DeepMind, die het AlphaZero-programma ontwikkelde dat Chess, Shogi en Go beheerst, zijn "zeer actiegericht", merkt LeCun op, maar "het meeste leren dat we doen, doen we niet door daadwerkelijk acties, dat doen we door te observeren.” 

ZDNet: En dat is misschien een goed begin, want ik ben benieuwd waarom je dit pad nu bent ingeslagen? Wat zette je hieraan aan het denken? Waarom wilde je dit schrijven?

YL: Nou, dus, ik heb hier heel lang over nagedacht, over een pad naar intelligentie op menselijk of dierlijk niveau of leren en capaciteiten. En in mijn toespraken heb ik me behoorlijk uitgesproken over dit hele ding dat zowel begeleid leren als versterkend leren onvoldoende zijn om het soort leren na te bootsen dat we bij dieren en mensen waarnemen. Ik doe dit al een jaar of zeven, acht. Het is dus niet recent. Ik had vele jaren geleden een keynote bij NeurIPS, waar ik dat punt in wezen maakte, en er zijn verschillende lezingen, er zijn opnames. Waarom nu een paper schrijven? Ik ben op het punt gekomen - [Google Brain-onderzoeker] Geoff Hinton had iets soortgelijks gedaan - ik bedoel, zeker, hij meer dan ik, we zien dat de tijd opraakt. We zijn niet jong.

ZDNet: Zestig is het nieuwe vijftig. 

YL: Dat is waar, maar het punt is dat we veel beweringen zien over wat we moeten doen om AI op menselijk niveau te bereiken. En er zijn ideeën waarvan ik denk dat ze verkeerd zijn gericht. Dus één idee is: Oh, we moeten gewoon symbolische redenering toevoegen aan neurale netwerken. En ik weet niet hoe ik dit moet doen. Dus misschien is wat ik in het artikel heb uitgelegd een benadering die hetzelfde zou doen zonder expliciete symboolmanipulatie. Dit is het soort traditioneel Gary Marcuses van de wereld. Gary Marcus is trouwens geen AI-persoon, hij is een psycholoog. Hij heeft nooit iets bijgedragen aan AI. Hij heeft echt goed werk geleverd in de experimentele psychologie, maar hij heeft nooit een peer-reviewed artikel over AI geschreven. Dus die mensen zijn er. 

Er is de [DeepMind-principeonderzoeker] David Silvers van de wereld die zegt, weet je, beloning is genoeg, eigenlijk draait het allemaal om leren versterken, we moeten het alleen een beetje efficiënter maken, oké? En ik denk dat ze niet verkeerd zijn, maar ik denk dat de noodzakelijke stappen om versterkingsleren efficiënter te maken, in feite het leren van versterking zouden degraderen tot een soort kers op de taart. En het belangrijkste ontbrekende deel is leren hoe de wereld werkt, meestal door observatie zonder actie. Reinforcement learning is erg actiegericht, je leert dingen over de wereld door acties te ondernemen en de resultaten te zien.

ZDNet: En het is beloningsgericht.

YL: Het is beloningsgericht en het is ook actiegericht. Je moet dus in de wereld handelen om iets over de wereld te leren. En de belangrijkste bewering die ik in de paper over zelf-gesuperviseerd leren doe, is dat het meeste van het leren dat we doen, we niet doen door daadwerkelijk acties te ondernemen, we doen het door te observeren. En het is erg onorthodox, vooral voor het versterken van lerende mensen, maar ook voor veel psychologen en cognitieve wetenschappers die denken dat, weet je, actie is - ik zeg niet dat actie niet essentieel is, het is is essentieel. Maar ik denk dat het grootste deel van wat we leren vooral gaat over de structuur van de wereld, en natuurlijk gaat het om interactie en actie en spel, en dat soort dingen, maar veel ervan is observatie.

ZDNet: Het zal je ook lukken om tegelijkertijd de Transformer-mensen, de taal-first-mensen, af te vinken. Hoe kun je dit bouwen zonder eerst taal? Misschien lukt het je om veel mensen af ​​te vinken. 

YL: Ja, dat ben ik gewend. Dus ja, er zijn de taal-eerste mensen, die zeggen, weet je, intelligentie gaat over taal, het substraat van intelligentie is taal, bla, bla, bla. Maar dat verwerpt de intelligentie van dieren. Weet je, we zijn niet zover dat onze intelligente machines zoveel gezond verstand hebben als een kat. Dus waarom beginnen we daar niet? Wat is het dat een kat in staat stelt de omringende wereld te begrijpen, behoorlijk slimme dingen te doen, plannen te maken en dat soort dingen, en honden nog beter? 

Dan zijn er alle mensen die zeggen: Oh, intelligentie is een sociaal iets, toch? We zijn intelligent omdat we met elkaar praten en informatie uitwisselen, en bla, bla, bla. Er zijn allerlei soorten niet-sociale soorten die hun ouders nooit ontmoeten en die erg slim zijn, zoals octopus of orang-oetans.Ik bedoel, ze [orang-oetans] zijn zeker opgevoed door hun moeder, maar het zijn geen sociale dieren. 

Maar de andere categorie mensen die ik zou kunnen afvinken, zijn mensen die zeggen dat schalen genoeg is. Dus eigenlijk gebruiken we gewoon gigantische Transformers, we trainen ze op multimodale data die, je weet wel, video, tekst, bla, bla, bla omvat. Wij, een beetje, verstenenalles, en alles symboliseren, en dan gigantisch trainenmodellen om in feite discrete voorspellingen te doen, en op de een of andere manier zal hier AI uit voortkomen. Ze hebben geen ongelijk, in die zin dat dat een onderdeel kan zijn van een toekomstig intelligent systeem. Maar ik denk dat er essentiële onderdelen ontbreken. 

Er is nog een categorie mensen die ik met dit artikel wil afvinken. En het zijn de probabilisten, de religieuze probabilisten. Dus de mensen die denken dat waarschijnlijkheidstheorie het enige raamwerk is dat je kunt gebruiken om machine learning uit te leggen. En zoals ik in het stuk probeerde uit te leggen, is het eigenlijk te veel gevraagd om een ​​wereldmodel volledig probabilistisch te laten zijn. We weten niet hoe we het moeten doen. Er is de computationele onhandelbaarheid. Dus ik stel voor om dit hele idee te laten vallen. En natuurlijk, weet je, dit is niet alleen een enorme pijler van machine learning, maar van alle statistieken, die beweert het normale formalisme voor machine learning te zijn. 

Het andere - 

ZDNet: Je bent op dreef...

YL: - is wat generatieve modellen worden genoemd. Dus het idee dat je kunt leren voorspellen, en dat je misschien veel over de wereld kunt leren door te voorspellen. Dus ik geef je een stukje video en ik vraag het systeem om te voorspellen wat er daarna in de video gebeurt. En ik kan je vragen om daadwerkelijke videoframes te voorspellen met alle details. Maar waar ik in de krant over argumenteer, is dat dat eigenlijk te veel gevraagd en te ingewikkeld is. En dit is iets waarover ik van gedachten ben veranderd. Tot ongeveer twee jaar geleden was ik een voorstander van wat ik generatieve modellen voor latente variabelen noem, modellen die voorspellen wat er gaat gebeuren of de informatie die ontbreekt, mogelijk met behulp van een latente variabele, als de voorspelling niet kan worden deterministisch. En ik heb het opgegeven. En de reden dat ik dit heb opgegeven is gebaseerd op empirische resultaten, waarbij mensen hebben geprobeerd een soort van, op voorspelling of reconstructie gebaseerde training toe te passen van het type dat wordt gebruikt in BERTen grote taalmodellen, ze hebben geprobeerd dit op afbeeldingen toe te passen, en het is een complete mislukking geweest. En de reden dat het een complete mislukking is, is, nogmaals, vanwege de beperkingen van probabilistische modellen waar het relatief eenvoudig is om discrete tokens zoals woorden te voorspellen, omdat we de kansverdeling over alle woorden in het woordenboek kunnen berekenen. Dat is eenvoudig. Maar als we het systeem vragen om de kansverdeling over alle mogelijke videoframes te produceren, hebben we geen idee hoe we het moeten parametriseren, of we hebben enig idee hoe we het moeten parametriseren, maar we weten niet hoe we het moeten normaliseren. Het raakt een hardnekkig wiskundig probleem dat we niet weten op te lossen. 

yann-lecun-sept-2022-3

"We zijn nog niet zover dat onze intelligente machines zoveel gezond verstand hebben als een kat", merkt Lecun op. 'Dus, waarom beginnen we daar niet? Wat is het dat een kat in staat stelt de omringende wereld te begrijpen, behoorlijk slimme dingen te doen en plannen te maken en dat soort dingen, en honden nog beter?

Daarom zeg ik, laten we de waarschijnlijkheidstheorie of het raamwerk voor dat soort dingen laten varen, de zwakkere, op energie gebaseerde modellen. Ik pleit hier ook al tientallen jaren voor, dus dit is niet iets recents. Maar tegelijkertijd het idee van generatieve modellen laten varen omdat er veel dingen in de wereld zijn die niet begrijpelijk en niet voorspelbaar zijn. Als je een ingenieur bent, noem je dat lawaai. Als je een natuurkundige bent, noem je het warmte. En als je een machine learning-persoon bent, noem je het, je weet wel, irrelevante details of wat dan ook.

Dus het voorbeeld dat ik in de krant heb gebruikt, of in gesprekken heb gebruikt, is dat je een wereldvoorspellingssysteem wilt dat zou helpen in een zelfrijdende auto, toch? Het wil van tevoren de banen van alle andere auto's kunnen voorspellen, wat er gaat gebeuren met andere objecten die kunnen bewegen, voetgangers, fietsen, een kind dat achter een voetbal aan rent, dat soort dingen. Dus allerlei dingen over de wereld. Maar langs de weg kunnen er bomen zijn, en er is wind vandaag, dus de bladeren bewegen in de wind, en achter de bomen is een vijver, en er zijn rimpelingen in de vijver. En dat zijn in wezen grotendeels onvoorspelbare verschijnselen. En u wilt niet dat uw model een aanzienlijke hoeveelheid middelen besteedt aan het voorspellen van die dingen die zowel moeilijk te voorspellen als irrelevant zijn. Dus daarom pleit ik voor de gezamenlijke inbeddingsarchitectuur, die dingen waarbij de variabele die je probeert te modelleren, je niet probeert te voorspellen, je probeert het te modelleren, maar het loopt door een encoder, en die encoder kan veel details over de invoer elimineren die niet relevant of te ingewikkeld zijn - in feite gelijk aan ruis.

ZDNet: We bespraken eerder dit jaar op energie gebaseerde modellen, de JEPA en H-JEPA. Mijn gevoel, als ik je goed begrijp, is dat je het punt van lage energie vindt waar deze twee voorspellingen van X- en Y-inbeddingen het meest op elkaar lijken, wat betekent dat als er een duif in een boom in één zit, en er is iets in de achtergrond van een scène, zijn dat misschien niet de essentiële punten die deze inbeddingen dicht bij elkaar brengen.

YL: Rechts. Dus de JEPA-architectuur probeert eigenlijk een afweging, een compromis, te vinden tussen het extraheren van representaties die maximaal informatief zijn over de invoer, maar ook voorspelbaar van elkaar met een zekere mate van nauwkeurigheid of betrouwbaarheid. Het vindt een afweging. Dus als het de keuze heeft tussen het uitgeven van een enorme hoeveelheid middelen, inclusief de details van de beweging van de bladeren, en dan het modelleren van de dynamiek die zal beslissen hoe de bladeren over een seconde bewegen, of dat gewoon op de grond laten vallen door gewoon in feite de Y-variabele door een voorspeller laten lopen die al die details elimineert, het zal het waarschijnlijk gewoon elimineren omdat het gewoon te moeilijk is om te modelleren en vast te leggen.

ZDNet: Een ding dat verrast is, is dat je een groot voorstander was van te zeggen: "Het werkt, we zullen later de theorie van de thermodynamica achterhalen om het uit te leggen." Hier heb je een benadering gekozen van: "Ik weet niet hoe we dit noodzakelijkerwijs gaan oplossen, maar ik wil enkele ideeën naar voren brengen om erover na te denken", en misschien zelfs een theorie of een hypothese benaderen, op minst. Dat is interessant omdat er veel mensen zijn die veel geld uitgeven aan het werken aan de auto die de voetganger kan zien, ongeacht of de auto gezond verstand heeft. En ik stel me voor dat sommige van die mensen niet afgevinkt zullen zijn, maar ze zullen zeggen: "Dat is prima, het maakt ons niet uit of het geen gezond verstand heeft, we hebben een simulatie gebouwd, de simulatie is geweldig, en we blijven verbeteren, we blijven de simulatie opschalen.” 

En dus is het interessant dat u nu kunt zeggen: laten we een stap terug doen en nadenken over wat we aan het doen zijn. En de industrie zegt dat we gewoon gaan schalen, schalen, schalen, schalen, omdat die zwengel echt werkt. Ik bedoel, de halfgeleiderslinger van GPU's werkt echt.

YL: Er zijn zo'n vijf vragen. Dus, ik bedoel, schaalvergroting is noodzakelijk. Ik heb geen kritiek op het feit dat we moeten schalen. We moeten schalen. Die neurale netwerken worden beter naarmate ze groter worden. Het lijdt geen twijfel dat we moeten schalen. En degenen die een bepaald niveau van gezond verstand hebben, zullen groot zijn. Daar kun je niet omheen, denk ik. Schaalvergroting is dus goed, het is noodzakelijk, maar niet voldoende. Dat is het punt dat ik maak. Het is niet alleen schaalvergroting. Dat is het eerste punt. 

Tweede punt, of theorie op de eerste plaats komt en dat soort dingen. Dus ik denk dat er concepten zijn die eerst komen, je moet een stap terug doen en zeggen, oké, we hebben deze ladder gebouwd, maar we willen naar de maan en er is geen enkele manier waarop deze ladder ons daar zal brengen. Dus wat ik hier schrijf, is dat we raketten moeten bouwen. Ik kan je niet de details geven van hoe we raketten bouwen, maar hier zijn de basisprincipes. En ik schrijf er geen theorie voor of zo, maar het wordt een raket, oké? Of een ruimtelift of wat dan ook. We hebben misschien niet alle details van alle technologie. We proberen sommige van die dingen te laten werken, zoals ik aan JEPA heb gewerkt. Gezamenlijke inbedding werkt heel goed voor beeldherkenning, maar om het te gebruiken om een ​​wereldmodel te trainen, zijn er problemen. We werken eraan, we hopen dat het gaat lukken soon, maar we kunnen daar enkele obstakels tegenkomen die we mogelijk niet kunnen overwinnen. 

Dan is er een kernidee in het artikel over redeneren, waarbij als we willen dat systemen kunnen plannen, wat je kunt zien als een eenvoudige vorm van redeneren, ze latente variabelen moeten hebben. Met andere woorden, dingen die niet worden berekend door een neuraal netwerk, maar dingen die dat wel zijn - waarvan de waarde wordt afgeleid om een ​​objectieve functie, een bepaalde kostenfunctie te minimaliseren. En dan kunt u deze kostenfunctie gebruiken om het gedrag van het systeem aan te sturen. En dit is helemaal geen nieuw idee, toch? Dit is zeer klassieke, optimale besturing waarbij de basis hiervan teruggaat tot eind jaren '50, begin jaren '60. Dus hier geen nieuwigheid claimen. Maar wat ik wil zeggen is dat dit soort gevolgtrekkingen deel moeten uitmaken van een intelligent systeem dat kan plannen, en waarvan het gedrag kan worden gespecificeerd of gecontroleerd, niet door vastgebonden gedrag, niet door imitatie, maar door een objectieve functie die drijft het gedrag - niet noodzakelijkerwijs het leren, maar het stimuleert het gedrag. Weet je, we hebben dat in onze hersenen, en elk dier heeft intrinsieke kosten of intrinsieke motivaties voor dingen. Dat drijft negen maanden oude baby's om te willen opstaan. De kosten om gelukkig te zijn als je opstaat, die term in de kostenfunctie zit vast. Maar hoe je opstaat niet, dat is leren.

yann-lecun-sept-2022-4

"Scaling is goed, het is noodzakelijk, maar niet voldoende", zegt LeCun over gigantische taalmodellen zoals de op Transformer gebaseerde programma's van de GPT-3-variant. De toegewijden van Transformer geloven: "We symboliseren alles en trainen gigantisch"modellen om discrete voorspellingen te doen, en op de een of andere manier zal hier AI uit voortkomen … maar ik denk dat er essentiële onderdelen ontbreken.”

ZDNet: Om dat punt af te ronden, lijkt een groot deel van de deep learning-gemeenschap prima om door te gaan met iets dat geen gezond verstand heeft. Het lijkt erop dat je hier een vrij duidelijk argument maakt dat het op een gegeven moment een impasse wordt. Sommige mensen zeggen dat we geen autonome auto met gezond verstand nodig hebben, omdat schaalvergroting het zal doen. Het klinkt alsof je zegt dat het niet oké is om gewoon door te gaan op dat pad?

YL: Weet je, ik denk dat het heel goed mogelijk is dat we autonome auto's van niveau vijf hebben zonder gezond verstand. Maar het probleem met deze aanpak is dat dit tijdelijk zal zijn, omdat je het helemaal uit moet werken. Dus, weet je, breng de hele wereld in kaart, bedraad allerlei specifiek hoekgevalgedrag vast, verzamel genoeg gegevens zodat je alle, soort van, vreemde situaties hebt die je op de weg kunt tegenkomen, bla, bla, bla. En mijn gok is dat je met genoeg investering en tijd er gewoon uit kunt komen. Maar uiteindelijk zal er een meer bevredigende en mogelijk betere oplossing zijn waarbij systemen betrokken zijn die de manier waarop de wereld werkt beter begrijpen, en die, weet je, een bepaald niveau heeft van wat we gezond verstand zouden noemen. Het hoeft geen gezond verstand op menselijk niveau te zijn, maar een soort kennis die het systeem kan verwerven door te kijken, maar niet door iemand te zien rijden, maar door te kijken naar dingen die bewegen en veel over de wereld te begrijpen, een basis van achtergrond op te bouwen kennis over hoe de wereld in elkaar zit, en daarbovenop kun je leren autorijden. 

Laat ik hiervan een historisch voorbeeld nemen. Klassieke computervisie was gebaseerd op een groot aantal vast bedrade, gemanipuleerde modules, waarop je een soort van dunne laag van leren zou hebben. Dus het spul dat in 2012 door AlexNet werd verslagen, had in feite een eerste fase, soort van, handgemaakte functie-extracties, zoals SIFT's [Scale-Invariant Feature Transform (SIFT), een klassieke visietechniek om opvallende objecten in een afbeelding te identificeren] en HOG [Histogram of Oriented Gradients, een andere klassieke techniek] en verschillende andere dingen. En dan de tweede laag van, een soort van, middelmatige functies op basis van feature-kernels en wat dan ook, en een soort van niet-gecontroleerde methode. En daarbovenop plaats je een ondersteunende vectormachine, of anders een relatief eenvoudige classifier. En dat was zo'n beetje de standaardpijplijn van het midden van de jaren 2000 tot 2012. En dat werd vervangen door end-to-end convolutionele netten, waar je niets van dit alles vastlegt, je hebt gewoon veel gegevens, en je traint het ding van begin tot eind, dat is de aanpak waar ik al lang voor pleitte, maar weet je, tot dan toe was het niet praktisch voor grote problemen. 

Er is een soortgelijk verhaal geweest in spraakherkenning waar, nogmaals, er een enorme hoeveelheid gedetailleerde engineering was voor hoe je de gegevens voorbewerkt, je cepstrum op massaschaal extraheert [een inverse van de Fast Fourier Transform voor signaalverwerking], en dan je hebt verborgen Markov-modellen, met een soort van vooraf ingestelde architectuur, bla, bla, bla, met een mengsel van Gaussians. En dus is het een beetje dezelfde architectuur als visie, waarbij je een handgemaakte front-end hebt, en dan een enigszins onbewaakte, getrainde, middelste laag en dan een bewaakte laag er bovenop. En nu is dat in feite weggevaagd door end-to-end neurale netwerken. Dus ik zie daar iets soortgelijks van proberen alles te leren, maar je moet de juiste vooropleiding hebben, de juiste architectuur, de juiste structuur.

yann-lecun-sept-2022-5

Het publiek van zelfrijdende auto's, startups zoals Waymo en Wayve, zijn "een beetje te optimistisch" geweest, zegt hij, door te denken dat ze er "gegevens op kunnen gooien, en je kunt vrijwel alles leren." Zelfrijdende auto's op niveau 5 van ADAS zijn mogelijk, "Maar je zult er een heel eind moeten komen" en zullen "bros" zijn zoals vroege computervisiemodellen.

ZDNet: Wat je zegt is dat sommige mensen zullen proberen te engineeren wat momenteel niet werkt met diep leren voor toepasbaarheid, laten we zeggen, in de industrie, en ze gaan iets creëren dat achterhaald is in computervisie?

YL: Rechts. En het is deels waarom mensen die werken aan autonoom rijden de afgelopen jaren een beetje te optimistisch zijn geweest, omdat, weet je, je hebt van deze, soort van generieke dingen zoals convolutionele netten en Transformers, dat je er gegevens naar kunt gooien , en het kan vrijwel alles leren. Dus je zegt: Oké, ik heb de oplossing voor dat probleem. Het eerste wat je doet is een demo bouwen waarbij de auto een paar minuten zelf rijdt zonder iemand pijn te doen. En dan realiseer je je dat er veel hoekgevallen zijn, en je probeert de curve uit te zetten van hoeveel beter ik word als ik de trainingsset verdubbel, en je realiseert je dat je daar nooit zult komen omdat er allerlei soorten hoekgevallen zijn . En je moet een auto hebben die minder dan elke 200 miljoen kilometer een dodelijk ongeval veroorzaakt, toch? Dus, wat doe je? Nou, je loopt in twee richtingen. 

De eerste richting is: hoe kan ik de hoeveelheid gegevens verminderen die mijn systeem nodig heeft om te leren? En dat is waar zelf-supervised learning om de hoek komt kijken. Veel zelfrijdende auto-outfits zijn dus erg geïnteresseerd in zelf-supervised leren, omdat dat een manier is om nog steeds gigantische hoeveelheden supervisiegegevens te gebruiken voor imitatieleren, maar betere prestaties te krijgen door vooropleiding eigenlijk. En het is nog niet helemaal uit de verf gekomen, maar dat komt wel. En dan is er nog de andere optie, die de meeste bedrijven die op dit moment verder gevorderd zijn, hebben aangenomen, namelijk, oké, we kunnen de end-to-end training doen, maar er zijn veel hoekgevallen die we kunnen' t afhandelen, dus we gaan alleen systemen ontwerpen die voor die hoekgevallen zorgen, en ze in feite als speciale gevallen behandelen, en de besturing vastzetten, en dan veel basisgedrag vastzetten om speciale situaties aan te pakken. En als je een team van ingenieurs hebt dat groot genoeg is, zou je het misschien voor elkaar krijgen. Maar het zal lang duren, en uiteindelijk zal het nog steeds een beetje broos zijn, misschien betrouwbaar genoeg om te implementeren, maar met een zekere mate van broosheid, wat, met een meer op leren gebaseerde benadering die in de toekomst zullen auto's niet hebben, omdat ze misschien een bepaald niveau van gezond verstand en begrip hebben over hoe de wereld werkt. 

Op de korte termijn zal de min of meer geconstrueerde aanpak winnen - hij wint al. Dat is de Waymo en Cruise van de wereld en Wayveen wat dan ook, dat is wat ze doen. Dan is er de zelf-gesuperviseerde leerbenadering, die de engineered benadering waarschijnlijk zal helpen om vooruitgang te boeken. Maar op de lange termijn, wat misschien te lang duurt voor die bedrijven om op te wachten, zou het waarschijnlijk een soort van meer geïntegreerd autonoom intelligent rijsysteem zijn.

ZDNet: We zeggen voorbij de beleggingshorizon van de meeste beleggers.

YL: Klopt. De vraag is dus of mensen hun geduld verliezen of zonder geld komen te zitten voordat de prestatie het gewenste niveau bereikt.

ZDNet: Is er iets interessants te zeggen over waarom je bepaalde elementen in het model hebt gekozen? Omdat u Kenneth Craik [1943,De aard van de verklaring], en u citeert Bryson en Ho [1969, Toegepaste optimale controle], en ik ben benieuwd waarom je met deze invloeden bent begonnen, als je vooral geloofde dat deze mensen het net zo goed hadden gedaan als wat ze hadden gedaan. Waarom ben je daar begonnen?

YL: Nou, ik denk zeker niet dat ze alle details hadden vastgelegd. Dus, Bryson en Ho, dit is een boek dat ik in 1987 las toen ik een postdoc was bij Geoffrey Hinton in Toronto. Maar ik kende dit vak van tevoren toen ik mijn doctoraat schreef, en legde in wezen de verbinding tussen optimale besturing en backprop. Als je echt een andere Schmidhuber zou willen zijn, zou je zeggen dat de echte uitvinders van backprop eigenlijk optimale controletheoretici Henry J. Kelley, Arthur Bryson en misschien zelfs Lev Pontryagin, een Russische theoreticus van optimale controle, waren. eind jaren '50. 

Dus ze kwamen erachter, en in feite kun je zien dat de wortel hiervan, de wiskunde daaronder, de Lagrangiaanse mechanica is. Dus je kunt teruggaan naar Euler en Lagrange, en eigenlijk een vleugje hiervan vinden in hun definitie van Lagrangiaanse klassieke mechanica. Dus, in de context van optimale controle, waren deze jongens in feite geïnteresseerd in het berekenen van rakettrajecten. Weet je, dit was het vroege ruimtetijdperk. En als je een model van de raket hebt, staat dat hier de staat van de raket op dat moment is t, en hier is de actie die ik ga ondernemen, dus, stuwkracht en actuatoren van verschillende soorten, hier is de staat van de raket op het moment t + 1.

ZDNet: Een state-action model, een waardemodel.

YL: Juist, de basis van controle. Dus nu kun je het schieten van je raket simuleren door je een reeks commando's voor te stellen, en dan heb je een kostenfunctie, namelijk de afstand van de raket tot zijn doel, een ruimtestation of wat het ook is. En dan door een soort van gradiëntafdaling, kun je erachter komen, hoe ik mijn actievolgorde kan updaten, zodat mijn raket zo dicht mogelijk bij het doel komt. En dat moet komen door signalen terug in de tijd te verspreiden. En dat is back-propagation, gradiënt back-propagation. Die signalen worden in de Lagrangiaanse mechanica geconjugeerde variabelen genoemd, maar in feite zijn het gradiënten. Dus vonden ze backprop uit, maar ze realiseerden zich niet dat dit principe gebruikt kon worden om een ​​meertraps systeem te trainen dat patroonherkenning of iets dergelijks kan doen. Dit werd niet echt gerealiseerd tot misschien eind jaren '70, begin jaren '80, en werd toen pas in het midden van de jaren '80 geïmplementeerd en aan het werk gezet. Oké, dus dit is waar backprop echt van de grond kwam, omdat mensen hier een paar regels code lieten zien waarmee je een neuraal netwerk kunt trainen, van begin tot eind, met meerdere lagen. En dat heft de beperkingen van de Perceptron op. En ja, er zijn verbindingen met optimale controle, maar dat is oké.

ZDNet: Dus dat is een lange manier om te zeggen dat deze invloeden waarmee je begon teruggingen naar backprop, en dat was belangrijk als uitgangspunt voor jou?

YL: Ja, maar ik denk dat wat mensen een beetje vergeten waren, hier was nogal wat werk aan, weet je, in de jaren '90 of zelfs de jaren '80, ook door mensen als Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] en dat soort mensen die geen neurale netwerken meer maken, maar het idee dat je neurale netwerken kunt gebruiken voor controle, en je kunt klassieke ideeën over optimale controle gebruiken. Dus dingen zoals wat modelvoorspellende controle wordt genoemd, wat nu modelvoorspellende controle wordt genoemd, dit idee dat je de uitkomst van een reeks acties kunt simuleren of voorstellen als je een goed model hebt van het systeem dat je probeert te controleren en de omgeving waarin het zich bevindt. En dan kun je in wezen door gradiëntafdaling - dit is geen leren, dit is gevolgtrekking - uitvinden wat de beste reeks acties is die mijn doel minimaliseren. Dus het gebruik van een kostenfunctie met een latente variabele voor gevolgtrekking is, denk ik, iets dat de huidige oogsten van grootschalige neurale netwerken zijn vergeten. Maar het was lange tijd een heel klassiek onderdeel van machine learning. Dus elk Bayesiaans net of grafisch model of probabilistisch grafisch model gebruikte dit type gevolgtrekking. Je hebt een model dat de afhankelijkheden tussen een aantal variabelen vastlegt, je krijgt de waarde van sommige variabelen te horen en dan moet je de meest waarschijnlijke waarde van de rest van de variabelen afleiden. Dat is het basisprincipe van gevolgtrekking in grafische modellen en Bayesiaanse netten, en dergelijke. En ik denk dat dat is waar redeneren over zou moeten gaan, redeneren en plannen.

ZDNet: Je bent een kast Bayesiaan.

YL: Ik ben een niet-probabilistische Bayesiaan. Die grap maakte ik al eerder. Ik was een paar jaar geleden eigenlijk bij NeurIPS, ik denk dat het in 2018 of 2019 was, en ik werd op video vastgelegd door een Bayesiaan die me vroeg of ik een Bayesiaan was, en ik zei: Ja, ik ben een Bayesiaan, maar ik Ik ben een niet-probabilistische Bayesiaan, een soort van op energie gebaseerde Bayesiaan, als je wilt. 

ZDNet: Dat klinkt zeker als iets van Star Trek. U zei aan het einde van dit artikel dat het jaren van hard werken zal vergen om te realiseren wat u voor ogen heeft. Vertel eens waar een deel van dat werk op dit moment uit bestaat.

YL: Dus ik leg in de krant uit hoe je de JEPA traint en bouwt. En het criterium waar ik voor pleit, is het hebben van een manier om de informatie-inhoud te maximaliseren die de representaties die worden geëxtraheerd over de invoer hebben. En dan is de tweede het minimaliseren van de voorspellingsfout. En als je een latente variabele in de voorspeller hebt waardoor de voorspeller niet-deterministisch is, moet je ook deze latente variabele regulariseren door de informatie-inhoud ervan te minimaliseren. Dus je hebt nu twee problemen, namelijk hoe je de informatie-inhoud van de output van een neuraal netwerk maximaliseert, en de andere is hoe je de informatie-inhoud van een latente variabele minimaliseert? En als je die twee dingen niet doet, zal het systeem instorten. Het zal niets interessants leren. Het zal aan alles nul energie geven, zoiets, wat geen goed model van afhankelijkheid is. Het is het probleem van instortingspreventie dat ik noem. 

En ik zeg dat van alle dingen die mensen ooit hebben gedaan, er maar twee categorieën methoden zijn om instorting te voorkomen. Een daarvan is contrastieve methoden, en de andere is die geregulariseerde methoden. Dus dit idee van het maximaliseren van de informatie-inhoud van de representaties van de twee inputs en het minimaliseren van de informatie-inhoud van de latente variabele, dat behoort tot geregulariseerde methoden. Maar veel van het werk in die gezamenlijke inbeddingsarchitecturen maakt gebruik van contrastieve methoden. Sterker nog, ze zijn op dit moment waarschijnlijk het populairst. De vraag is dus hoe je informatie-inhoud precies meet op een manier die je kunt optimaliseren of minimaliseren? En dat is waar dingen ingewikkeld worden omdat we niet weten hoe we informatie-inhoud moeten meten. We kunnen het benaderen, we kunnen het aan een bovengrens stellen, we kunnen dat soort dingen doen. Maar ze meten eigenlijk niet de informatie-inhoud, die eigenlijk tot op zekere hoogte niet eens goed gedefinieerd is.

ZDNet: Het is niet de wet van Shannon? Het is geen informatietheorie? Je hebt een bepaalde hoeveelheid entropie, goede entropie en slechte entropie, en de goede entropie is een symboolsysteem dat werkt, slechte entropie is ruis. Is het niet allemaal opgelost door Shannon?

YL: Je hebt gelijk, maar daar zit een grote fout achter. Je hebt gelijk in die zin dat als er data op je afkomt en je de data op de een of andere manier kunt kwantificeren in discrete symbolen, en dan meet je de waarschijnlijkheid van elk van die symbolen, dan is de maximale hoeveelheid informatie die door die symbolen wordt gedragen de som over de mogelijke symbolen van Pi logt Pi, Rechtsaf? Waar Pi is de kans op symbool i - dat is de Shannon-entropie. [De wet van Shannon wordt gewoonlijk geformuleerd als H = – ∑ pi log pi.]

Hier is echter het probleem: Wat is? Pi? Het is gemakkelijk als het aantal symbolen klein is en de symbolen onafhankelijk van elkaar worden getekend. Als er veel symbolen en afhankelijkheden zijn, is het erg moeilijk. Dus als je een reeks bits hebt en je neemt aan dat de bits onafhankelijk van elkaar zijn en de kans gelijk is tussen één en nul of wat dan ook, dan kun je eenvoudig de entropie meten, geen probleem. Maar als de dingen die naar je toe komen hoogdimensionale vectoren zijn, zoals, je weet wel, dataframes, of iets dergelijks, wat is Pi? Wat is de verdeling? Eerst moet je die ruimte kwantiseren, wat een hoogdimensionale, continue ruimte is. Je hebt geen idee hoe je dit goed moet kwantificeren. Je kunt k-means enz. gebruiken. Dit is wat mensen doen als ze videocompressie en beeldcompressie toepassen. Maar het is slechts een benadering. En dan moet je aannames doen over onafhankelijkheid. Het is dus duidelijk dat in een video opeenvolgende frames niet onafhankelijk zijn. Er zijn afhankelijkheden, en dat frame kan afhangen van een ander frame dat je een uur geleden zag, wat een foto van hetzelfde was. Dus, weet je, je kunt niet meten Pi. Meten Pi, moet je een machine learning-systeem hebben dat leert voorspellen. En zo ben je weer terug bij het vorige probleem. U kunt dus in wezen alleen de mate van informatie benaderen. 

yann-lecun-sept-2022-6

“De vraag is hoe je informatie-inhoud precies meet op een manier die je kunt optimaliseren of minimaliseren?” zegt LeCun. "En dat is waar dingen ingewikkeld worden omdat we niet weten hoe we informatie-inhoud moeten meten." Het beste dat tot nu toe kan worden gedaan, is een proxy vinden die "goed genoeg is voor de taak die we willen".

Laat ik een meer concreet voorbeeld nemen. Een van de algoritmen waarmee we hebben gespeeld, en waarover ik in het stuk heb gesproken, is iets dat VICReg heet, variantie-invariantie-covariantie-regularisatie. Het staat in een apart artikel dat is gepubliceerd op het ICLR, en het is op arXiv . gezet ongeveer een jaar eerder, 2021. En het idee daar is om informatie te maximaliseren. En het idee kwam eigenlijk uit een eerder artikel van mijn groep genaamd Barlow-tweeling. Je maximaliseert de informatie-inhoud van een vector die uit een neuraal net komt door in feite aan te nemen dat de enige afhankelijkheid tussen variabelen correlatie is, lineaire afhankelijkheid. Dus, als je aanneemt dat de enige afhankelijkheid die mogelijk is tussen paren variabelen, of tussen variabelen in je systeem, correlaties zijn tussen paren van kostbaarheden, wat de extreem ruwe benadering is, dan kun je de informatie-inhoud die uit je systeem komt maximaliseren door ervoor te zorgen dat alle variabelen een variantie hebben die niet nul is - laten we zeggen, variantie één, het maakt niet uit wat het is - en ze vervolgens terug te correleren, hetzelfde proces dat whitening wordt genoemd, is ook niet nieuw. Het probleem hiermee is dat je heel goed extreem complexe afhankelijkheden kunt hebben tussen groepen variabelen of zelfs alleen paren van variabelen die geen lineaire afhankelijkheden zijn, en ze verschijnen niet in correlaties. Dus, bijvoorbeeld, als je twee variabelen hebt, en alle punten van die twee variabelen liggen in een soort spiraal, dan is er een zeer sterke afhankelijkheid tussen die twee variabelen, toch? Maar in feite, als je de correlatie tussen die twee variabelen berekent, zijn ze niet gecorreleerd. Dus, hier is een voorbeeld waarbij de informatie-inhoud van deze twee variabelen eigenlijk heel klein is, het is maar één grootheid omdat het jouw positie in de spiraal is. Ze zijn gedecorreleerd, dus je denkt dat er veel informatie uit die twee variabelen komt, terwijl dat in feite niet zo is, je hebt alleen, je weet wel, je kunt in wezen een van de variabelen van de andere voorspellen. Dat toont dus aan dat we slechts zeer benaderende manieren hebben om de informatie-inhoud te meten.

ZDNet: En dat is dus een van de dingen waar je nu mee aan de slag moet? Dit is de grotere vraag: hoe weten we wanneer we informatie-inhoud maximaliseren en minimaliseren?

YL:  Of de proxy die we hiervoor gebruiken goed genoeg is voor de taak die we willen. In feite doen we dit de hele tijd in machine learning. De kostenfuncties die we minimaliseren, zijn nooit degene die we eigenlijk willen minimaliseren. Dus je wilt bijvoorbeeld classificeren, oké? De kostenfunctie die u wilt minimaliseren wanneer u een classifier traint, is het aantal fouten dat de classifier maakt. Maar dat is een niet-differentieerbare, vreselijke kostenfunctie die je niet kunt minimaliseren omdat je weet dat je de gewichten van je neurale net gaat veranderen, er zal niets veranderen totdat een van die monsters zijn beslissing omdraaide, en dan een sprong in de fout, positief of negatief.

ZDNet: Dus je hebt een proxy, wat een objectieve functie is waarvan je zeker kunt zeggen dat we zeker gradiënten van dit ding kunnen vloeien.

YL: Klopt. Dus mensen gebruiken dit cross-entropieverlies, of SOFTMAX, je hebt er verschillende namen voor, maar het is hetzelfde. En het is in feite een soepele benadering van het aantal fouten dat het systeem maakt, waarbij het afvlakken wordt gedaan door in feite rekening te houden met de score die het systeem aan elk van de categorieën geeft.

ZDNet: Is er iets dat we niet hebben gedekt dat u graag zou willen dekken?

YL: Het benadrukt waarschijnlijk de belangrijkste punten. Ik denk dat AI-systemen moeten kunnen redeneren, en het proces waarvoor ik pleit, is het minimaliseren van een doelstelling met betrekking tot een latente variabele. Daardoor kunnen systemen plannen en redeneren. Ik denk dat we het probabilistische raamwerk moeten verlaten omdat het onhandelbaar is als we dingen willen doen zoals afhankelijkheden vastleggen tussen hoogdimensionale, continue variabelen. En ik pleit ervoor om generatieve modellen te verlaten, omdat het systeem te veel middelen zal moeten besteden aan het voorspellen van dingen die te moeilijk te voorspellen zijn en misschien te veel middelen verbruiken. En dat is het zo'n beetje. Dat zijn de belangrijkste boodschappen, zo u wilt. En dan de algehele architectuur. Dan zijn er die speculaties over de aard van bewustzijn en de rol van de configurator, maar dit is echt speculatie.

ZDNet: Daar komen we de volgende keer op terug. Ik wilde je vragen, hoe benchmark je dit ding? Maar ik neem aan dat je nu een beetje verder bent van benchmarking?

YL: Niet per se zo ver in, soort van, vereenvoudigde versies. Je kunt doen wat iedereen doet op het gebied van controle- of versterkingsleren, dat wil zeggen, je traint het ding om Atari-spellen te spelen of iets dergelijks of een ander spel dat enige onzekerheid bevat.

ZDNet: Bedankt voor je tijd, Yann.

bron