Metas AI-guru LeCun: De fleste af nutidens AI-tilgange vil aldrig føre til ægte intelligens

yann-lecun-sept-2022-1

"Jeg tror, ​​at AI-systemer skal kunne ræsonnere," siger Yann LeCun, Metas chef AI-forsker. Nutidens populære AI-tilgange som Transformers, hvoraf mange bygger på hans eget banebrydende arbejde på området, vil ikke være tilstrækkelige. "Du er nødt til at tage et skridt tilbage og sige: Okay, vi byggede denne stige, men vi vil gerne til månen, og der er ingen måde, denne stige vil få os derhen," siger LeCun.

Yann LeCun, chef AI-forsker of Meta Properties, ejer af Facebook, Instagram og WhatsApp, vil sandsynligvis sætte kryds ved en masse mennesker inden for sit felt. 

Med opslaget i juni af et tænkestykke på Open Review-serveren, LeCun tilbød et bredt overblik over en tilgang, som han mener lover for at opnå intelligens på menneskeligt niveau i maskiner. 

Underforstået, hvis ikke artikuleret i papiret, er påstanden om, at de fleste af nutidens store projekter inden for AI aldrig vil være i stand til at nå dette mål på menneskeligt niveau.

I en diskussion i denne måned med ZDNet via Zoom gjorde LeCun det klart, at han med stor skepsis ser på mange af de mest succesrige forskningsmuligheder inden for deep learning i øjeblikket.

"Jeg tror, ​​de er nødvendige, men ikke tilstrækkelige," fortalte Turing Award-vinderen ZDNet af sine jævnaldrendes sysler. 

Disse omfatter store sprogmodeller såsom den transformer-baserede GPT-3 og deres lignende. Som LeCun karakteriserer det, tror Transformer-tilhængerne, "Vi symboliserer alt og træner gigantiskmodeller til at lave diskrete forudsigelser, og på en eller anden måde vil AI komme ud af dette."

"De tager ikke fejl," siger han, "i den forstand, at det kan være en del af et fremtidigt intelligent system, men jeg tror, ​​det mangler væsentlige dele."

Også: Metas AI-lyskilde LeCun udforsker dyb lærings energigrænse

Det er en opsigtsvækkende kritik af, hvad der ser ud til at virke, fra den lærde, der perfektionerede brugen af ​​foldede neurale netværk, en praktisk teknik, der har været utrolig produktiv i programmer for dyb læring. 

LeCun ser fejl og begrænsninger i mange andre meget succesrige områder af disciplinen. 

Forstærkende læring vil heller aldrig være nok, fastholder han. Forskere som David Silver fra DeepMind, der udviklede AlphaZero-programmet, der mestrede skak, Shogi og Go, fokuserer på programmer, der er "meget handlingsbaserede," bemærker LeCun, men "det meste af den læring, vi gør, gør vi ikke gør det ved faktisk at tage handlinger, vi gør det ved at observere." 

Lecun, 62, ud fra et perspektiv af årtiers præstationer, udtrykker ikke desto mindre, at det haster med at konfrontere, hvad han mener er de blinde gyder, som mange måske haster mod, og at forsøge at lokke sit felt i den retning, han mener, tingene burde gå. 

"Vi ser mange påstande om, hvad vi skal gøre for at skubbe fremad mod AI på menneskeligt niveau," siger han. "Og der er ideer, som jeg synes er forkerte."

"Vi er ikke nået dertil, hvor vores intelligente maskiner har lige så meget sund fornuft som en kat," bemærker Lecun. "Så hvorfor starter vi ikke der?" 

Han har opgivet sin tidligere tro på at bruge generative netværk i ting som at forudsige det næste billede i en video. "Det har været en fuldstændig fiasko," siger han. 

LeCun fordømmer dem, han kalder de "religiøse sandsynlighedsforskere", som "tror, ​​at sandsynlighedsteori er den eneste ramme, du kan bruge til at forklare maskinlæring." 

Den rent statistiske tilgang er uoverskuelig, siger han. “Det er for meget at forlange, at en verdensmodel er fuldstændig sandsynlighedsorienteret; vi ved ikke, hvordan vi gør det."

Ikke kun akademikerne, men industriel AI har brug for en dyb nytænkning, hævder LeCun. Den selvkørende bilmængde, startups som Wayve, har været "lidt for optimistiske," siger han, ved at tro, at de kunne "kaste data på" store neurale netværk "og du kan lære stort set alt."

"Du ved, jeg tror, ​​det er fuldt ud muligt, at vi vil have niveau-fem autonome biler uden sund fornuft," siger han med henvisning til "ADAS," avanceret førerassistentsystem vilkår for selvkørende, "men du bliver nødt til at konstruere fanden ud af det."

Sådan overkonstrueret selvkørende teknologi vil være noget så knirkende og skørt som alle de computervisionsprogrammer, der blev gjort forældede af dyb læring, mener han.

"I sidste ende vil der være en mere tilfredsstillende og muligvis bedre løsning, der involverer systemer, der gør et bedre stykke arbejde med at forstå, hvordan verden fungerer."

Undervejs tilbyder LeCun nogle visne synspunkter fra sine største kritikere, såsom NYU-professor Gary Marcus - "han har aldrig bidraget med noget til AI" - og Jürgen Schmidhuber, meddirektør for Dalle Molle Institut for Kunstig Intelligensforskning - "det er meget let at lave flagplantning."

Ud over kritikken er den vigtigere pointe fra LeCun, at visse grundlæggende problemer står over for hele AI, især hvordan man måler information.

"Du er nødt til at tage et skridt tilbage og sige: Okay, vi byggede denne stige, men vi vil gerne til månen, og der er ingen måde, denne stige vil bringe os derhen," siger LeCun om sit ønske om at få en nytænkning. af grundlæggende begreber. "Dybest set er det, jeg skriver her, at vi skal bygge raketter, jeg kan ikke give dig detaljerne om, hvordan vi bygger raketter, men her er de grundlæggende principper."

Papiret, og LeCuns tanker i interviewet, kan bedre forstås ved at læse LeCuns interview tidligere på året med ZDNet hvor han argumenterer for energibaseret selvovervåget læring som en vej frem til dyb læring. Disse refleksioner giver en fornemmelse af kernetilgangen til det, han håber at bygge som et alternativ til de ting, han hævder, ikke vil nå til målstregen. 

Det følgende er en let redigeret udskrift af interviewet.

ZDNet: Emnet for vores chat er dette papir, "En vej mod autonom maskinintelligens," af hvilken version 0.9.2 er den eksisterende version, ja?

Yann LeCun: Ja, jeg betragter dette som et arbejdsdokument. Så jeg lagde det op på Open Review, og ventede på, at folk kom med kommentarer og forslag, måske yderligere referencer, og så producerer jeg en revideret version. 

ZDNet: Jeg kan se, at Juergen Schmidhuber allerede har tilføjet nogle kommentarer til Open Review.

YL: Nå, ja, det gør han altid. Jeg citerer et af hans papirer der i mit papir. Jeg tror, ​​at de argumenter, han fremførte på sociale netværk om, at han dybest set opfandt alt dette i 1991, som han har gjort i andre sager, bare ikke er tilfældet. Jeg mener, det er meget nemt at gøreflag-plantning, og for, på en måde, at skrive en idé uden nogen eksperimenter, uden nogen teori, bare foreslå, at du kunne gøre det på denne måde. Men du ved, der er stor forskel på bare at have ideen og så få den til at arbejde på et legetøjsproblem og så få den til at arbejde på et reelt problem og så lave en teori, der viser hvorfor det virker, og så indsætte det. Der er en hel kæde, og hans idé om videnskabelig æren er, at det er den allerførste person, der bare, sådan set, du ved, havde ideen om det, der burde få al æren. Og det er latterligt. 

ZDNet: Tro ikke på alt, hvad du hører på sociale medier. 

YL: Jeg mener, hovedavisen, som han siger, jeg skal citere, har ikke nogen af ​​de hovedideer, som jeg taler om i avisen. Det har han også gjort med GAN'er og andre ting, hvilket ikke viste sig at være sandt. Det er nemt at lave flagplantning, det er meget sværere at yde et bidrag. Og forresten, i denne særlige artikel, sagde jeg eksplicit, at dette ikke er en videnskabelig artikel i den sædvanlige betydning af udtrykket. Det er mere et holdningspapir om, hvor denne ting skal gå hen. Og der er et par ideer der, som måske er nye, men de fleste af dem er ikke. Jeg hævder i bund og grund ikke prioritet på det meste af det, jeg skrev i det papir.

yann-lecun-sept-2022-2

Forstærkende læring vil heller aldrig være nok, fastholder LeCun. Forskere som David Silver fra DeepMind, der udviklede AlphaZero-programmet, der mestrede skak, Shogi og Go, er "meget handlingsbaserede," bemærker LeCun, men "det meste af den læring, vi gør, gør vi det ikke ved faktisk at tage handlinger, vi gør det ved at observere.” 

ZDNet: Og det er måske et godt sted at starte, for jeg er nysgerrig efter, hvorfor du fulgte denne vej nu? Hvad fik dig til at tænke på det her? Hvorfor ville du skrive dette?

YL: Nå, så, jeg har tænkt på det her i meget lang tid, om en vej mod intelligens eller læring og evner på menneske- eller dyreniveau. Og i mine foredrag har jeg været ret højlydt om hele denne ting, at både overvåget læring og forstærkningslæring er utilstrækkelige til at efterligne den form for læring, vi observerer hos dyr og mennesker. Jeg har gjort det i syv eller otte år. Så det er ikke nyere. Jeg havde en keynote på NeurIPS for mange år siden, hvor jeg gjorde det i det væsentlige, og forskellige foredrag, der er optagelser. Hvorfor skrive et papir nu? Jeg er kommet til det punkt - [Google Brain researcher] Geoff Hinton havde gjort noget lignende - jeg mener bestemt, ham mere end mig, vi ser tiden løbe ud. Vi er ikke unge.

ZDNet: Sixty er den nye halvtredser. 

YL: Det er sandt, men pointen er, at vi ser mange påstande om, hvad vi skal gøre for at skubbe fremad mod AI på menneskelig niveau. Og der er ideer, som jeg synes er forkerte. Så en idé er, Åh, vi skulle bare tilføje symbolsk ræsonnement oven på neurale net. Og jeg ved ikke, hvordan man gør dette. Så måske, hvad jeg forklarede i papiret, kunne være en tilgang, der ville gøre det samme uden eksplicit symbolmanipulation. Dette er den slags traditionelt Gary Marcuses af verden. Gary Marcus er ikke en AI-person, forresten, han er en psykolog. Han har aldrig bidraget med noget til AI. Han har gjort et rigtig godt stykke arbejde inden for eksperimentel psykologi, men han har aldrig skrevet et peer-reviewet papir om AI. Så der er de mennesker. 

Der er [DeepMind principforskeren] David Silvers fra verden, der siger, du ved, belønning er nok, dybest set handler det om forstærkningslæring, vi skal bare gøre det lidt mere effektivt, okay? Og jeg tror ikke, de tager fejl, men jeg tror, ​​at de nødvendige skridt til at gøre forstærkningslæring mere effektiv, dybest set ville henvise forstærkningslæring til en slags kirsebær på kagen. Og den vigtigste manglende del er at lære, hvordan verden fungerer, for det meste ved observation uden handling. Forstærkningslæring er meget handlingsbaseret, du lærer ting om verden ved at handle og se resultaterne.

ZDNet: Og det er belønningsfokuseret.

YL: Det er belønningsfokuseret, og det er også handlingsfokuseret. Så du skal handle i verden for at kunne lære noget om verden. Og hovedpåstanden, jeg fremsætter i papiret om selvovervåget læring, er, at det meste af den læring, vi gør, gør det ikke ved faktisk at handle, vi gør det ved at observere. Og det er meget uortodoks, både for forstærkningslærende mennesker, især, men også for mange psykologer og kognitive videnskabsmænd, der tror, ​​at handling er — jeg siger ikke, at handling ikke er afgørende, det is vigtig. Men jeg tror, ​​at hovedparten af ​​det, vi lærer, mest handler om verdens struktur, og det involverer selvfølgelig interaktion og handling og leg, og sådan noget, men meget af det er observationelt.

ZDNet: Du vil også nå at sætte kryds ved Transformer-folket, de sprog-første mennesker, på samme tid. Hvordan kan du bygge dette uden sprog først? Du kan nå at sætte kryds ved en masse mennesker. 

YL: Ja, det er jeg vant til. Så, ja, der er de sprog-første mennesker, som siger, du ved, intelligens handler om sprog, substratet for intelligens er sprog, bla, bla, bla. Men det afviser på en måde dyrs intelligens. Du ved, vi er ikke til det punkt, hvor vores intelligente maskiner har så meget sund fornuft som en kat. Så hvorfor starter vi ikke der? Hvad er det, der tillader en kat at pågribe den omgivende verden, gøre ret smarte ting og planlægge og sådan noget, og hunde endnu bedre? 

Så er der alle de mennesker, der siger: Åh, intelligens er en social ting, ikke? Vi er intelligente, fordi vi taler med hinanden, og vi udveksler information, og bla, bla, bla. Der er alle slags ikke-sociale arter, der aldrig møder deres forældre, som er meget smarte, som blæksprutter eller orangutanger.Jeg mener, de [orangutanger] er bestemt opdraget af deres mor, men de er ikke sociale dyr. 

Men den anden kategori af mennesker, som jeg måske krydser af, er folk, der siger, at skalering er nok. Så grundlæggende bruger vi bare gigantiske Transformers, vi træner dem på multimodale data, der involverer, du ved, video, tekst, bla, bla, bla. Vi forstener på en mådealt, og tokenize alt, og derefter træne gigantiskmodeller til at lave diskrete forudsigelser, dybest set, og på en eller anden måde vil AI komme ud af dette. De tager ikke fejl, i den forstand, at det kan være en del af et fremtidigt intelligent system. Men jeg synes, den mangler væsentlige dele. 

Der er en anden kategori af mennesker, jeg vil sætte kryds ved med dette papir. Og det er probabilisterne, de religiøse probabilister. Så de mennesker, der tror, ​​at sandsynlighedsteori er den eneste ramme, du kan bruge til at forklare maskinlæring. Og som jeg forsøgte at forklare i stykket, er det dybest set for meget at forlange, at en verdensmodel er fuldstændig sandsynlig. Vi ved ikke, hvordan man gør det. Der er den beregningsmæssige vanskelighed. Så jeg foreslår at droppe hele denne idé. Og selvfølgelig, du ved, dette er en enorm søjle for ikke kun maskinlæring, men al statistik, som hævder at være den normale formalisme for maskinlæring. 

Den anden ting - 

ZDNet: Du er i gang...

YL: — er det, man kalder generative modeller. Så ideen om, at du kan lære at forudsige, og du kan måske lære meget om verden ved forudsigelse. Så jeg giver dig et stykke video, og jeg beder systemet om at forudsige, hvad der derefter sker i videoen. Og jeg kan bede dig om at forudsige faktiske videoframes med alle detaljerne. Men det, jeg argumenterer om i avisen, er, at det faktisk er for meget at forlange og for kompliceret. Og det er noget, jeg har ændret mening om. Indtil for omkring to år siden var jeg fortaler for det, jeg kalder latent variabel generative modeller, modeller, der forudsiger, hvad der skal ske næste gang eller den information, der mangler, muligvis ved hjælp af en latent variabel, hvis forudsigelsen ikke kan deterministisk. Og jeg har opgivet det her. Og grunden til, at jeg har opgivet dette, er baseret på empiriske resultater, hvor folk har forsøgt at anvende, en slags forudsigelses- eller rekonstruktionsbaseret træning af den type, der bruges i BERTog store sprogmodeller, de har forsøgt at anvende dette på billeder, og det har været en fuldstændig fiasko. Og grunden til, at det er en fuldstændig fiasko, er igen på grund af begrænsningerne i sandsynlighedsmodeller, hvor det er relativt nemt at forudsige diskrete tokens som ord, fordi vi kan beregne sandsynlighedsfordelingen over alle ord i ordbogen. Det er nemt. Men hvis vi beder systemet om at producere sandsynlighedsfordelingen over alle mulige videoframes, har vi ingen idé om, hvordan vi skal parametrisere det, eller vi har en ide om, hvordan vi parametriserer det, men vi ved ikke, hvordan vi skal normalisere det. Det rammer et uoverskueligt matematisk problem, som vi ikke ved, hvordan vi skal løse. 

yann-lecun-sept-2022-3

"Vi er ikke nået dertil, hvor vores intelligente maskiner har lige så meget sund fornuft som en kat," bemærker Lecun. "Så hvorfor starter vi ikke der? Hvad er det, der gør det muligt for en kat at pågribe den omgivende verden, gøre ret smarte ting og planlægge og sådan noget, og hunde endnu bedre?

Så det er derfor, jeg siger, lad os opgive sandsynlighedsteorien eller rammen for den slags ting, den svagere, energibaserede modeller. Jeg har også slået til lyd for dette i årtier, så det er ikke noget nyt. Men samtidig opgive ideen om generative modeller, fordi der er mange ting i verden, som ikke er forståelige og ikke forudsigelige. Hvis du er ingeniør, kalder du det støj. Hvis du er fysiker, kalder du det varme. Og hvis du er en maskinlæringsperson, kalder du det, du ved, irrelevante detaljer eller hvad som helst.

Så det eksempel, jeg brugte i avisen, eller jeg har brugt i foredrag, er, du vil have et verdensforudsigelsessystem, der ville hjælpe i en selvkørende bil, ikke? Den vil på forhånd være i stand til at forudsige banerne for alle de andre biler, hvad der skal ske med andre objekter, der kan bevæge sig, fodgængere, cykler, et barn, der løber efter en fodbold, sådan noget. Altså alle mulige ting om verden. Men der grænser op til vejen, kan der være træer, og der er vind i dag, så bladene bevæger sig i vinden, og bag træerne er der en dam, og der er krusninger i dammen. Og det er i det væsentlige stort set uforudsigelige fænomener. Og du ønsker ikke, at din model skal bruge en betydelig mængde ressourcer på at forudsige de ting, der både er svære at forudsige og irrelevante. Så det er derfor, jeg advokerer for den fælles indlejringsarkitektur, de ting, hvor den variabel, du forsøger at modellere, du ikke forsøger at forudsige den, du forsøger at modellere den, men den kører gennem en encoder, og denne encoder kan eliminere en masse detaljer om inputtet, der er irrelevante eller for komplicerede - dybest set svarende til støj.

ZDNet: Vi diskuterede tidligere i år energibaserede modeller, JEPA og H-JEPA. Min fornemmelse, hvis jeg forstår dig rigtigt, er, at du finder det punkt med lav energi, hvor disse to forudsigelser af X- og Y-indlejringer er mest ens, hvilket betyder, at hvis der er en due i et træ i et, og der er noget i baggrund af en scene, er det måske ikke de væsentlige punkter, der gør disse indlejringer tæt på hinanden.

YL: Ret. Så JEPA-arkitekturen forsøger faktisk at finde en afvejning, et kompromis, mellem at udtrække repræsentationer, der er maksimalt informative om input, men også forudsigelige fra hinanden med et vist niveau af nøjagtighed eller pålidelighed. Den finder en afvejning. Så hvis den har valget mellem at bruge en enorm mængde ressourcer, herunder detaljerne om bladenes bevægelse, og derefter modellere dynamikken, der vil afgøre, hvordan bladene bevæger sig et sekund fra nu, eller bare at tabe det på gulvet ved at bare dybest set kører Y-variablen gennem en prædiktor, der eliminerer alle disse detaljer, vil den sandsynligvis bare eliminere den, fordi den bare er for svær at modellere og fange.

ZDNet: En ting, der er overrasket, er, at du havde været en stor fortaler for at sige "Det virker, vi finder senere ud af teorien om termodynamik for at forklare det." Her har du taget en tilgang til: "Jeg ved ikke, hvordan vi nødvendigvis skal løse dette, men jeg vil gerne fremlægge nogle ideer til at tænke over det," og måske endda nærme dig en teori eller en hypotese, kl. mindst. Det er interessant, fordi der er mange, der bruger mange penge på at arbejde på bilen, som kan se fodgængeren, uanset om bilen har sund fornuft. Og jeg forestiller mig, at nogle af de mennesker vil være, ikke afkrydset, men de vil sige, "Det er fint, vi er ligeglade med, om det ikke har sund fornuft, vi har bygget en simulering, simuleringen er fantastisk, og vi vil blive ved med at forbedre os, vi vil blive ved med at skalere simuleringen." 

Og så det er interessant, at du nu er i stand til at sige, lad os tage et skridt tilbage og tænke over, hvad vi laver. Og industrien siger, at vi bare skal skalere, skalere, skalere, skalere, for det krumtap virker virkelig. Jeg mener, halvlederhåndsvinget på GPU'er virker virkelig.

YL: Der er ligesom fem spørgsmål der. Så jeg mener, skalering er nødvendig. Jeg kritiserer ikke, at vi skal skalere. Vi bør skalere. Disse neurale net bliver bedre, efterhånden som de bliver større. Der er ingen tvivl om, at vi skal skalere. Og dem, der vil have en vis grad af sund fornuft, vil være store. Det er der ingen vej udenom, tror jeg. Så skalering er godt, det er nødvendigt, men ikke tilstrækkeligt. Det er den pointe, jeg gør. Det er ikke kun skalering. Det er det første punkt. 

Andet punkt, om teori kommer først og sådan noget. Så jeg tror, ​​der er begreber, der kommer først, at du skal tage et skridt tilbage og sige, okay, vi byggede denne stige, men vi vil gerne til månen, og der er ingen måde, denne stige vil få os derhen. Så dybest set er det, jeg skriver her, at vi skal bygge raketter. Jeg kan ikke give dig detaljerne om, hvordan vi bygger raketter, men her er de grundlæggende principper. Og jeg skriver ikke en teori for det eller noget, men det bliver en raket, okay? Eller en rumelevator eller hvad som helst. Vi har måske ikke alle detaljerne i al teknologien. Vi forsøger at få nogle af de ting til at fungere, som om jeg har arbejdet på JEPA. Joint indlejring fungerer rigtig godt til billedgenkendelse, men at bruge det til at træne en verdensmodel, er der vanskeligheder. Vi arbejder på det, vi håber, vi får det til at fungere soon, men vi støder måske på nogle forhindringer der, som vi ikke kan overvinde, evt. 

Så er der en nøgletanke i papiret om ræsonnement, hvor hvis vi vil have systemer til at kunne planlægge, som man kan tænke på som en simpel form for ræsonnement, skal de have latente variabler. Med andre ord, ting, der ikke er beregnet af noget neuralt net, men ting, der er - hvis værdi udledes for at minimere en objektiv funktion, en eller anden omkostningsfunktion. Og så kan du bruge denne omkostningsfunktion til at drive systemets adfærd. Og det er slet ikke en ny idé, vel? Dette er meget klassisk, optimal kontrol, hvor grundlaget for dette går tilbage til slutningen af ​​50'erne, begyndelsen af ​​60'erne. Så hævder ikke nogen nyhed her. Men det, jeg siger, er, at denne type slutninger skal være en del af et intelligent system, der er i stand til at planlægge, og hvis adfærd kan specificeres eller kontrolleres ikke af en fastkablet adfærd, ikke ved imiteret tilbøjelighed, men af ​​en objektiv funktion, der driver adfærden - driver ikke nødvendigvis læring, men det driver adfærd. Du ved, vi har det i vores hjerne, og hvert dyr har iboende omkostninger eller iboende motivationer for ting. Det får ni måneder gamle babyer til at ville rejse sig. Omkostningerne ved at være glad, når du står op, det udtryk i omkostningsfunktionen er fastkablet. Men hvordan du står op er ikke, det er læring.

yann-lecun-sept-2022-4

"Skalering er godt, det er nødvendigt, men ikke tilstrækkeligt," siger LeCun om gigantiske sprogmodeller såsom de Transformer-baserede programmer af GPT-3-varianten. Transformer-tilhængerne tror, ​​"Vi tokeniserer alt og træner gigantiskmodeller til at lave diskrete forudsigelser, og på en eller anden måde vil AI komme ud af dette ... men jeg synes, det mangler væsentlige dele."

ZDNet: Bare for at runde det punkt ud, synes meget af deep learning-fællesskabet fint at gå videre med noget, der ikke har sund fornuft. Det lader til, at du her fremfører et ret klart argument for, at det på et tidspunkt bliver en blindgyde. Nogle mennesker siger, at vi ikke har brug for en autonom bil med sund fornuft, fordi skalering vil gøre det. Det lyder som om du siger, at det ikke er okay bare at fortsætte ad den vej?

YL: Du ved, jeg tror, ​​det er fuldt ud muligt, at vi vil have niveau-fem autonome biler uden sund fornuft. Men problemet med denne tilgang, dette vil være midlertidigt, fordi du bliver nødt til at lave helvede ud af det. Så du ved, kortlæg hele verden, fastgør alle former for specifik adfærd i hjørnet, indsaml nok data til, at du har alle de slags mærkelige situationer, du kan støde på på vejene, bla, bla, bla. Og mit gæt er, at med nok investering og tid, kan du bare lave fanden ud af det. Men i sidste ende vil der være en mere tilfredsstillende og muligvis bedre løsning, der involverer systemer, der gør et bedre stykke arbejde med at forstå, hvordan verden fungerer, og som du ved, har et niveau af det, vi ville kalde sund fornuft. Det behøver ikke at være sund fornuft på menneskeligt niveau, men en form for viden, som systemet kan tilegne sig ved at se, men ikke se nogen køre, bare se ting bevæge sig rundt og forstå en masse om verden, bygge et baggrundsgrundlag viden om, hvordan verden fungerer, hvortil du kan lære at køre bil. 

Lad mig tage et historisk eksempel på dette. Klassisk computersyn var baseret på en masse fastkablede, konstruerede moduler, oven på hvilke du på en måde ville have et tyndt lag af læring. Så de ting, der blev slået af AlexNet i 2012, havde dybest set en første fase, en slags håndlavede udtræk, som SIFT'er [Scale-Invariant Feature Transform (SIFT), en klassisk synsteknik til at identificere fremtrædende objekter i et billede] og HOG [Histogram of Oriented Gradients, en anden klassisk teknik] og forskellige andre ting. Og så det andet lag af en slags mellemniveau-funktioner baseret på feature-kerner og hvad som helst, og en eller anden form for uovervåget metode. Og så oven i dette, sætter du en understøttende vektormaskine, eller også en relativt simpel klassificering. Og det var sådan set standard-pipelinen fra midten af ​​2000'erne til 2012. Og det blev erstattet af ende-til-ende foldningsnet, hvor du ikke forbinder noget af dette, du har bare en masse data, og du træner tingene fra ende til anden, hvilket er den tilgang, jeg længe har været fortaler for, men du ved, at det indtil da ikke var praktisk til store problemer. 

Der har været en lignende historie inden for talegenkendelse, hvor der igen var en enorm mængde detaljeret teknik til, hvordan du forbehandler dataene, du udtrækker masseskala-cepstrum [en omvendt af Fast Fourier Transform til signalbehandling] og derefter du har skjulte Markov-modeller, med en slags forudindstillet arkitektur, bla, bla, bla, med blanding af gaussere. Og så er det lidt af den samme arkitektur som vision, hvor man har håndlavet front-end, og så et noget uovervåget, trænet, mellemlag og så et overvåget lag ovenpå. Og nu er det dybest set blevet udslettet af ende-til-ende neurale net. Så jeg ser noget lignende der med at prøve at lære alt, men du skal have den rigtige forudsætning, den rigtige arkitektur, den rigtige struktur.

yann-lecun-sept-2022-5

Den selvkørende bilskare, startups som Waymo og Wayve, har været "lidt for optimistiske," siger han, ved at tro, at de kunne "kaste data efter det, og du kan lære stort set alt." Selvkørende biler på niveau 5 af ADAS er mulige, "Men du bliver nødt til at lave helvede ud af det" og vil være "skøre" som tidlige computervisionsmodeller.

ZDNet: Det, du siger, er, at nogle mennesker vil forsøge at konstruere, hvad der i øjeblikket ikke fungerer med dyb læring til anvendelighed, f.eks. i industrien, og de vil begynde at skabe noget, der er det, der blev forældet i computervision?

YL: Ret. Og det er til dels grunden til, at folk, der arbejder med autonom kørsel, har været lidt for optimistiske i løbet af de sidste par år, fordi, du ved, du har sådan nogle generiske ting som foldningsnet og transformere, som du kan smide data på det. , og den kan lære stort set alt. Så du siger, okay, jeg har løsningen på det problem. Det første, du gør, er, at du bygger en demo, hvor bilen kører sig selv i et par minutter uden at skade nogen. Og så indser du, at der er mange hjørnesager, og du prøver at plotte kurven over, hvor meget bedre jeg får det, mens jeg fordobler træningssættet, og du indser, at du aldrig kommer dertil, fordi der er alle slags hjørnesager. . Og du skal have en bil, der vil forårsage en dødsulykke mindre end hver 200 millioner kilometer, ikke? Så hvad laver du? Nå, du går i to retninger. 

Den første retning er, hvordan kan jeg reducere mængden af ​​data, der er nødvendig for, at mit system kan lære? Og det er her, selv-overvåget læring kommer ind i billedet. Så mange selvkørende bil-outfits er meget interesserede i selv-overvåget læring, fordi det er en måde at stadig bruge gigantiske mængder af tilsynsdata til at efterligne læring, men få bedre ydeevne ved at fortræning, i det væsentlige. Og det er ikke helt slået ud endnu, men det bliver det. Og så er der den anden mulighed, som de fleste af de virksomheder, der er mere avancerede på dette tidspunkt, har taget til sig, som er, okay, vi kan lave den ende-til-ende uddannelse, men der er mange hjørnesager, som vi kan' t-håndtag, så vi vil kun konstruere systemer, der vil tage sig af disse hjørnesager, og i bund og grund behandle dem som specielle tilfælde, og fastkoble styringen, og derefter tilslutte en masse grundlæggende adfærd til at håndtere specielle situationer. Og hvis du har et stort nok team af ingeniører, kan du måske klare det. Men det vil tage lang tid, og i sidste ende vil det stadig være lidt skørt, måske pålideligt nok til, at du kan implementere det, men med en vis grad af skørhed, som med en mere læringsbaseret tilgang, der kan forekomme i fremtid, vil biler ikke have, fordi den måske har en vis grad af sund fornuft og forståelse for, hvordan verden fungerer. 

På kort sigt vil den, sådan set, manipulerede tilgang vinde - den vinder allerede. Det er Waymo og Cruise of the World og Wayveog hvad som helst, det er det, de gør. Så er der den selvovervågede læringstilgang, som sandsynligvis vil hjælpe den manipulerede tilgang til at gøre fremskridt. Men så, i det lange løb, som kan være for lang tid for disse virksomheder at vente på, ville det formentlig være et mere integreret autonomt intelligent køresystem.

ZDNet: Vi siger ud over investeringshorisonten for de fleste investorer.

YL: Det er rigtigt. Så spørgsmålet er, om folk vil miste tålmodigheden eller løbe tør for penge, før ydelsen når det ønskede niveau.

ZDNet: Er der noget interessant at sige om, hvorfor du valgte nogle af de elementer, du valgte i modellen? Fordi du citerer Kenneth Craik [1943,Forklaringens natur], og du citerer Bryson og Ho [1969, Anvendt optimal kontrol], og jeg er nysgerrig efter, hvorfor du startede med disse påvirkninger, hvis du især troede på, at disse mennesker havde nået det så langt, som de havde gjort. Hvorfor startede du der?

YL: Nå, jeg tror bestemt ikke, at de havde alle detaljerne fast. Så, Bryson og Ho, dette er en bog, jeg læste tilbage i 1987, da jeg var postdoc hos Geoffrey Hinton i Toronto. Men jeg kendte til denne branche på forhånd, da jeg skrev min ph.d., og skabte i det væsentlige forbindelsen mellem optimal kontrol og rygstøtte. Hvis du virkelig ville være, du ved, en anden Schmidhuber, ville du sige, at de rigtige opfindere af backprop faktisk var optimal kontrol teoretikere Henry J. Kelley, Arthur Bryson, og måske endda Lev Pontryagin, som er en russisk teoretiker af optimal kontrol tilbage i slutningen af ​​50'erne. 

Så de fandt ud af det, og faktisk kan du faktisk se roden til dette, matematikken nedenunder, er Lagrangiansk mekanik. Så du kan faktisk gå tilbage til Euler og Lagrange og finde en snert af dette i deres definition af Lagrangiansk klassisk mekanik. Så i forbindelse med optimal kontrol var det, disse fyre var interesserede i, dybest set at beregne raketbaner. Du ved, det var den tidlige rumalder. Og hvis du har en model af raketten, fortæller den dig, at her er rakettens tilstand på det tidspunkt t, og her er den handling, jeg vil tage, så, tryk og aktuatorer af forskellig art, her er tilstanden af ​​raketten på tidspunktet t + 1.

ZDNet: En stat-handlingsmodel, en værdimodel.

YL: Det er rigtigt, grundlaget for kontrol. Så nu kan du simulere nedskydningen af ​​din raket ved at forestille dig en række kommandoer, og så har du en omkostningsfunktion, som er rakettens afstand til dens mål, en rumstation eller hvad det nu er. Og så ved en form for gradientnedstigning kan du finde ud af, hvordan jeg kan opdatere min handlingssekvens, så min raket rent faktisk kommer så tæt på målet som muligt. Og det skal komme ved at udbrede signaler bagud i tiden. Og det er back-propagation, gradient back-propagation. Disse signaler, de kaldes konjugerede variabler i Lagrangiansk mekanik, men i virkeligheden er de gradienter. Så de opfandt backprop, men de var ikke klar over, at dette princip kunne bruges til at træne et flertrinssystem, der kan udføre mønstergenkendelse eller sådan noget. Dette blev ikke rigtig realiseret før måske i slutningen af ​​70'erne, begyndelsen af ​​80'erne, og derefter blev det faktisk ikke implementeret og lavet til at fungere før midten af ​​80'erne. Okay, så, det er her, backprop virkelig, på en måde, tog fart, fordi folk viste her er et par linjer kode, som du kan træne et neuralt net, ende til ende, flerlags. Og det løfter Perceptronens begrænsninger. Og ja, der er forbindelser med optimal kontrol, men det er okay.

ZDNet: Så det er en lang måde at sige, at disse påvirkninger, som du startede med, gik tilbage til backprop, og det var vigtigt som udgangspunkt for dig?

YL: Ja, men jeg tror, ​​hvad folk glemte lidt om, der var en del arbejde på dette, du ved, tilbage i 90'erne, eller endda 80'erne, inklusive af folk som Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] og folk som det, der ikke laver neurale net længere, men ideen om, at man kan bruge neurale net til kontrol, og man kan bruge klassiske ideer om optimal kontrol. Så ting som det, der kaldes model-prædiktiv kontrol, det, der nu kaldes model-prædiktiv kontrol, denne idé om, at du kan simulere eller forestille dig resultatet af en række handlinger, hvis du har en god model af det system, du prøver at kontrollere og det miljø, det er i. Og så ved gradientnedstigning, i det væsentlige - dette er ikke læring, det er slutninger - kan du finde ud af, hvad der er den bedste rækkefølge af handlinger, der vil minimere mit mål. Så brugen af ​​en omkostningsfunktion med en latent variabel til inferens er, tror jeg, noget, som nuværende afgrøder af storskala neurale net har glemt. Men det var en meget klassisk komponent i maskinlæring i lang tid. Så enhver Bayesian Net eller grafisk model eller probabilistisk grafisk model brugte denne type slutning. Du har en model, der fanger afhængighederne mellem en masse variable, du får at vide værdien af ​​nogle af variablerne, og så skal du udlede den mest sandsynlige værdi af resten af ​​variablerne. Det er det grundlæggende princip for inferens i grafiske modeller og Bayesian Nets, og den slags. Og jeg tror, ​​at det i bund og grund er det, ræsonnement skal handle om, ræsonnement og planlægning.

ZDNet: Du er en skabsbayesianer.

YL: Jeg er en ikke-sandsynlighedsorienteret Bayesianer. Jeg lavede den joke før. Jeg var faktisk hos NeurIPS for et par år siden, jeg tror det var i 2018 eller 2019, og jeg blev fanget på video af en bayesianer, der spurgte mig, om jeg var bayesianer, og jeg sagde: Ja, jeg er bayesianer, men jeg Jeg er en ikke-sandsynligvis Bayesianer, sådan en energibaseret Bayesianer, hvis du vil. 

ZDNet: Hvilket bestemt lyder som noget fra Star Trek. Du nævnte i slutningen af ​​dette papir, at det vil tage år med virkelig hårdt arbejde at realisere, hvad du forestiller dig. Fortæl mig om, hvad noget af det arbejde består af i øjeblikket.

YL: Så jeg forklarer, hvordan du træner og bygger JEPA'en i avisen. Og det kriterium, jeg går ind for, er at have en måde at maksimere det informationsindhold, som repræsentationerne, der uddrages, har om inputtet. Og så minimerer den anden forudsigelsesfejlen. Og hvis du har en latent variabel i prædiktoren, som tillader prædiktoren at være ikke-deterministisk, skal du også regulere denne latente variabel ved at minimere dens informationsindhold. Så du har to problemer nu, som er, hvordan du maksimerer informationsindholdet i outputtet fra et eller andet neuralt net, og det andet er, hvordan du minimerer informationsindholdet i en latent variabel? Og hvis du ikke gør de to ting, vil systemet bryde sammen. Det vil ikke lære noget interessant. Det vil give nul energi til alt, sådan noget, som ikke er en god model for afhængighed. Det er det sammenbrudsforebyggende problem, jeg nævner. 

Og jeg siger af alle de ting, som folk nogensinde har gjort, at der kun er to kategorier af metoder til at forhindre sammenbrud. Den ene er kontrastive metoder, og den anden er de regulariserede metoder. Så denne idé om at maksimere informationsindholdet i repræsentationerne af de to input og minimere informationsindholdet i den latente variabel, der hører til regulariserede metoder. Men meget af arbejdet i disse fælles indlejringsarkitekturer bruger kontrastive metoder. Faktisk er de nok de mest populære i øjeblikket. Så spørgsmålet er præcis, hvordan man måler informationsindhold på en måde, så man kan optimere eller minimere? Og det er her, tingene bliver komplicerede, fordi vi faktisk ikke ved, hvordan man måler informationsindhold. Vi kan tilnærme det, vi kan overgrænse det, vi kan gøre sådan noget. Men de måler faktisk ikke informationsindhold, som faktisk til en vis grad ikke engang er veldefineret.

ZDNet: Er det ikke Shannons lov? Det er ikke informationsteori? Du har en vis mængde entropi, god entropi og dårlig entropi, og den gode entropi er et symbolsystem, der virker, dårlig entropi er støj. Er det hele ikke løst af Shannon?

YL: Du har ret, men der er en stor fejl bag det. Du har ret i den forstand, at hvis du har data på vej mod dig, og du på en eller anden måde kan kvantificere dataene til adskilte symboler, og så måler du sandsynligheden for hvert af disse symboler, så er den maksimale mængde information, der bæres af disse symboler sum over de mulige symboler på Pi log Pi, ret? Hvor Pi er sandsynligheden for symbol jeg — det er Shannon-entropien. [Shannons lov er almindeligvis formuleret som H = – ∑ pi log pi.]

Her er problemet dog: Hvad er Pi? Det er nemt, når antallet af symboler er lille, og symbolerne tegnes uafhængigt af hinanden. Når der er mange symboler og afhængigheder, er det meget svært. Så hvis du har en sekvens af bit, og du antager, at bits er uafhængige af hinanden, og sandsynligheden er lig mellem en og nul eller hvad som helst, så kan du nemt måle entropien, ikke noget problem. Men hvis de ting, der kommer til dig, er højdimensionelle vektorer, som du ved, datarammer eller noget lignende, hvad er Pi? Hvad er fordelingen? Først skal du kvantificere det rum, som er et højdimensionelt, kontinuerligt rum. Du aner ikke, hvordan du kvantificerer dette korrekt. Du kan bruge k-means osv. Det er hvad folk gør når de laver videokomprimering og billedkomprimering. Men det er kun en tilnærmelse. Og så skal man lave antagelser om selvstændighed. Så det er klart, at i en video er successive frames ikke uafhængige. Der er afhængigheder, og den ramme kan afhænge af en anden ramme, du så for en time siden, som var et billede af det samme. Så du ved, du kan ikke måle Pi. At måle Pi, skal du have et maskinlæringssystem, der lærer at forudsige. Og så er du tilbage til det forrige problem. Så du kan i det væsentlige kun anslå mængden af ​​information. 

yann-lecun-sept-2022-6

"Spørgsmålet er præcis, hvordan man måler informationsindhold på en måde, så man kan optimere eller minimere?" siger LeCun. "Og det er her, tingene bliver komplicerede, fordi vi faktisk ikke ved, hvordan man måler informationsindhold." Det bedste, der kan gøres indtil videre, er at finde en proxy, der er "god nok til den opgave, vi ønsker."

Lad mig tage et mere konkret eksempel. En af de algoritmer, som vi har leget med, og jeg har talt om i stykket, er denne ting, der hedder VICReg, varians-invarians-kovarians-regularisering. Det er i et separat papir, der blev offentliggjort på ICLR, og den blev sat på arXiv omkring et år før, 2021. Og ideen dér er at maksimere informationen. Og ideen kom faktisk ud af et tidligere papir fra min gruppe kaldet Barlow tvillinger. Du maksimerer informationsindholdet i en vektor, der kommer ud af et neuralt net, ved grundlæggende at antage, at den eneste afhængighed mellem variabler er korrelation, lineær afhængighed. Så hvis du antager, at den eneste afhængighed, der er mulig mellem par af variable, eller mellem variable i dit system, er korrelationer mellem par af værdier, hvilket er den ekstremt grove tilnærmelse, så kan du maksimere informationsindholdet, der kommer ud af dit system ved at sikre, at alle variablerne har ikke-nul varians - lad os sige, varians en, det er ligegyldigt hvad det er - og derefter tilbagekorrelere dem, samme proces, der kaldes blegning, det er heller ikke nyt. Problemet med dette er, at du meget vel kan have ekstremt komplekse afhængigheder mellem enten grupper af variabler eller endda bare par af variabler, der ikke er lineære afhængigheder, og de dukker ikke op i korrelationer. Så, for eksempel, hvis du har to variable, og alle punkterne i de to variable er på linje i en form for spiral, er der en meget stærk afhængighed mellem de to variable, ikke? Men faktisk, hvis du beregner korrelationen mellem disse to variable, er de ikke korrelerede. Så her er et eksempel, hvor informationsindholdet i disse to variable faktisk er meget lille, det er kun én størrelse, fordi det er din position i spiralen. De er de-korrelerede, så du tror, ​​du har en masse information, der kommer ud af de to variable, mens du faktisk ikke gør det, du ved kun, du kan forudsige en af ​​variablerne fra den anden, i det væsentlige. Så det viser, at vi kun har meget omtrentlige måder at måle informationsindhold på.

ZDNet: Og det er så en af ​​de ting, du skal arbejde på nu med det her? Dette er det større spørgsmål om, hvordan ved vi, hvornår vi maksimerer og minimerer informationsindhold?

YL:  Eller om den proxy, vi bruger til dette, er god nok til den opgave, vi ønsker. Faktisk gør vi dette hele tiden i maskinlæring. De omkostningsfunktioner, vi minimerer, er aldrig dem, vi faktisk ønsker at minimere. Så du vil for eksempel lave klassifikation, okay? Den omkostningsfunktion, du ønsker at minimere, når du træner en klassifikator, er antallet af fejl, klassificereren laver. Men det er en ikke-differentierbar, forfærdelig omkostningsfunktion, som du ikke kan minimere, fordi du ved, at du vil ændre vægten af ​​dit neurale net, intet vil ændre sig, før en af ​​disse prøver vendte sin beslutning, og derefter et hop i fejlen, positiv eller negativ.

ZDNet: Så du har en proxy, som er en objektiv funktion, som du helt sikkert kan sige, vi kan helt sikkert flowgradienter af denne ting.

YL: Det er rigtigt. Så folk bruger dette krydsentropitab, eller SOFTMAX, du har flere navne på det, men det er det samme. Og det er i bund og grund en jævn tilnærmelse af antallet af fejl, som systemet laver, hvor udjævningen foregår ved i bund og grund at tage højde for den score, som systemet giver til hver af kategorierne.

ZDNet: Er der noget, vi ikke har dækket, som du gerne vil dække?

YL: Det understreger nok hovedpunkterne. Jeg tror, ​​at AI-systemer skal være i stand til at ræsonnere, og processen for dette, som jeg går ind for, er at minimere et eller andet mål med hensyn til en latent variabel. Det giver systemerne mulighed for at planlægge og ræsonnere. Jeg synes, vi bør opgive den sandsynlige ramme, fordi den er vanskelig, når vi vil gøre ting som at fange afhængigheder mellem højdimensionelle, kontinuerlige variable. Og jeg slår til lyd for at opgive generative modeller, fordi systemet bliver nødt til at bruge for mange ressourcer på at forudsige ting, der er for svære at forudsige og måske bruger for mange ressourcer. Og det er stort set det. Det er hovedbudskaberne, hvis du vil. Og så den overordnede arkitektur. Så er der de spekulationer om bevidsthedens natur og konfiguratorens rolle, men dette er virkelig spekulation.

ZDNet: Det kommer vi til næste gang. Jeg ville spørge dig, hvordan benchmarker du denne ting? Men jeg gætter på, at du er lidt længere fra benchmarking lige nu?

YL: Ikke nødvendigvis så langt inde, sådan set forenklede versioner. Du kan gøre, hvad alle gør i kontrol eller forstærkende læring, hvilket vil sige, at du træner tingen til at spille Atari-spil eller sådan noget eller et andet spil, der har en vis usikkerhed i sig.

ZDNet: Tak for din tid, Yann.

Kilde