Metas AI-guru LeCun: De fleste av dagens AI-tilnærminger vil aldri føre til ekte intelligens

yann-lecun-sept-2022-1

"Jeg tror AI-systemer må kunne resonnere," sier Yann LeCun, Metas sjef for AI-forsker. Dagens populære AI-tilnærminger som Transformers, hvorav mange bygger på hans eget banebrytende arbeid på feltet, vil ikke være tilstrekkelig. "Du må ta et skritt tilbake og si: Ok, vi har bygget denne stigen, men vi vil til månen, og det er ingen måte denne stigen kommer til å bringe oss dit," sier LeCun.

Yann LeCun, sjef for AI-forsker of Meta Properties, eieren av Facebook, Instagram og WhatsApp, vil sannsynligvis krysse av for mange innen sitt felt. 

Med oppslaget i juni av et tenkestykke på Open Review-serveren, tilbød LeCun en bred oversikt over en tilnærming han mener holder løftet for å oppnå intelligens på menneskelig nivå i maskiner. 

Underforstått hvis ikke artikulert i papiret er påstanden om at de fleste av dagens store prosjekter innen AI aldri vil kunne nå det målet på menneskelig nivå.

I en diskusjon denne måneden med ZDNet via Zoom gjorde LeCun det klart at han ser med stor skepsis på mange av de mest vellykkede forskningsmidlene innen dyp læring for øyeblikket.

"Jeg tror de er nødvendige, men ikke tilstrekkelige," sa Turing Award-vinneren ZDNet av sine jevnaldrendes sysler. 

Disse inkluderer store språkmodeller som den transformatorbaserte GPT-3 og lignende. Slik LeCun karakteriserer det, tror Transformer-tilhengerne: "Vi symboliserer alt og trener gigantiskmodeller for å lage diskrete spådommer, og på en eller annen måte vil AI komme ut av dette.»

"De tar ikke feil," sier han, "i den forstand at det kan være en del av et fremtidig intelligent system, men jeg tror det mangler viktige deler."

Også: Metas AI-lyskilde LeCun utforsker dyplæringens energigrense

Det er en oppsiktsvekkende kritikk av det som ser ut til å fungere, fra forskeren som perfeksjonerte bruken av konvolusjonelle nevrale nettverk, en praktisk teknikk som har vært utrolig produktiv i programmer for dyp læring. 

LeCun ser feil og begrensninger i mange andre svært vellykkede områder av disiplinen. 

Forsterkende læring vil heller aldri være nok, fremholder han. Forskere som David Silver fra DeepMind, som utviklet AlphaZero-programmet som mestret Chess, Shogi og Go, fokuserer på programmer som er «veldig handlingsbaserte», observerer LeCun, men «det meste av læringen vi gjør, gjør vi ikke gjør det ved å faktisk ta handlinger, vi gjør det ved å observere.» 

Lecun, 62, fra et perspektiv av flere tiår med prestasjoner, uttrykker likevel at det haster med å konfrontere det han tror er blindgatene som mange kanskje haster mot, og å prøve å lokke feltet hans i den retningen han mener ting burde gå. 

"Vi ser mange påstander om hva vi bør gjøre for å presse frem mot AI på menneskelig nivå," sier han. "Og det er ideer som jeg tror er feilrettet."

"Vi er ikke så langt at de intelligente maskinene våre har like mye sunn fornuft som en katt," observerer Lecun. "Så hvorfor begynner vi ikke der?" 

Han har forlatt sin tidligere tro på å bruke generative nettverk i ting som å forutsi neste bilde i en video. Det har vært en fullstendig fiasko, sier han. 

LeCun fordømmer de han kaller de "religiøse sannsynlighetsforskerne", som "tror sannsynlighetsteori er det eneste rammeverket du kan bruke for å forklare maskinlæring." 

Den rent statistiske tilnærmingen er vanskelig, sier han. «Det er for mye å forlange at en verdensmodell skal være fullstendig sannsynlighet; vi vet ikke hvordan vi skal gjøre det."

Ikke bare akademikerne, men industriell AI trenger en dyp re-tenking, hevder LeCun. Den selvkjørende bilmengden, startups som Wayve, har vært "litt for optimistiske," sier han, ved å tro at de kunne "kaste data på" store nevrale nettverk "og du kan lære stort sett alt."

"Du vet, jeg tror det er fullt mulig at vi vil ha nivå-fem autonome biler uten sunn fornuft," sier han, og refererer til "ADAS," avansert førerassistansesystem vilkår for selvkjøring, "men du må konstruere helvete ut av det."

Slik overkonstruert selvkjørende teknologi vil være noe så knirkende og sprø som alle datasynsprogrammene som ble gjort foreldet av dyp læring, mener han.

"Til syvende og sist vil det være en mer tilfredsstillende og muligens bedre løsning som involverer systemer som gjør en bedre jobb med å forstå hvordan verden fungerer."

Underveis tilbyr LeCun noen visne synspunkter fra sine største kritikere, som NYU-professor Gary Marcus - "han har aldri bidratt med noe til AI" - og Jürgen Schmidhuber, meddirektør for Dalle Molle Institute for Artificial Intelligence Research - "det er veldig enkelt å gjøre flaggplanting.»

Utover kritikken, er det viktigere poenget fra LeCun at visse grunnleggende problemer møter all AI, spesielt hvordan man måler informasjon.

"Du må ta et skritt tilbake og si: Ok, vi har bygget denne stigen, men vi vil til månen, og det er ingen måte denne stigen kommer til å bringe oss dit," sier LeCun om sitt ønske om å få til en ny tankegang av grunnleggende begreper. "I utgangspunktet, det jeg skriver her er, vi må bygge raketter, jeg kan ikke gi deg detaljene om hvordan vi bygger raketter, men her er de grunnleggende prinsippene."

Oppgaven, og LeCuns tanker i intervjuet, kan forstås bedre ved å lese LeCuns intervju tidligere i år med ZDNet der han argumenterer for energibasert selvstyrt læring som en vei videre for dyp læring. Disse refleksjonene gir en følelse av kjernetilnærmingen til det han håper å bygge som et alternativ til tingene han hevder ikke vil komme til målstreken. 

Det som følger er en lett redigert utskrift av intervjuet.

ZDNet: Emnet for chatten vår er denne artikkelen, "En vei mot autonom maskinintelligens," av hvilken versjon 0.9.2 er den eksisterende versjonen, ja?

Yann LeCun: Ja, jeg anser dette som et arbeidsdokument. Så jeg la det ut på Open Review, og ventet på at folk skulle komme med kommentarer og forslag, kanskje flere referanser, og så skal jeg lage en revidert versjon. 

ZDNet: Jeg ser at Juergen Schmidhuber allerede har lagt til noen kommentarer til Open Review.

YL: Vel, ja, det gjør han alltid. Jeg siterer en av papirene hans der i avisen min. Jeg tror argumentene han kom med på sosiale nettverk om at han i bunn og grunn oppfant alt dette i 1991, som han har gjort i andre saker, bare ikke er tilfelle. Jeg mener, det er veldig enkelt å gjøreflagg-planting, og for å, liksom, skrive en idé uten noen eksperimenter, uten noen teori, bare foreslå at du kan gjøre det på denne måten. Men du vet, det er en stor forskjell på å bare ha ideen, og så få den til å fungere på et leketøysproblem, og så få den til å fungere på et reelt problem, og så gjøre en teori som viser hvorfor det fungerer, og så distribuere den. Det er en hel kjede, og ideen hans om vitenskapelig kreditt er at det er den aller første personen som bare, liksom, du vet, hadde ideen om det, som burde få all æren. Og det er latterlig. 

ZDNet: Ikke tro på alt du hører på sosiale medier. 

YL: Jeg mener, hovedoppgaven som han sier jeg burde sitere har ikke noen av hovedideene jeg snakker om i avisen. Han har gjort dette også med GAN-er og andre ting, som ikke viste seg å stemme. Det er enkelt å gjøre flaggplanting, det er mye vanskeligere å gi et bidrag. Og forresten, i denne spesielle artikkelen sa jeg eksplisitt at dette ikke er en vitenskapelig artikkel i den vanlige betydningen av begrepet. Det er mer et posisjonspapir om hvor denne tingen skal gå. Og det er et par ideer der som kan være nye, men de fleste er det ikke. Jeg krever ikke prioritet på det meste av det jeg skrev i den avisen, egentlig.

yann-lecun-sept-2022-2

Forsterkende læring vil heller aldri være nok, fremholder LeCun. Forskere som David Silver fra DeepMind, som utviklet AlphaZero-programmet som mestret Chess, Shogi og Go, er "veldig handlingsbaserte," observerer LeCun, men "det meste av læringen vi gjør, gjør vi det ikke ved å faktisk ta handlinger, vi gjør det ved å observere.» 

ZDNet: Og det er kanskje et godt sted å begynne, for jeg er nysgjerrig på hvorfor du fulgte denne veien nå? Hva fikk deg til å tenke på dette? Hvorfor ville du skrive dette?

YL: Vel, så, jeg har tenkt på dette i veldig lang tid, på en vei mot intelligens eller læring og evner på menneske- eller dyrenivå. Og i mine foredrag har jeg vært ganske vokal om hele denne greia at både overvåket læring og forsterkende læring er utilstrekkelig til å etterligne den typen læring vi observerer hos dyr og mennesker. Jeg har holdt på med dette i omtrent syv eller åtte år. Så det er ikke nylig. Jeg hadde en keynote på NeurIPS for mange år siden hvor jeg gjorde det poenget, egentlig, og forskjellige foredrag, det er opptak. Hvorfor skrive en oppgave nå? Jeg har kommet til poenget – [Google Brain-forsker] Geoff Hinton hadde gjort noe lignende – jeg mener absolutt, han mer enn meg, vi ser at tiden går ut. Vi er ikke unge.

ZDNet: Sixty er den nye femti. 

YL: Det er sant, men poenget er at vi ser mange påstander om hva vi bør gjøre for å presse frem mot menneskelig AI-nivå. Og det er ideer som jeg tror er feilrettet. Så, en idé er, Å, vi bør bare legge til symbolsk resonnement på toppen av nevrale nett. Og jeg vet ikke hvordan jeg skal gjøre dette. Så kanskje det jeg forklarte i papiret kan være en tilnærming som ville gjort det samme uten eksplisitt symbolmanipulasjon. Dette er den typen tradisjonelt Gary Marcuses av verden. Gary Marcus er ikke en AI-person, forresten, han er en psykolog. Han har aldri bidratt med noe til AI. Han har gjort veldig godt arbeid innen eksperimentell psykologi, men han har aldri skrevet en fagfellevurdert artikkel om AI. Så, det er de menneskene. 

Det er forskeren i [DeepMind-prinsippet] David Silvers fra verden som sier, du vet, belønning er nok, i utgangspunktet handler det om forsterkende læring, vi trenger bare å gjøre det litt mer effektivt, ok? Og, jeg tror de ikke tar feil, men jeg tror at de nødvendige skrittene for å gjøre forsterkningslæring mer effektiv, i utgangspunktet ville forvist forsterkningslæring til en slags kirsebær på kaken. Og den viktigste delen som mangler er å lære hvordan verden fungerer, for det meste ved observasjon uten handling. Forsterkende læring er veldig handlingsbasert, du lærer ting om verden ved å ta grep og se resultatene.

ZDNet: Og det er belønningsfokusert.

YL: Det er belønningsfokusert, og det er handlingsfokusert også. Så du må handle i verden for å kunne lære noe om verden. Og hovedpåstanden jeg kommer med i avisen om selvovervåket læring er at mesteparten av læringen vi gjør, gjør vi det ikke ved å faktisk gjøre handlinger, vi gjør det ved å observere. Og det er veldig uortodoks, både for forsterkningslærende mennesker, spesielt, men også for mange psykologer og kognitive forskere som tror at handling er - jeg sier ikke at handling ikke er avgjørende, det is viktig. Men jeg tror det meste av det vi lærer handler mest om verdens struktur, og involverer selvfølgelig interaksjon og handling og lek, og sånt, men mye av det er observerende.

ZDNet: Du vil også klare å krysse av for Transformer-folket, de språk-første menneskene, samtidig. Hvordan kan du bygge dette uten språk først? Du klarer kanskje å krysse av for mange. 

YL: Ja, jeg er vant til det. Så, ja, det er de språk-første menneskene, som sier, du vet, intelligens handler om språk, substratet for intelligens er språk, bla, bla, bla. Men det avviser på en måte dyrs intelligens. Du vet, vi er ikke så langt at de intelligente maskinene våre har like mye sunn fornuft som en katt. Så hvorfor starter vi ikke der? Hva er det som gjør at en katt kan pågripe omverdenen, gjøre ganske smarte ting, og planlegge og sånt, og hunder enda bedre? 

Så er det alle menneskene som sier: Å, intelligens er en sosial ting, ikke sant? Vi er intelligente fordi vi snakker med hverandre og vi utveksler informasjon, og bla, bla, bla. Det er alle slags ikke-sosiale arter som aldri møter foreldrene sine som er veldig smarte, som blekksprut eller orangutanger.Jeg mener, de [orangutanger] er absolutt utdannet av moren sin, men de er ikke sosiale dyr. 

Men den andre kategorien mennesker som jeg kanskje krysser av, er folk som sier at skalering er nok. Så i utgangspunktet bruker vi bare gigantiske Transformers, vi trener dem på multimodale data som involverer, du vet, video, tekst, bla, bla, bla. Vi, liksom, forsteneralt, og tokenize alt, og deretter trene gigantiskmodeller for å lage diskrete spådommer, i utgangspunktet, og på en eller annen måte vil AI komme ut av dette. De tar ikke feil, i den forstand at det kan være en del av et fremtidig intelligent system. Men jeg tror det mangler viktige deler. 

Det er en annen kategori mennesker jeg kommer til å krysse av med denne artikkelen. Og det er probabilistene, de religiøse probabilistene. Så folk som tror sannsynlighetsteori er det eneste rammeverket du kan bruke for å forklare maskinlæring. Og som jeg prøvde å forklare i stykket, er det i grunnen for mye å be om at en verdensmodell skal være fullstendig sannsynlighet. Vi vet ikke hvordan vi skal gjøre det. Det er den beregningsmessige vanskeligheten. Så jeg foreslår å droppe hele denne ideen. Og selvfølgelig, du vet, dette er en enorm pilar for ikke bare maskinlæring, men all statistikk, som hevder å være den normale formalismen for maskinlæring. 

Den andre tingen - 

ZDNet: Du er på rulle...

YL: — er det som kalles generative modeller. Så, ideen om at du kan lære å forutsi, og du kan kanskje lære mye om verden ved å forutsi. Så jeg gir deg et stykke video, og jeg ber systemet forutsi hva som skjer videre i videoen. Og jeg kan be deg om å forutsi faktiske videorammer med alle detaljene. Men det jeg krangler om i avisen er at det faktisk er for mye å forlange og for komplisert. Og dette er noe jeg endret mening om. Inntil for ca. to år siden pleide jeg å være talsmann for det jeg kaller latent variabel generative modeller, modeller som forutsier hva som kommer til å skje videre eller informasjonen som mangler, muligens ved hjelp av en latent variabel, hvis prediksjonen ikke kan være deterministisk. Og jeg har gitt opp dette. Og grunnen til at jeg har gitt opp dette er basert på empiriske resultater, der folk har prøvd å bruke, liksom, prediksjons- eller rekonstruksjonsbasert trening av den typen som brukes i BERTog store språkmodeller, de har prøvd å bruke dette på bilder, og det har vært en fullstendig fiasko. Og grunnen til at det er en fullstendig fiasko er igjen på grunn av begrensningene til sannsynlighetsmodeller der det er relativt enkelt å forutsi diskrete symboler som ord fordi vi kan beregne sannsynlighetsfordelingen over alle ordene i ordboken. Det er enkelt. Men hvis vi ber systemet produsere sannsynlighetsfordelingen over alle mulige videorammer, har vi ingen anelse om hvordan vi skal parameterisere det, eller vi har en anelse om hvordan vi skal parameterisere det, men vi vet ikke hvordan vi skal normalisere det. Det treffer et uløselig matematisk problem som vi ikke vet hvordan vi skal løse. 

yann-lecun-sept-2022-3

"Vi er ikke så langt at de intelligente maskinene våre har like mye sunn fornuft som en katt," observerer Lecun. «Så, hvorfor starter vi ikke der? Hva er det som gjør at en katt kan pågripe omverdenen, gjøre ganske smarte ting og planlegge og sånt, og hunder enda bedre?»

Så, det er derfor jeg sier at la oss forlate sannsynlighetsteorien eller rammeverket for slike ting, den svakere, energibaserte modellene. Jeg har også tatt til orde for dette i flere tiår, så dette er ikke noe nylig. Men samtidig forlate ideen om generative modeller fordi det er mange ting i verden som ikke er forståelige og ikke forutsigbare. Hvis du er ingeniør, kaller du det støy. Hvis du er fysiker, kaller du det varme. Og hvis du er en maskinlæringsperson, kaller du det, du vet, irrelevante detaljer eller hva som helst.

Så, eksemplet jeg brukte i avisen, eller jeg har brukt i samtaler, er at du vil ha et verdensprediksjonssystem som vil hjelpe i en selvkjørende bil, ikke sant? Den ønsker på forhånd å kunne forutsi banene til alle de andre bilene, hva som kommer til å skje med andre objekter som kan bevege seg, fotgjengere, sykler, et barn som løper etter en fotball, slike ting. Så, alle slags ting om verden. Men på grensen til veien kan det være trær, og det er vind i dag, så bladene beveger seg i vinden, og bak trærne er det en dam, og det er krusninger i dammen. Og disse er i hovedsak stort sett uforutsigbare fenomener. Og du vil ikke at modellen din skal bruke en betydelig mengde ressurser på å forutsi de tingene som er både vanskelige å forutsi og irrelevante. Så det er derfor jeg tar til orde for felles innbyggingsarkitekturen, de tingene der variabelen du prøver å modellere, du prøver ikke å forutsi den, du prøver å modellere den, men den kjører gjennom en koder, og den koderen kan eliminere mange detaljer om inngangen som er irrelevante eller for kompliserte - i utgangspunktet tilsvarer støy.

ZDNet: Vi diskuterte tidligere i år energibaserte modeller, JEPA og H-JEPA. Min følelse, hvis jeg forstår deg rett, er at du finner punktet med lav energi der disse to spådommene av X- og Y-innbygging er mest like, noe som betyr at hvis det er en due i et tre i ett, og det er noe i bakgrunnen til en scene, er det kanskje ikke de essensielle punktene som gjør at disse integreringene er nær hverandre.

YL: Ikke sant. Så JEPA-arkitekturen prøver faktisk å finne en avveining, et kompromiss, mellom å trekke ut representasjoner som er maksimalt informative om inngangene, men også forutsigbare fra hverandre med et visst nivå av nøyaktighet eller pålitelighet. Den finner en avveining. Så hvis den har valget mellom å bruke en enorm mengde ressurser, inkludert detaljene i bladenes bevegelser, og deretter modellere dynamikken som vil avgjøre hvordan bladene beveger seg et sekund fra nå, eller bare slippe det på gulvet ved å bare å kjøre Y-variabelen gjennom en prediktor som eliminerer alle disse detaljene, vil den sannsynligvis bare eliminere den fordi den er for vanskelig å modellere og fange.

ZDNet: En ting som er overrasket er at du hadde vært en stor tilhenger av å si "Det fungerer, vi skal finne ut senere termodynamikkteorien for å forklare det." Her har du tatt en tilnærming til: "Jeg vet ikke hvordan vi nødvendigvis skal løse dette, men jeg vil komme med noen ideer for å tenke på det," og kanskje til og med nærme deg en teori eller en hypotese, kl. minst. Det er interessant fordi det er mange som bruker mye penger på å jobbe med bilen som kan se fotgjengeren uavhengig av om bilen har sunn fornuft. Og jeg forestiller meg at noen av disse menneskene vil være, ikke krysset av, men de vil si: "Det er greit, vi bryr oss ikke om det ikke har sunn fornuft, vi har bygget en simulering, simuleringen er fantastisk, og vi kommer til å fortsette å forbedre oss, vi kommer til å fortsette å skalere simuleringen.» 

Og derfor er det interessant at du nå er i stand til å si, la oss ta et skritt tilbake og tenke på hva vi gjør. Og industrien sier at vi bare skal skalere, skalere, skalere, skalere, for den sveiven fungerer virkelig. Jeg mener, halvledersveiven til GPU-er fungerer virkelig.

YL: Det er fem spørsmål der. Så, jeg mener, skalering er nødvendig. Jeg kritiserer ikke det faktum at vi bør skalere. Vi bør skalere. Disse nevrale nettene blir bedre etter hvert som de blir større. Det er ingen tvil om at vi bør skalere. Og de som vil ha et visst nivå av sunn fornuft vil være store. Det er ingen vei utenom det, tror jeg. Så skalering er bra, det er nødvendig, men ikke tilstrekkelig. Det er poenget jeg gjør. Det er ikke bare skalering. Det er det første punktet. 

Andre punkt, om teori kommer først og slike ting. Så jeg tror det er konsepter som kommer først, at du må ta et skritt tilbake og si, ok, vi bygde denne stigen, men vi ønsker å dra til månen, og det er ingen måte at denne stigen kommer oss dit. Så, i bunn og grunn, det jeg skriver her er at vi må bygge raketter. Jeg kan ikke gi deg detaljene om hvordan vi bygger raketter, men her er de grunnleggende prinsippene. Og jeg skriver ikke en teori for det eller noe, men det kommer til å bli en rakett, ok? Eller en romheis eller hva som helst. Vi har kanskje ikke alle detaljene i all teknologien. Vi prøver å få noen av disse tingene til å fungere, som om jeg har jobbet med JEPA. Fellesinnbygging fungerer veldig bra for bildegjenkjenning, men å bruke den til å trene opp en verdensmodell er det vanskeligheter. Vi jobber med det, vi håper vi skal få det til å fungere soon, men vi kan støte på noen hindringer der som vi ikke kan overvinne, muligens. 

Så er det en sentral idé i oppgaven om resonnement der hvis vi vil at systemer skal kunne planlegge, som du kan tenke på som en enkel form for resonnement, må de ha latente variabler. Med andre ord, ting som ikke beregnes av noe nevralt nett, men ting som er det - hvis verdi utledes for å minimere en objektiv funksjon, en kostnadsfunksjon. Og så kan du bruke denne kostnadsfunksjonen til å drive oppførselen til systemet. Og dette er ikke en ny idé i det hele tatt, ikke sant? Dette er veldig klassisk, optimal kontroll hvor grunnlaget for dette går tilbake til slutten av 50-tallet, tidlig 60-tall. Så, hevder ikke noe nytt her. Men det jeg sier er at denne typen slutninger må være en del av et intelligent system som er i stand til å planlegge, og hvis oppførsel kan spesifiseres eller kontrolleres ikke av en hardwired atferd, ikke ved å imitere lening, men av en objektiv funksjon som driver atferden - driver ikke nødvendigvis læring, men det driver atferd. Du vet, vi har det i hjernen vår, og hvert dyr har iboende kostnader eller iboende motivasjoner for ting. Det får ni måneder gamle babyer til å ønske å stå opp. Kostnaden for å være glad når du står opp, det begrepet i kostnadsfunksjonen er fastkablet. Men hvordan du står opp er ikke, det er læring.

yann-lecun-sept-2022-4

"Skalering er bra, det er nødvendig, men ikke tilstrekkelig," sier LeCun om gigantiske språkmodeller som de Transformer-baserte programmene av GPT-3-varianten. Transformer-tilhengerne tror: "Vi tokeniserer alt og trener gigantiskmodeller for å lage diskrete spådommer, og på en eller annen måte vil AI komme ut av dette ... men jeg tror det mangler viktige deler."

ZDNet: Bare for å avrunde det punktet, synes mye av dyplæringsfellesskapet fint å gå videre med noe som ikke har sunn fornuft. Det virker som du kommer med et ganske klart argument her om at det på et tidspunkt blir en blindgate. Noen sier at vi ikke trenger en autonom bil med sunn fornuft fordi skalering vil gjøre det. Det høres ut som du sier at det ikke er greit å bare fortsette på den veien?

YL: Du vet, jeg tror det er fullt mulig at vi vil ha nivå-fem autonome biler uten sunn fornuft. Men problemet med denne tilnærmingen, dette kommer til å være midlertidig, fordi du må konstruere det til helvete. Så, du vet, kartlegg hele verden, kabler alle slags spesifikke hjørnesaker, samle nok data til at du har alle slags merkelige situasjoner du kan møte på veiene, bla, bla, bla. Og min gjetning er at med nok investering og tid, kan du bare konstruere det. Men til syvende og sist vil det være en mer tilfredsstillende og muligens bedre løsning som involverer systemer som gjør en bedre jobb med å forstå måten verden fungerer på, og har, du vet, et nivå av det vi vil kalle sunn fornuft. Det trenger ikke å være sunn fornuft på menneskelig nivå, men en slags kunnskap som systemet kan tilegne seg ved å se, men ikke se noen kjøre, bare se ting som beveger seg rundt og forstå mye om verden, bygge et bakgrunnsgrunnlag kunnskap om hvordan verden fungerer, på toppen av det kan du lære å kjøre bil. 

La meg ta et historisk eksempel på dette. Klassisk datasyn var basert på mange kablede, konstruerte moduler, på toppen av disse ville du ha et tynt lag med læring. Så, tingene som ble slått av AlexNet i 2012, hadde i utgangspunktet en første fase, en slags håndlagde funksjonsekstraksjoner, som SIFTs [Scale-Invariant Feature Transform (SIFT), en klassisk synsteknikk for å identifisere fremtredende objekter i et bilde] og HOG [Histogram of Oriented Gradients, en annen klassisk teknikk] og diverse andre ting. Og så det andre laget med funksjoner på mellomnivå basert på funksjonskjerner og hva som helst, og en slags uovervåket metode. Og så på toppen av dette legger du en støttevektormaskin, ellers en relativt enkel klassifiser. Og det var på en måte standardrørledningen fra midten av 2000-tallet til 2012. Og det ble erstattet av ende-til-ende konvolusjonsnett, hvor du ikke kobler noe av dette, du har bare mye data, og du trener tingen fra ende til annen, som er den tilnærmingen jeg har vært forfektet i lenge, men du vet, inntil da, var ikke praktisk for store problemer. 

Det har vært en lignende historie innen talegjenkjenning hvor det igjen var en enorm mengde detaljert konstruksjon for hvordan du forhåndsbehandler dataene, du trekker ut masseskala cepstrum [en invers av Fast Fourier Transform for signalbehandling], og deretter du har skjulte Markov-modeller, med en slags forhåndsinnstilt arkitektur, bla, bla, bla, med blanding av gaussere. Og så, det er litt av den samme arkitekturen som visjon der du har håndlaget front-end, og så et noe uovervåket, trent, mellomlag, og så et overvåket lag på toppen. Og nå har det i utgangspunktet blitt utslettet av ende-til-ende nevrale nett. Så jeg ser på en måte noe lignende der med å prøve å lære alt, men du må ha rett før, rett arkitektur, rett struktur.

yann-lecun-sept-2022-5

Den selvkjørende bilmengden, startups som Waymo og Wayve, har vært "litt for optimistiske," sier han, ved å tro at de kunne "kaste data på det, og du kan lære stort sett hva som helst." Selvkjørende biler på nivå 5 av ADAS er mulige, "Men du må konstruere det til helvete" og vil være "skjøre" som tidlige datasynsmodeller.

ZDNet: Det du sier er at noen mennesker vil prøve å konstruere det som for øyeblikket ikke fungerer med dyp læring for anvendbarhet, for eksempel i industrien, og de kommer til å begynne å lage noe som er det som ble foreldet innen datasyn?

YL: Ikke sant. Og det er delvis grunnen til at folk som jobber med autonom kjøring har vært litt for optimistiske de siste årene, er fordi, du vet, du har disse, liksom, generiske tingene som konvolusjonsnett og transformatorer, som du kan kaste data på det. , og den kan lære stort sett alt. Så du sier, ok, jeg har løsningen på det problemet. Det første du gjør er at du bygger en demo hvor bilen kjører seg selv i noen minutter uten å skade noen. Og så innser du at det er mange hjørnesaker, og du prøver å plotte kurven for hvor mye bedre jeg blir når jeg dobler treningssettet, og du innser at du aldri kommer til å komme dit fordi det er alle slags hjørnesaker . Og du må ha en bil som vil forårsake en dødsulykke mindre enn hver 200 millioner kilometer, ikke sant? Så hva gjør du? Vel, du går i to retninger. 

Den første retningen er, hvordan kan jeg redusere mengden data som er nødvendig for at systemet mitt skal lære? Og det er her selvstyrt læring kommer inn. Så mange selvkjørende bilantrekk er veldig interessert i selvstyrt læring fordi det er en måte å fortsatt bruke gigantiske mengder tilsynsdata for å imitere læring, men få bedre ytelse ved å før-trening, egentlig. Og det har ikke helt slått ut ennå, men det vil det. Og så er det det andre alternativet, som de fleste selskapene som er mer avanserte på dette tidspunktet har tatt i bruk, som er, greit, vi kan gjøre ende-til-ende-opplæringen, men det er mange hjørnesaker vi kan. t-håndtak, så vi skal bare konstruere systemer som vil ta vare på disse hjørnekoffertene, og i utgangspunktet behandle dem som spesielle tilfeller, og koble kontrollen, og deretter koble mye grunnleggende oppførsel for å håndtere spesielle situasjoner. Og hvis du har et stort nok team med ingeniører, kan du kanskje klare det. Men det vil ta lang tid, og til slutt vil det fortsatt være litt sprøtt, kanskje pålitelig nok til at du kan distribuere, men med et visst nivå av sprøhet, som med en mer læringsbasert tilnærming som kan vises i fremtiden vil ikke biler ha fordi den kan ha et visst nivå av sunn fornuft og forståelse for hvordan verden fungerer. 

På kort sikt vil den, liksom, konstruerte tilnærmingen vinne - den vinner allerede. Det er Waymo og Cruise of the World og Wayveog uansett, det er det de gjør. Så er det den selvovervåkede læringstilnærmingen, som sannsynligvis vil hjelpe den konstruerte tilnærmingen til å gjøre fremskritt. Men så, i det lange løp, som kan være for lang tid for disse selskapene å vente på, vil trolig være et mer integrert autonomt intelligent kjøresystem.

ZDNet: Vi sier utover investeringshorisonten til de fleste investorer.

YL: Det er riktig. Så spørsmålet er, vil folk miste tålmodigheten eller gå tom for penger før ytelsen når ønsket nivå.

ZDNet: Er det noe interessant å si om hvorfor du valgte noen av elementene du valgte i modellen? Fordi du siterer Kenneth Craik [1943,Forklaringens natur], og du siterer Bryson og Ho [1969, Påført optimal kontroll], og jeg er nysgjerrig på hvorfor du begynte med disse påvirkningene, hvis du trodde spesielt på at disse menneskene hadde det så langt som det de hadde gjort. Hvorfor begynte du der?

YL: Vel, jeg tror absolutt ikke at de hadde alle detaljene spikret. Så, Bryson og Ho, dette er en bok jeg leste tilbake i 1987 da jeg var postdoktor hos Geoffrey Hinton i Toronto. Men jeg visste om denne arbeidslinjen på forhånd da jeg skrev doktorgraden min, og laget sammenhengen mellom optimal kontroll og ryggstøtte, egentlig. Hvis du virkelig ønsket å være, du vet, en annen Schmidhuber, ville du si at de virkelige oppfinnerne av backprop faktisk var optimal kontroll teoretikere Henry J. Kelley, Arthur Bryson, og kanskje til og med Lev Pontryagin, som er en russisk teoretiker av optimal kontroll tilbake på slutten av 50-tallet. 

Så, de skjønte det, og faktisk kan du faktisk se roten til dette, matematikken under det, er lagrangiansk mekanikk. Så du kan gå tilbake til Euler og Lagrange, faktisk, og på en måte finne en eim av dette i deres definisjon av Lagrangiansk klassisk mekanikk, egentlig. Så, i sammenheng med optimal kontroll, var det disse gutta var interessert i i utgangspunktet å beregne rakettbaner. Du vet, dette var den tidlige romalderen. Og hvis du har en modell av raketten, forteller den deg at her er tilstanden til raketten den gang t, og her er handlingen jeg skal ta, så, skyvekraft og aktuatorer av forskjellige slag, her er tilstanden til raketten til tider t + 1.

ZDNet: En statlig handlingsmodell, en verdimodell.

YL: Det er riktig, grunnlaget for kontroll. Så nå kan du simulere skytingen av raketten din ved å forestille deg en sekvens av kommandoer, og så har du en kostnadsfunksjon, som er avstanden til raketten til målet, en romstasjon eller hva det nå er. Og så ved en slags gradientnedstigning kan du finne ut hvordan jeg kan oppdatere handlingssekvensen min slik at raketten min faktisk kommer så nær målet som mulig. Og det må komme ved å forplante tilbake signaler bakover i tid. Og det er back-propagation, gradient back-propagation. Disse signalene, de kalles konjugerte variabler i lagrangiansk mekanikk, men faktisk er de gradienter. Så de oppfant backprop, men de skjønte ikke at dette prinsippet kunne brukes til å trene et flertrinnssystem som kan gjøre mønstergjenkjenning eller noe sånt. Dette ble egentlig ikke realisert før kanskje på slutten av 70-tallet, tidlig på 80-tallet, og ble deretter faktisk ikke implementert og laget for å fungere før på midten av 80-tallet. Ok, så, det er her backprop virkelig, liksom, tok av fordi folk viste her er noen linjer med kode som du kan trene et nevralt nett, ende til ende, flerlags. Og det løfter begrensningene til Perceptron. Og, ja, det er forbindelser med optimal kontroll, men det er greit.

ZDNet: Så, det er langt på vei å si at disse påvirkningene du startet med gikk tilbake til backprop, og det var viktig som utgangspunkt for deg?

YL: Ja, men jeg tror det folk glemte litt om, det var ganske mye arbeid med dette, du vet, på 90-tallet, eller til og med 80-tallet, inkludert av folk som Michael Jordan [MIT Dept. of Brain] og kognitiv vitenskap] og sånne mennesker som ikke driver med nevrale nett lenger, men ideen om at du kan bruke nevrale nett for kontroll, og du kan bruke klassiske ideer om optimal kontroll. Så ting som det som kalles modellprediktiv kontroll, det som nå kalles modellprediktiv kontroll, denne ideen om at du kan simulere eller forestille deg resultatet av en sekvens av handlinger hvis du har en god modell av systemet du prøver å kontrollere og miljøet det er i. Og så ved gradientnedstigning, i hovedsak - dette er ikke læring, dette er slutninger - kan du finne ut hva som er den beste handlingssekvensen som vil minimere målet mitt. Så, bruken av en kostnadsfunksjon med en latent variabel for inferens er, tror jeg, noe som nåværende avlinger av storskala nevrale nett har glemt. Men det var en veldig klassisk komponent i maskinlæring i lang tid. Så, hver Bayesian Net eller grafisk modell eller probabilistisk grafisk modell brukte denne typen slutninger. Du har en modell som fanger opp avhengighetene mellom en haug med variabler, du blir fortalt verdien av noen av variablene, og så må du utlede den mest sannsynlige verdien av resten av variablene. Det er det grunnleggende prinsippet for slutning i grafiske modeller og Bayesian Nets, og slike ting. Og jeg tror det i bunn og grunn er det resonnement skal handle om, resonnement og planlegging.

ZDNet: Du er en Bayesianer.

YL: Jeg er en ikke-probabilistisk Bayesianer. Jeg har laget den vitsen før. Jeg var faktisk på NeurIPS for noen år siden, jeg tror det var i 2018 eller 2019, og jeg ble fanget på video av en Bayesianer som spurte meg om jeg var Bayesianer, og jeg sa: Jepp, jeg er Bayesianer, men jeg Jeg er en ikke-probabilistisk Bayesianer, liksom, en energibasert Bayesianer, hvis du vil. 

ZDNet: Som definitivt høres ut som noe fra Star Trek. Du nevnte på slutten av denne artikkelen at det kommer til å ta år med virkelig hardt arbeid for å realisere det du ser for deg. Fortell meg om hva noe av det arbeidet for øyeblikket består av.

YL: Så jeg forklarer hvordan du trener og bygger JEPA i avisen. Og kriteriet jeg går inn for er å ha en måte å maksimere informasjonsinnholdet som representasjonene som trekkes ut har om input. Og så minimerer den andre prediksjonsfeilen. Og hvis du har en latent variabel i prediktoren som lar prediktoren være ikke-deterministisk, må du også regulere denne latente variabelen ved å minimere informasjonsinnholdet. Så du har to problemer nå, som er hvordan du maksimerer informasjonsinnholdet i utdataene fra et eller annet nevralt nett, og det andre er hvordan du minimerer informasjonsinnholdet til en latent variabel? Og hvis du ikke gjør de to tingene, vil systemet kollapse. Det vil ikke lære noe interessant. Det vil gi null energi til alt, noe sånt, som ikke er en god modell for avhengighet. Det er det kollapsforebyggende problemet jeg nevner. 

Og jeg sier at av alle tingene som folk noen gang har gjort, er det bare to kategorier av metoder for å forhindre kollaps. Den ene er kontrastive metoder, og den andre er de regulerte metodene. Så denne ideen om å maksimere informasjonsinnholdet i representasjonene av de to inngangene og minimere informasjonsinnholdet til den latente variabelen, som tilhører regulerte metoder. Men mye av arbeidet i disse felles innbyggingsarkitekturene bruker kontrastive metoder. Faktisk er de sannsynligvis de mest populære for øyeblikket. Så spørsmålet er nøyaktig hvordan du måler informasjonsinnhold på en måte som du kan optimalisere eller minimere? Og det er der ting blir komplisert fordi vi faktisk ikke vet hvordan vi skal måle informasjonsinnhold. Vi kan tilnærme det, vi kan overgrense det, vi kan gjøre slike ting. Men de måler faktisk ikke informasjonsinnhold, som faktisk til en viss grad ikke engang er veldefinert.

ZDNet: Det er ikke Shannons lov? Det er ikke informasjonsteori? Du har en viss mengde entropi, god entropi og dårlig entropi, og den gode entropien er et symbolsystem som fungerer, dårlig entropi er støy. Er ikke det hele løst av Shannon?

YL: Du har rett, men det er en stor feil bak det. Du har rett i den forstand at hvis du har data som kommer mot deg og du på en eller annen måte kan kvantisere dataene til diskrete symboler, og så måler du sannsynligheten for hvert av disse symbolene, så er den maksimale mengden informasjon som bæres av disse symbolene sum over mulige symboler på Pi log Pi, Ikke sant? Hvor Pi er sannsynligheten for symbol Jeg - det er Shannon-entropien. [Shannons lov er vanligvis formulert som H = – ∑ pi log pi.]

Her er imidlertid problemet: Hva er Pi? Det er enkelt når antallet symboler er lite og symbolene tegnes uavhengig av hverandre. Når det er mange symboler og avhengigheter, er det veldig vanskelig. Så hvis du har en bitsekvens og du antar at bitene er uavhengige av hverandre og sannsynligheten er lik mellom en og null eller hva som helst, så kan du enkelt måle entropien, ikke noe problem. Men hvis tingene som kommer til deg er høydimensjonale vektorer, som, du vet, datarammer eller noe sånt, hva er Pi? Hva er fordelingen? Først må du kvantisere det rommet, som er et høydimensjonalt, kontinuerlig rom. Du aner ikke hvordan du skal kvantisere dette riktig. Du kan bruke k-midler osv. Dette er hva folk gjør når de driver med videokomprimering og bildekomprimering. Men det er bare en tilnærming. Og så må du gjøre antakelser om uavhengighet. Så det er klart at i en video er påfølgende bilder ikke uavhengige. Det er avhengigheter, og den rammen kan avhenge av en annen ramme du så for en time siden, som var et bilde av det samme. Så du vet, du kan ikke måle Pi. Å måle Pi, du må ha et maskinlæringssystem som lærer å forutsi. Og så er du tilbake til forrige problem. Så du kan i hovedsak bare tilnærme informasjonsmålet. 

yann-lecun-sept-2022-6

"Spørsmålet er nøyaktig hvordan du måler informasjonsinnhold på en måte som du kan optimalisere eller minimere?" sier LeCun. "Og det er der ting blir komplisert fordi vi ikke vet hvordan vi skal måle informasjonsinnhold." Det beste som kan gjøres så langt er å finne en proxy som er "god nok for oppgaven vi ønsker."

La meg ta et mer konkret eksempel. En av algoritmene som vi har lekt med, og jeg har snakket om i stykket, er denne tingen som kalles VICReg, varians-invarians-kovariansregularisering. Det er i en egen artikkel som ble publisert på ICLR, og den ble satt på arXiv omtrent et år før, 2021. Og tanken der er å maksimere informasjonen. Og ideen kom faktisk fra en tidligere artikkel fra gruppen min kalt Barlow tvillinger. Du maksimerer informasjonsinnholdet til en vektor som kommer ut av et nevralt nett ved å anta at den eneste avhengigheten mellom variabler er korrelasjon, lineær avhengighet. Så hvis du antar at den eneste avhengigheten som er mulig mellom par av variabler, eller mellom variabler i systemet ditt, er korrelasjoner mellom par av verdisaker, som er den ekstremt grove tilnærmingen, så kan du maksimere informasjonsinnholdet som kommer ut av systemet ditt. ved å sørge for at alle variablene har ikke-null varians - la oss si varians en, det spiller ingen rolle hva det er - og deretter tilbakekorrelere dem, samme prosess som kalles bleking, det er heller ikke nytt. Problemet med dette er at du godt kan ha ekstremt komplekse avhengigheter mellom enten grupper av variabler eller til og med bare par av variabler som ikke er lineære avhengigheter, og de vises ikke i korrelasjoner. Så, for eksempel, hvis du har to variabler, og alle punktene til disse to variablene er på linje i en slags spiral, er det en veldig sterk avhengighet mellom disse to variablene, ikke sant? Men faktisk, hvis du beregner korrelasjonen mellom disse to variablene, er de ikke korrelert. Så, her er et eksempel hvor informasjonsinnholdet til disse to variablene faktisk er veldig lite, det er bare én mengde fordi det er din posisjon i spiralen. De er de-korrelerte, så du tror du har mye informasjon som kommer ut av de to variablene, mens du faktisk ikke gjør det, du kan bare forutsi en av variablene fra den andre, egentlig. Så det viser at vi bare har svært omtrentlige måter å måle informasjonsinnhold på.

ZDNet: Og så det er en av tingene du må jobbe med nå med dette? Dette er det større spørsmålet om hvordan vet vi når vi maksimerer og minimerer informasjonsinnhold?

YL:  Eller om proxyen vi bruker til dette er god nok for oppgaven vi ønsker. Faktisk gjør vi dette hele tiden i maskinlæring. Kostnadsfunksjonene vi minimerer er aldri de vi faktisk ønsker å minimere. Så du vil for eksempel gjøre klassifisering, ok? Kostnadsfunksjonen du ønsker å minimere når du trener en klassifiserer er antallet feil klassifisereren gjør. Men det er en ikke-differensierbar, fryktelig kostnadsfunksjon som du ikke kan minimere fordi du vet at du kommer til å endre vekten på nevrale nettet ditt, ingenting kommer til å endre seg før en av disse prøvene snudde avgjørelsen, og deretter et hopp i feilen, positiv eller negativ.

ZDNet: Så du har en proxy som er en objektiv funksjon som du definitivt kan si, vi kan definitivt flyte gradienter av denne tingen.

YL: Det er riktig. Så folk bruker dette kryssentropi-tapet, eller SOFTMAX, du har flere navn på det, men det er det samme. Og det er i bunn og grunn en jevn tilnærming av antall feil som systemet gjør, der utjevningen gjøres ved i utgangspunktet å ta hensyn til poengsummen som systemet gir til hver av kategoriene.

ZDNet: Er det noe vi ikke har dekket som du ønsker å dekke?

YL: Det er nok å understreke hovedpoengene. Jeg tror AI-systemer må være i stand til å resonnere, og prosessen for dette som jeg forfekter er å minimere noe mål med hensyn til en latent variabel. Det lar systemene planlegge og resonnere. Jeg tror vi bør forlate det sannsynlige rammeverket fordi det er vanskelig når vi ønsker å gjøre ting som å fange opp avhengigheter mellom høydimensjonale, kontinuerlige variabler. Og jeg tar til orde for å forlate generative modeller fordi systemet vil måtte bruke for mange ressurser på å forutsi ting som er for vanskelige å forutsi og kanskje bruker for mye ressurser. Og det er stort sett det. Det er hovedbudskapene, hvis du vil. Og så den overordnede arkitekturen. Så er det spekulasjoner om bevissthetens natur og rollen til konfiguratoren, men dette er egentlig spekulasjoner.

ZDNet: Vi kommer til det neste gang. Jeg skulle spørre deg, hvordan måler du denne tingen? Men jeg antar at du er litt lenger unna benchmarking akkurat nå?

YL: Ikke nødvendigvis så langt inne, liksom forenklede versjoner. Du kan gjøre det alle gjør med kontroll eller forsterkende læring, det vil si at du trener tingen til å spille Atari-spill eller noe sånt eller et annet spill som har noe usikkerhet i seg.

ZDNet: Takk for at du tok deg tid, Yann.

kilde