Metas AI-guru LeCun: De flesta av dagens AI-metoder kommer aldrig att leda till sann intelligens

yann-lecun-sept-2022-1

"Jag tror att AI-system måste kunna resonera", säger Yann LeCun, Metas chefsforskare för AI. Dagens populära AI-metoder som Transformers, av vilka många bygger på hans eget banbrytande arbete på området, kommer inte att räcka. "Du måste ta ett steg tillbaka och säga, okej, vi byggde den här stegen, men vi vill åka till månen, och det finns inget sätt att den här stegen kommer att ta oss dit", säger LeCun.

Yann LeCun, chef för AI-forskare of Meta Properties, ägare till Facebook, Instagram och WhatsApp, kommer sannolikt att bocka av många människor inom sitt område. 

Med inlägget i juni av en tankebit på Open Review-servern, LeCun erbjöd en bred översikt av ett tillvägagångssätt som han tror lovar för att uppnå intelligens på mänsklig nivå i maskiner. 

Underförstått om det inte uttrycks i tidningen är påståendet att de flesta av dagens stora projekt inom AI aldrig kommer att kunna nå det målet på mänsklig nivå.

I en diskussion denna månad med ZDNet via Zoom gjorde LeCun klart att han med stor skepsis ser på många av de mest framgångsrika forskningsvägarna för djupinlärning för tillfället.

"Jag tror att de är nödvändiga men inte tillräckliga," sa Turing Award-vinnaren ZDNet av sina kamraters sysselsättningar. 

Dessa inkluderar stora språkmodeller som Transformer-baserade GPT-3 och deras liknande. Som LeCun karakteriserar det, tror Transformer-hängivna, "Vi symboliserar allt och tränar gigantisktmodeller för att göra diskreta förutsägelser, och på något sätt kommer AI att dyka upp ur detta."

"De har inte fel", säger han, "i den meningen att det kan vara en komponent i ett framtida intelligent system, men jag tror att det saknar viktiga delar."

Dessutom: Metas AI-lampa LeCun utforskar energigränsen för djupinlärning

Det är en häpnadsväckande kritik av vad som verkar fungera från forskaren som fulländade användningen av konvolutionella neurala nätverk, en praktisk teknik som har varit otroligt produktiv i program för djupinlärning. 

LeCun ser brister och begränsningar i många andra mycket framgångsrika områden inom disciplinen. 

Förstärkningsinlärning kommer heller aldrig att räcka, hävdar han. Forskare som David Silver från DeepMind, som utvecklade programmet AlphaZero som behärskade schack, Shogi och Go, fokuserar på program som är "mycket handlingsbaserade", konstaterar LeCun, men "det mesta av det vi lär oss gör vi inte gör det genom att faktiskt vidta åtgärder, vi gör det genom att observera.” 

Lecun, 62, ur ett perspektiv av årtionden av prestationer, uttrycker ändå en angelägenhet att konfrontera vad han tror är de återvändsgränder som många kan rusa mot, och att försöka locka sitt område i den riktning han tycker att saker och ting borde gå. 

"Vi ser många påståenden om vad vi ska göra för att driva framåt mot AI på mänsklig nivå", säger han. "Och det finns idéer som jag tror är felriktade."

"Vi har inte kommit till den punkt där våra intelligenta maskiner har lika mycket sunt förnuft som en katt", konstaterar Lecun. "Så varför börjar vi inte där?" 

Han har övergett sin tidigare tro på att använda generativa nätverk i saker som att förutsäga nästa bildruta i en video. "Det har varit ett fullständigt misslyckande", säger han. 

LeCun förnekar dem han kallar de "religiösa sannolikhetslärande", som "tror att sannolikhetsteori är det enda ramverk som du kan använda för att förklara maskininlärning." 

Det rent statistiska tillvägagångssättet är svårhanterligt, säger han. ”Det är för mycket begärt att en världsmodell ska vara helt sannolik; vi vet inte hur vi ska göra."

Inte bara akademikerna, utan industriell AI behöver en djupgående omtanke, hävdar LeCun. Den självkörande bilmassan, startups som Wayve, har varit "lite för optimistiska", säger han, genom att tro att de kunde "kasta data på" stora neurala nätverk "och du kan lära dig i stort sett vad som helst."

"Du vet, jag tror att det är fullt möjligt att vi kommer att ha självkörande bilar på nivå fem utan sunt förnuft", säger han och syftar på "ADAS," avancerat förarassistanssystem termer för självkörning, "men du kommer att behöva konstruera det för fan."

Sådan överkonstruerad självkörande teknik kommer att vara något så knarrig och skör som alla datorseendeprogram som gjordes föråldrade genom djupinlärning, tror han.

"I slutändan kommer det att finnas en mer tillfredsställande och möjligen bättre lösning som involverar system som gör ett bättre jobb med att förstå hur världen fungerar."

Längs vägen erbjuder LeCun några vissna åsikter om sina största kritiker, som NYU-professorn Gary Marcus – "han har aldrig bidragit med något till AI" - och Jürgen Schmidhuber, meddirektör för Dalle Molle Institute for Artificial Intelligence Research - "det är mycket lätt att göra flaggplantering.”

Utöver kritiken är den viktigare poängen från LeCun att vissa grundläggande problem möter all AI, i synnerhet hur man mäter information.

"Du måste ta ett steg tillbaka och säga, okej, vi har byggt den här stegen, men vi vill åka till månen, och det finns inget sätt att den här stegen kommer att ta oss dit", säger LeCun om sin önskan att få en omtanke. av grundläggande begrepp. "I grund och botten, det jag skriver här är att vi måste bygga raketer, jag kan inte ge dig detaljerna om hur vi bygger raketer, men här är de grundläggande principerna."

Tidningen, och LeCuns tankar i intervjun, kan bättre förstås genom att läsa LeCuns intervju tidigare i år med ZDNet där han argumenterar för energibaserat självövervakat lärande som en väg framåt för djupt lärande. Dessa reflektioner ger en känsla av kärnan i det han hoppas bygga som ett alternativ till de saker som han hävdar inte kommer att ta sig till mållinjen. 

Vad som följer är en lätt redigerad utskrift av intervjun.

ZDNet: Ämnet för vår chatt är denna artikel, "En väg mot autonom maskinintelligens", av vilken version 0.9.2 är den befintliga versionen, ja?

Yann LeCun: Ja, jag ser det här som ett arbetsdokument. Så jag lade upp det på Open Review och väntade på att folk skulle komma med kommentarer och förslag, kanske ytterligare referenser, och sedan ska jag producera en reviderad version. 

ZDNet: Jag ser att Juergen Schmidhuber redan lagt till några kommentarer till Open Review.

YL: Jo, det gör han alltid. Jag citerar ett av hans papper där i min tidning. Jag tror att argumenten som han gjorde på sociala nätverk att han i princip uppfann allt detta 1991, som han har gjort i andra fall, helt enkelt inte är fallet. Jag menar, det är väldigt lätt att göraflaggplantering, och för att, typ, skriva en idé utan några experiment, utan någon teori, föreslå bara att du kunde göra det på det här sättet. Men du vet, det är en stor skillnad mellan att bara ha idén och sedan få den att fungera på ett leksaksproblem, och sedan få den att fungera på ett verkligt problem, och sedan göra en teori som visar varför det fungerar, och sedan distribuera den. Det finns en hel kedja, och hans idé om vetenskaplig kredit är att det är den allra första personen som bara, typ, du vet, hade idén om det, som borde få all ära. Och det är löjligt. 

ZDNet: Tro inte på allt du hör på sociala medier. 

YL: Jag menar, huvudtidningen som han säger att jag borde citera har inte några av huvudidéerna som jag pratar om i tidningen. Han har gjort detta också med GAN och annat, vilket inte visade sig vara sant. Det är lätt att göra flaggplantering, det är mycket svårare att bidra. Och förresten, i den här artikeln sa jag uttryckligen att detta inte är en vetenskaplig artikel i ordets vanliga bemärkelse. Det är mer ett ställningstagande om vart den här saken ska ta vägen. Och det finns ett par idéer där som kan vara nya, men de flesta är det inte. Jag gör inte anspråk på någon prioritet på det mesta av det jag skrev i den tidningen, i huvudsak.

yann-lecun-sept-2022-2

Förstärkningsinlärning kommer heller aldrig att räcka, hävdar LeCun. Forskare som David Silver från DeepMind, som utvecklade programmet AlphaZero som behärskade schack, Shogi och Go, är "mycket handlingsbaserade", konstaterar LeCun, men "det mesta av det vi lär oss gör vi det inte genom att faktiskt ta handlingar, vi gör det genom att observera.” 

ZDNet: Och det är kanske ett bra ställe att börja, för jag är nyfiken på varför du gick den här vägen nu? Vad fick dig att tänka på detta? Varför ville du skriva detta?

YL: Nåväl, så, jag har funderat på det här väldigt länge, på en väg mot intelligens eller inlärning och förmågor på mänsklig nivå eller djurnivå. Och i mina föredrag har jag varit ganska högljudd om hela den här grejen att både övervakad inlärning och förstärkningsinlärning är otillräckliga för att efterlikna den typ av inlärning vi observerar hos djur och människor. Jag har gjort det här i ungefär sju eller åtta år. Så det är inte nyligen. Jag hade en keynote på NeurIPS för många år sedan där jag gjorde den poängen, i huvudsak, och olika föredrag, det finns inspelningar. Varför skriva ett papper nu? Jag har kommit till punkten - [Googles hjärnforskare] Geoff Hinton hade gjort något liknande - jag menar, förvisso, han mer än jag, vi ser att tiden tar slut. Vi är inte unga.

ZDNet: Sextio är den nya femtio. 

YL: Det är sant, men poängen är att vi ser många påståenden om vad vi ska göra för att driva framåt mot mänsklig nivå av AI. Och det finns idéer som jag tycker är felriktade. Så en idé är, Åh, vi borde bara lägga till symboliska resonemang ovanpå neurala nät. Och jag vet inte hur man gör det här. Så kanske det jag förklarade i tidningen kan vara ett tillvägagångssätt som skulle göra samma sak utan explicit symbolmanipulation. Detta är den sortens traditionella Gary Marcuses i världen. Gary Marcus är inte en AI-person, förresten, han är en psykolog. Han har aldrig bidragit med något till AI. Han har gjort ett riktigt bra arbete inom experimentell psykologi men han har aldrig skrivit en referentgranskad artikel om AI. Så det finns de människorna. 

Det finns [DeepMind principforskaren] David Silvers från världen som säger, du vet, belöning räcker, i grund och botten handlar det om förstärkningsinlärning, vi behöver bara göra det lite mer effektivt, okej? Och jag tror att de inte har fel, men jag tror att de nödvändiga stegen för att göra förstärkningsinlärning mer effektiv, i grund och botten, skulle förvisa förstärkningsinlärning till ett slags körsbär på kakan. Och den viktigaste delen som saknas är att lära sig hur världen fungerar, mestadels genom observation utan handling. Förstärkningsinlärning är väldigt handlingsbaserat, du lär dig saker om världen genom att vidta åtgärder och se resultatet.

ZDNet: Och det är belöningsfokuserat.

YL: Det är belöningsfokuserat, och det är actionfokuserat också. Så du måste agera i världen för att kunna lära dig något om världen. Och det huvudsakliga påståendet jag gör i tidningen om självövervakat lärande är att det mesta av lärandet vi gör, vi gör det inte genom att faktiskt vidta åtgärder, vi gör det genom att observera. Och det är väldigt oortodoxt, både för personer som lär sig förstärkning, i synnerhet, men också för många psykologer och kognitionsforskare som tror att, ni vet, handling är — jag säger inte att handling inte är väsentlig, det is grundläggande. Men jag tror att huvuddelen av det vi lär oss mest handlar om världens struktur, och involverar förstås interaktion och handling och lek, och sånt, men mycket av det är observerande.

ZDNet: Du kommer också att lyckas bocka av Transformer-folket, de språk-första personerna, samtidigt. Hur kan du bygga detta utan språk först? Du kanske lyckas pricka av många människor. 

YL: Ja, jag är van vid det. Så, ja, det finns språket först, som säger, du vet, intelligens handlar om språk, substratet för intelligens är språk, bla, bla, bla. Men det, liksom, avfärdar djurens intelligens. Du vet, vi är inte till den punkt där våra intelligenta maskiner har lika mycket sunt förnuft som en katt. Så varför börjar vi inte där? Vad är det som gör att en katt kan gripa omvärlden, göra ganska smarta saker och planera och sånt, och hundar ännu bättre? 

Sedan finns det alla människor som säger, Åh, intelligens är en social sak, eller hur? Vi är intelligenta eftersom vi pratar med varandra och vi utbyter information, och bla, bla, bla. Det finns alla typer av icke-sociala arter som aldrig träffar sina föräldrar som är väldigt smarta, som bläckfisk eller orangutanger.Jag menar, de [orangutanger] är verkligen utbildade av sin mamma, men de är inte sociala djur. 

Men den andra kategorin människor som jag kan bocka av är människor som säger att det räcker med skalning. Så i princip använder vi bara gigantiska Transformers, vi tränar dem på multimodal data som involverar, du vet, video, text, bla, bla, bla. Vi, liksom, förstenarallt, och tokenisera allt, och sedan träna gigantisktmodeller för att göra diskreta förutsägelser, i princip, och på något sätt kommer AI att dyka upp ur detta. De har inte fel, i den meningen att det kan vara en del av ett framtida intelligent system. Men jag tror att det saknas viktiga delar. 

Det finns en annan kategori av människor som jag kommer att bocka av med denna tidning. Och det är probabilisterna, de religiösa probabilisterna. Så de människor som tror att sannolikhetsteori är det enda ramverket som du kan använda för att förklara maskininlärning. Och som jag försökte förklara i stycket är det i grunden för mycket begärt att en världsmodell ska vara helt sannolik. Vi vet inte hur vi ska göra. Det är den beräkningsmässiga svårhanterligheten. Så jag föreslår att släppa hela denna idé. Och naturligtvis, du vet, detta är en enorm pelare för inte bara maskininlärning, utan all statistik, som påstår sig vara den normala formalismen för maskininlärning. 

Den andra saken - 

ZDNet: Du är på gång...

YL: — är vad som kallas generativa modeller. Så, tanken att du kan lära dig att förutsäga, och du kan kanske lära dig mycket om världen genom att förutsäga. Så jag ger dig en bit av video och jag ber systemet att förutsäga vad som händer härnäst i videon. Och jag kan be dig att förutsäga faktiska videorutor med alla detaljer. Men det jag argumenterar om i tidningen är att det faktiskt är för mycket begärt och för komplicerat. Och det här är något som jag ändrade uppfattning om. Fram till för ungefär två år sedan var jag en förespråkare för vad jag kallar generativa modeller för latent variabel, modeller som förutsäger vad som kommer att hända härnäst eller den information som saknas, möjligen med hjälp av en latent variabel, om förutsägelsen inte kan vara deterministisk. Och jag har gett upp det här. Och anledningen till att jag har gett upp detta är baserat på empiriska resultat, där människor har försökt tillämpa, typ, förutsägelse eller rekonstruktionsbaserad träning av den typ som används i BERToch stora språkmodeller, de har försökt tillämpa detta på bilder, och det har varit ett fullständigt misslyckande. Och anledningen till att det är ett fullständigt misslyckande är, återigen, på grund av begränsningarna för probabilistiska modeller där det är relativt lätt att förutsäga diskreta symboler som ord eftersom vi kan beräkna sannolikhetsfördelningen över alla ord i ordboken. Det är lätt. Men om vi ber systemet att producera sannolikhetsfördelningen över alla möjliga videorutor, har vi ingen aning om hur vi ska parametrisera det, eller så har vi en aning om hur vi ska parametrisera det, men vi vet inte hur vi ska normalisera det. Det träffar ett svårlöst matematiskt problem som vi inte vet hur vi ska lösa. 

yann-lecun-sept-2022-3

"Vi har inte kommit till den punkt där våra intelligenta maskiner har lika mycket sunt förnuft som en katt", konstaterar Lecun. "Så varför börjar vi inte där? Vad är det som gör att en katt kan gripa omvärlden, göra ganska smarta saker och planera och sånt, och hundar ännu bättre?”

Så det är därför jag säger att låt oss överge sannolikhetsteorin eller ramverket för sådana saker, den svagare, energibaserade modellerna. Jag har också förespråkat detta i årtionden, så det här är inte en ny sak. Men samtidigt överge idén om generativa modeller eftersom det finns många saker i världen som inte är förståeliga och inte förutsägbara. Om du är ingenjör kallar du det buller. Om du är fysiker kallar du det värme. Och om du är en maskininlärningsperson så kallar du det, du vet, irrelevanta detaljer eller vad som helst.

Så, exemplet jag använde i tidningen, eller jag har använt i samtal, är, du vill ha ett världsförutsägelsesystem som skulle hjälpa i en självkörande bil, eller hur? Den vill i förväg kunna förutsäga banorna för alla andra bilar, vad som kommer att hända med andra föremål som kan röra sig, fotgängare, cyklar, ett barn som springer efter en fotboll, sådana saker. Alltså, alla möjliga saker om världen. Men på gränsen till vägen kan det finnas träd, och det är vind idag, så löven rör sig i vinden, och bakom träden finns det en damm, och det är krusningar i dammen. Och det är i grunden till stor del oförutsägbara fenomen. Och du vill inte att din modell ska spendera en betydande mängd resurser på att förutsäga saker som är både svåra att förutsäga och irrelevanta. Så det är därför jag förespråkar den gemensamma inbäddningsarkitekturen, de där sakerna där variabeln du försöker modellera, du försöker inte förutsäga den, du försöker modellera den, men den körs genom en kodare, och den kodaren kan eliminera många detaljer om ingången som är irrelevanta eller för komplicerade - i princip motsvarar brus.

ZDNet: Vi diskuterade tidigare i år energibaserade modeller, JEPA och H-JEPA. Min uppfattning, om jag förstår dig rätt, är att du hittar punkten med låg energi där dessa två förutsägelser av X- och Y-inbäddningar är mest lika, vilket betyder att om det finns en duva i ett träd i ett, och det finns något i bakgrunden till en scen, kanske det inte är de väsentliga punkterna som gör dessa inbäddningar nära varandra.

YL: Höger. Så, JEPA-arkitekturen försöker faktiskt hitta en kompromiss, en kompromiss, mellan att extrahera representationer som är maximalt informativa om indata men också förutsägbara från varandra med en viss grad av noggrannhet eller tillförlitlighet. Den hittar en avvägning. Så, om den har valet mellan att spendera en enorm mängd resurser, inklusive detaljerna om lövens rörelser, och sedan modellera dynamiken som kommer att avgöra hur löven rör sig en sekund från och med nu, eller bara släppa det på golvet med bara i princip att köra Y-variabeln genom en prediktor som eliminerar alla dessa detaljer, det kommer förmodligen bara att eliminera den eftersom den är för svår att modellera och fånga.

ZDNet: En sak som är förvånad är att du hade varit en stor förespråkare för att säga "Det fungerar, vi kommer senare att ta reda på termodynamikens teori för att förklara det." Här har du använt dig av: "Jag vet inte hur vi nödvändigtvis ska lösa det här, men jag vill lägga fram några idéer för att fundera över det," och kanske till och med närma dig en teori eller en hypotes, kl. minst. Det är intressant eftersom det är många som spenderar mycket pengar på att arbeta på bilen som kan se fotgängaren oavsett om bilen har sunt förnuft. Och jag föreställer mig att några av dessa människor kommer att vara, inte bockade av, men de kommer att säga, "Det är bra, vi bryr oss inte om det inte har sunt förnuft, vi har byggt en simulering, simuleringen är fantastisk, och vi kommer att fortsätta att förbättra, vi kommer att fortsätta skala simuleringen.” 

Och så det är intressant att du nu kan säga, låt oss ta ett steg tillbaka och fundera över vad vi gör. Och branschen säger att vi bara ska skala, skala, skala, skala, för den vevan fungerar verkligen. Jag menar, halvledarveven på GPU:er fungerar verkligen.

YL: Det är fem frågor där. Så, jag menar, skalning är nödvändig. Jag kritiserar inte det faktum att vi bör skala. Vi borde skala. Dessa neurala nät blir bättre när de blir större. Det är ingen tvekan om att vi borde skala. Och de som kommer att ha en viss nivå av sunt förnuft kommer att vara stora. Det finns ingen väg runt det, tror jag. Så skalning är bra, det är nödvändigt, men inte tillräckligt. Det är poängen jag gör. Det är inte bara skalning. Det är den första punkten. 

Andra punkten, om teorin kommer först och sånt. Så jag tror att det finns koncept som kommer först att du måste ta ett steg tillbaka och säga, okej, vi byggde den här stegen, men vi vill åka till månen och det finns inget sätt att den här stegen kommer att ta oss dit. Så, i grund och botten, vad jag skriver här är, vi måste bygga raketer. Jag kan inte ge dig detaljerna om hur vi bygger raketer, men här är de grundläggande principerna. Och jag skriver ingen teori för det eller något, men det kommer att bli en raket, okej? Eller en rymdhiss eller vad som helst. Vi kanske inte har alla detaljer om all teknik. Vi försöker få några av dessa saker att fungera, som att jag har jobbat på JEPA. Gemensam inbäddning fungerar riktigt bra för bildigenkänning, men att använda den för att träna en världsmodell, det finns svårigheter. Vi jobbar på det, vi hoppas att vi ska få det att fungera soon, men vi kanske stöter på några hinder där som vi kanske inte kan övervinna. 

Sedan finns det en nyckeltanke i uppsatsen om resonemang där om vi vill att system ska kunna planera, vilket man kan tänka sig som en enkel form av resonemang, måste de ha latenta variabler. Med andra ord, saker som inte beräknas av något neuralt nät utan saker som är det - vars värde antas för att minimera någon objektiv funktion, någon kostnadsfunktion. Och sedan kan du använda denna kostnadsfunktion för att driva systemets beteende. Och det här är inte alls en ny idé, eller hur? Detta är mycket klassisk, optimal kontroll där grunden för detta går tillbaka till slutet av 50-talet, tidigt 60-tal. Så, inte hävda någon nyhet här. Men vad jag säger är att denna typ av slutledning måste vara en del av ett intelligent system som kan planera, och vars beteende kan specificeras eller kontrolleras inte av ett fast anslutet beteende, inte genom att imitera lutning, utan av en objektiv funktion som driver beteendet – driver inte inlärning, nödvändigtvis, men det driver beteende. Du vet, vi har det i vår hjärna, och varje djur har inneboende kostnader eller inneboende motiv för saker. Det får nio månader gamla bebisar att vilja stå upp. Kostnaden för att vara glad när du står upp, den termen i kostnadsfunktionen är fast. Men hur du står upp är inte, det är att lära.

yann-lecun-sept-2022-4

"Skalning är bra, det är nödvändigt, men inte tillräckligt", säger LeCun om gigantiska språkmodeller som de Transformer-baserade programmen av GPT-3-varianten. Transformer-hängivna tror, ​​"Vi symboliserar allt och tränar gigantisktmodeller för att göra diskreta förutsägelser, och på något sätt kommer AI att dyka upp ur detta ... men jag tror att det saknar viktiga delar."

ZDNet: Bara för att avsluta den punkten verkar mycket av djupinlärningsgemenskapen vara bra att gå vidare med något som inte har sunt förnuft. Det verkar som att du här framför ett ganska tydligt argument att det någon gång blir en återvändsgränd. Vissa människor säger att vi inte behöver en autonom bil med sunt förnuft eftersom skalning kommer att göra det. Det låter som att du säger att det inte är okej att bara fortsätta på den vägen?

YL: Du vet, jag tror att det är fullt möjligt att vi kommer att ha nivå-fem autonoma bilar utan sunt förnuft. Men problemet med det här tillvägagångssättet, det här kommer att vara tillfälligt, eftersom du kommer att behöva konstruera det. Så, du vet, kartlägg hela världen, koppla in alla typer av specifikt beteende i hörnfall, samla in tillräckligt med data för att du har alla, typ, konstiga situationer du kan stöta på på vägarna, bla, bla, bla. Och min gissning är att med tillräckligt med investering och tid, kan du helt enkelt ta fram det. Men i slutändan kommer det att finnas en mer tillfredsställande och möjligen bättre lösning som involverar system som gör ett bättre jobb med att förstå hur världen fungerar, och som, du vet, har en nivå av vad vi skulle kalla sunt förnuft. Det behöver inte vara sunt förnuft på mänsklig nivå, utan någon typ av kunskap som systemet kan skaffa sig genom att se, men inte se någon köra, bara se saker som rör sig och förstå mycket om världen, bygga en grund av bakgrund kunskap om hur världen fungerar, ovanpå vilken du kan lära dig att köra. 

Låt mig ta ett historiskt exempel på detta. Klassisk datorseende baserades på en mängd fasta, konstruerade moduler, ovanpå vilka du skulle ha, typ, ett tunt lager av inlärning. Så, sakerna som slogs av AlexNet 2012, hade i princip ett första steg, typ av handgjorda funktionsextraktioner, som SIFTs [Scale-Invariant Feature Transform (SIFT), en klassisk synteknik för att identifiera framträdande objekt i en bild] och HOG [Histogram of Oriented Gradients, en annan klassisk teknik] och diverse andra saker. Och sedan det andra lagret av, typ, medelnivåfunktioner baserade på funktionskärnor och vad som helst, och någon sorts oövervakad metod. Och ovanpå detta lägger du en stödvektormaskin, eller en relativt enkel klassificerare. Och det var, typ, standardpipelinen från mitten av 2000-talet till 2012. Och det ersattes av end-to-end konvolutionella nät, där du inte kopplar något av detta, du bara har en massa data, och du tränar saken från ände till slut, vilket är det tillvägagångssätt som jag hade förespråkat länge, men du vet, fram till dess var det inte praktiskt för stora problem. 

Det har funnits en liknande historia inom taligenkänning där det återigen fanns en enorm mängd detaljerad ingenjörskonst för hur du förbearbetar data, du extraherar massskalig cepstrum [en invers av Fast Fourier Transform för signalbehandling] och sedan du har dolda Markov-modeller, med en typ av förinställd arkitektur, bla, bla, bla, med Mixture of Gaussians. Och så, det är lite av samma arkitektur som vision där man har handgjord front-end, och sedan ett något oövervakat, tränat, mellanlager och sedan ett övervakat lager ovanpå. Och nu har det i princip utplånats av neurala nät från ände till ände. Så jag ser något liknande där med att försöka lära sig allt, men du måste ha rätt förut, rätt arkitektur, rätt struktur.

yann-lecun-sept-2022-5

Den självkörande bilmassan, startups som Waymo och Wayve, har varit "lite för optimistiska", säger han, genom att tro att de kunde "kasta data på det, och du kan lära dig i stort sett vad som helst." Självkörande bilar på nivå 5 av ADAS är möjliga, "Men du kommer att behöva konstruera det hela" och kommer att vara "spröda" som tidiga datorseende modeller.

ZDNet: Vad du säger är att en del människor kommer att försöka konstruera det som för närvarande inte fungerar med djupinlärning för tillämpbarhet, till exempel inom industrin, och de kommer att börja skapa något som är det som blev föråldrat inom datorseende?

YL: Höger. Och det är delvis varför människor som arbetar med autonom körning har varit lite för optimistiska under de senaste åren, är för att du vet, du har sådana här, typ av generiska saker som konvolutionella nät och transformatorer, som du kan kasta data på det. , och den kan lära sig i stort sett vad som helst. Så du säger, okej, jag har lösningen på det problemet. Det första du gör är att du bygger en demo där bilen kör sig själv i några minuter utan att skada någon. Och sedan inser du att det finns många hörnfall, och du försöker rita kurvan för hur mycket bättre jag blir när jag fördubblar träningsuppsättningen, och du inser att du aldrig kommer att komma dit eftersom det finns alla typer av hörnfall . Och du måste ha en bil som kommer att orsaka en dödsolycka mindre än var 200:e miljon kilometer, eller hur? Så vad gör du? Tja, du går åt två håll. 

Den första riktningen är, hur kan jag minska mängden data som är nödvändig för att mitt system ska lära sig? Och det är där självövervakat lärande kommer in. Så många självkörande bilkläder är väldigt intresserade av självövervakat lärande eftersom det är ett sätt att fortfarande använda gigantiska mängder tillsynsdata för att imitera inlärning, men få bättre prestanda genom att förträning, i huvudsak. Och det har inte riktigt slagit ut än, men det kommer. Och så finns det det andra alternativet, som de flesta företag som är mer avancerade vid det här laget har anammat, vilket är, okej, vi kan göra utbildningen från början till slut, men det finns många hörnfall som vi kan. t handtag, så vi kommer bara att konstruera system som kommer att ta hand om dessa hörnfall, och i grund och botten behandla dem som specialfall, och koppla in kontrollen, och sedan koppla en massa grundläggande beteende för att hantera speciella situationer. Och om du har ett tillräckligt stort team av ingenjörer, kanske du klarar det. Men det kommer att ta lång tid, och i slutändan kommer det fortfarande att vara lite skört, kanske tillräckligt tillförlitligt för att du kan installera det, men med en viss grad av sprödhet, vilket med ett mer lärande-baserat tillvägagångssätt som kan visas i framtid kommer bilar inte att ha eftersom det kan ha en viss nivå av sunt förnuft och förståelse för hur världen fungerar. 

På kort sikt kommer den typ av tekniska strategin att vinna – den vinner redan. Det är Waymo och Cruise of the World och Wayveoch vad som helst, det är vad de gör. Sedan finns det den självövervakade inlärningsmetoden, som förmodligen kommer att hjälpa den tekniska metoden att göra framsteg. Men sedan, i det långa loppet, som kan vara för lång tid för dessa företag att vänta på, skulle det förmodligen vara ett mer integrerat autonomt intelligent körsystem.

ZDNet: Vi säger bortom investeringshorisonten för de flesta investerare.

YL: Det är rätt. Så frågan är, kommer folk att tappa tålamodet eller få slut på pengar innan prestandan når den önskade nivån.

ZDNet: Finns det något intressant att säga om varför du valde några av de element du valde i modellen? Eftersom du citerar Kenneth Craik [1943,Förklaringens natur], och du citerar Bryson och Ho [1969, Tillämpade optimal kontroll], och jag är nyfiken på varför du började med dessa influenser, om du särskilt trodde att dessa människor hade det spikat så långt som de hade gjort. Varför började du där?

YL: Tja, jag tror absolut inte att de hade alla detaljer spikade. Så, Bryson och Ho, det här är en bok jag läste tillbaka 1987 när jag var postdoc hos Geoffrey Hinton i Toronto. Men jag kände till den här linjen i förväg när jag skrev min doktorsexamen, och gjorde kopplingen mellan optimal kontroll och backprop i huvudsak. Om du verkligen ville vara, du vet, en annan Schmidhuber, skulle du säga att de verkliga uppfinnarna av backprop faktiskt var optimal kontrollteoretiker Henry J. Kelley, Arthur Bryson och kanske till och med Lev Pontryagin, som är en rysk teoretiker av optimal kontroll tillbaka i slutet av 50-talet. 

Så, de kom på det, och i själva verket kan du faktiskt se roten till detta, matematiken under det, är lagrangiansk mekanik. Så du kan faktiskt gå tillbaka till Euler och Lagrange och hitta en känsla av detta i deras definition av Lagrangs klassiska mekanik, verkligen. Så, i samband med optimal kontroll, vad dessa killar var intresserade av var i princip att beräkna raketbanor. Du vet, det här var den tidiga rymdåldern. Och om du har en modell av raketen, säger den att här är raketens tillstånd vid tidpunkten t, och här är åtgärden jag kommer att vidta, så, dragkraft och ställdon av olika slag, här är tillståndet för raketen vid tidpunkten t + 1.

ZDNet: En stat-handlingsmodell, en värdemodell.

YL: Just det, grunden för kontroll. Så nu kan du simulera skjutningen av din raket genom att föreställa dig en sekvens av kommandon, och sedan har du någon kostnadsfunktion, som är raketens avstånd till sitt mål, en rymdstation eller vad det nu är. Och sedan genom någon form av gradientnedstigning kan du lista ut hur jag kan uppdatera min handlingssekvens så att min raket faktiskt kommer så nära målet som möjligt. Och det måste komma genom att bakåtpropagera signaler bakåt i tiden. Och det är back-propagation, gradient back-propagation. Dessa signaler, de kallas konjugerade variabler i Lagrangian mekanik, men i själva verket är de gradienter. Så de uppfann backprop, men de insåg inte att den här principen kunde användas för att träna ett flerstegssystem som kan göra mönsterigenkänning eller något liknande. Detta insågs inte riktigt förrän kanske i slutet av 70-talet, början av 80-talet, och sedan implementerades det inte och gjordes för att fungera förrän i mitten av 80-talet. Okej, så, det var här backprop verkligen, typ, tog fart eftersom folk visade här är några rader kod som du kan träna ett neuralt nät, från ände till ände, flerlager. Och det lyfter begränsningarna för Perceptron. Och ja, det finns kopplingar med optimal kontroll, men det är okej.

ZDNet: Så, det är långt att säga att de här influenserna som du började med gick tillbaka till backprop, och det var viktigt som utgångspunkt för dig?

YL: Ja, men jag tror att det folk glömde lite, det var ganska mycket arbete med det här, du vet, på 90-talet, eller till och med 80-talet, inklusive av personer som Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] och sådana människor som inte gör neurala nät längre, utan tanken att du kan använda neurala nät för kontroll, och du kan använda klassiska idéer om optimal kontroll. Så saker som det som kallas modellförutsägande kontroll, det som nu kallas modellförutsägande kontroll, den här idén att du kan simulera eller föreställa dig resultatet av en sekvens av åtgärder om du har en bra modell av systemet du försöker kontrollera och miljön den befinner sig i. Och sedan genom gradientnedstigning, i huvudsak – det här är inte lärande, det här är slutledning – kan du ta reda på vad som är den bästa sekvensen av åtgärder som kommer att minimera mitt mål. Så, användningen av en kostnadsfunktion med en latent variabel för slutledning är, tror jag, något som nuvarande grödor av storskaliga neurala nät har glömt bort. Men det var en mycket klassisk komponent av maskininlärning under lång tid. Så, varje Bayesian Net eller grafisk modell eller probabilistisk grafisk modell använde denna typ av slutledning. Du har en modell som fångar beroenden mellan ett gäng variabler, du får veta värdet på några av variablerna och sedan måste du sluta dig till det mest sannolika värdet av resten av variablerna. Det är den grundläggande principen för slutledning i grafiska modeller och Bayesian Nets, och sådana saker. Och jag tror att det i grund och botten är vad resonemang ska handla om, resonemang och planering.

ZDNet: Du är en garderobsbayesian.

YL: Jag är en icke-probabilistisk Bayesian. Jag gjorde det skämtet förut. Jag var faktiskt på NeurIPS för några år sedan, jag tror det var 2018 eller 2019, och jag fångades på video av en Bayesian som frågade mig om jag var Bayesian, och jag sa, Japp, jag är Bayesian, men jag Jag är en icke-probabilistisk Bayesian, typ, en energibaserad Bayesian, om du vill. 

ZDNet: Vilket definitivt låter som något från Star Trek. Du nämnde i slutet av den här artikeln att det kommer att ta år av riktigt hårt arbete för att förverkliga vad du föreställer dig. Berätta för mig om vad en del av det arbetet för tillfället består av.

YL: Så jag förklarar hur du tränar och bygger JEPA i tidningen. Och kriteriet jag förordar är att ha något sätt att maximera informationsinnehållet som representationerna som extraheras har om input. Och sedan minimerar den andra prediktionsfelet. Och om du har en latent variabel i prediktorn som tillåter prediktorn att vara icke-deterministisk, måste du även reglera denna latenta variabel genom att minimera dess informationsinnehåll. Så, du har två problem nu, det är hur du maximerar informationsinnehållet i utdata från något neuralt nät, och den andra är hur du minimerar informationsinnehållet i någon latent variabel? Och om du inte gör de två sakerna kommer systemet att kollapsa. Det kommer inte att lära sig något intressant. Det kommer att ge noll energi till allt, något sådant, vilket inte är en bra modell av beroende. Det är det kollapsförebyggande problemet som jag nämner. 

Och jag säger att av alla de saker som människor någonsin har gjort, det finns bara två kategorier av metoder för att förhindra kollaps. Den ena är kontrastiva metoder och den andra är de reguljära metoderna. Så denna idé att maximera informationsinnehållet i representationerna av de två ingångarna och minimera informationsinnehållet i den latenta variabeln, som hör till regulariserade metoder. Men mycket av arbetet i dessa gemensamma inbäddningsarkitekturer använder kontrastiva metoder. Faktum är att de förmodligen är de mest populära för tillfället. Så frågan är exakt hur man mäter informationsinnehåll på ett sätt som man kan optimera eller minimera? Och det är där saker och ting blir komplicerade eftersom vi faktiskt inte vet hur man mäter informationsinnehåll. Vi kan approximera det, vi kan övergränsa det, vi kan göra sådana saker. Men de mäter faktiskt inte informationsinnehållet, vilket faktiskt till viss del inte ens är väldefinierat.

ZDNet: Det är inte Shannons lag? Det är inte informationsteori? Du har en viss mängd entropi, bra entropi och dålig entropi, och den goda entropin är ett symbolsystem som fungerar, dålig entropi är brus. Är inte allt löst av Shannon?

YL: Du har rätt, men det finns ett stort fel bakom det. Du har rätt i den meningen att om du har data som kommer mot dig och du på något sätt kan kvantisera data till diskreta symboler, och sedan mäter sannolikheten för var och en av dessa symboler, så är den maximala mängden information som bärs av dessa symboler summa över de möjliga symbolerna för Pi log Pi, höger? Var Pi är sannolikheten för symbol jag — det är Shannon-entropin. [Shannons lag formuleras vanligtvis som H = – ∑ pi log pi.]

Men här är problemet: Vad är det Pi? Det är enkelt när antalet symboler är litet och symbolerna ritas oberoende av varandra. När det finns många symboler och beroenden är det väldigt svårt. Så, om du har en sekvens av bitar och du antar att bitarna är oberoende av varandra och sannolikheten är lika mellan ett och noll eller vad som helst, då kan du enkelt mäta entropin, inga problem. Men om de saker som kommer till dig är högdimensionella vektorer, som, du vet, dataramar eller något liknande, vad är Pi? Vad är fördelningen? Först måste du kvantisera det utrymmet, som är ett högdimensionellt, kontinuerligt utrymme. Du har ingen aning om hur man kvantifierar detta ordentligt. Du kan använda k-medel etc. Det är vad folk gör när de gör videokomprimering och bildkomprimering. Men det är bara en uppskattning. Och då måste man göra antaganden om oberoende. Så det är tydligt att i en video är successiva bildrutor inte oberoende. Det finns beroenden, och den ramen kan bero på en annan ram du såg för en timme sedan, som var en bild av samma sak. Så du vet, du kan inte mäta Pi. Att mäta Pi, du måste ha ett maskininlärningssystem som lär sig att förutsäga. Och så är du tillbaka till det tidigare problemet. Så du kan i princip bara approximera informationsmåttet. 

yann-lecun-sept-2022-6

"Frågan är exakt hur man mäter informationsinnehåll på ett sätt som man kan optimera eller minimera?" säger LeCun. "Och det är där saker och ting blir komplicerade eftersom vi faktiskt inte vet hur man mäter informationsinnehåll." Det bästa som kan göras hittills är att hitta en proxy som är "tillräckligt bra för den uppgift vi vill ha."

Låt mig ta ett mer konkret exempel. En av algoritmerna som vi har lekt med, och jag har pratat om i stycket, är det här som kallas VICReg, varians-invarians-kovarians-regularisering. Det är i en separat tidning som publicerades på ICLR, och den lades på arXiv ungefär ett år innan, 2021. Och tanken där är att maximera informationen. Och idén kom faktiskt ur ett tidigare papper från min grupp som hette Barlow Tvillingar. Du maximerar informationsinnehållet i en vektor som kommer ut ur ett neuralt nät genom att i princip anta att det enda beroendet mellan variabler är korrelation, linjärt beroende. Så om du antar att det enda beroende som är möjligt mellan par av variabler, eller mellan variabler i ditt system, är korrelationer mellan par av värdesaker, vilket är den extremt grova approximationen, då kan du maximera informationsinnehållet som kommer ut ur ditt system genom att se till att alla variabler har en varians som inte är noll — låt oss säga, varians ett, det spelar ingen roll vad det är — och sedan back-korrelera dem, samma process som kallas blekning, det är inte heller nytt. Problemet med detta är att du mycket väl kan ha extremt komplexa beroenden mellan antingen grupper av variabler eller till och med bara par av variabler som inte är linjära beroenden, och de dyker inte upp i korrelationer. Så, till exempel, om du har två variabler, och alla punkter i dessa två variabler hamnar i någon form av spiral, finns det ett mycket starkt beroende mellan de två variablerna, eller hur? Men i själva verket, om du beräknar korrelationen mellan dessa två variabler, är de inte korrelerade. Så här är ett exempel där informationsinnehållet i dessa två variabler faktiskt är väldigt litet, det är bara en kvantitet eftersom det är din position i spiralen. De är de-korrelerade, så du tror att du har mycket information som kommer ut ur de två variablerna när du faktiskt inte gör det, du har bara, du vet, du kan förutsäga en av variablerna från den andra, i huvudsak. Så det visar att vi bara har väldigt ungefärliga sätt att mäta informationsinnehåll.

ZDNet: Och så det är en av sakerna som du måste arbeta med nu med det här? Det här är den större frågan om hur vet vi när vi maximerar och minimerar informationsinnehållet?

YL:  Eller om proxyn vi använder för detta är tillräckligt bra för den uppgift vi vill ha. Faktum är att vi gör detta hela tiden inom maskininlärning. De kostnadsfunktioner vi minimerar är aldrig de som vi faktiskt vill minimera. Så, till exempel, du vill göra klassificering, okej? Kostnadsfunktionen du vill minimera när du tränar en klassificerare är antalet misstag klassificeraren gör. Men det är en icke-särskiljbar, hemsk kostnadsfunktion som du inte kan minimera eftersom du vet att du kommer att ändra vikten på ditt neurala nät, ingenting kommer att förändras förrän ett av dessa prover ändrade sitt beslut, och sedan ett hopp i felet, positivt eller negativt.

ZDNet: Så du har en proxy som är en objektiv funktion som du definitivt kan säga, vi kan definitivt flödesgradienter för denna sak.

YL: Det är rätt. Så folk använder den här korsentropiförlusten, eller SOFTMAX, du har flera namn för det, men det är samma sak. Och det är i grunden en smidig approximation av antalet fel som systemet gör, där utjämningen görs genom att i princip ta hänsyn till poängen som systemet ger till var och en av kategorierna.

ZDNet: Är det något vi inte har täckt som du skulle vilja täcka?

YL: Det är nog att betona huvudpunkterna. Jag tror att AI-system måste kunna resonera, och processen för detta som jag förespråkar är att minimera något mål med avseende på någon latent variabel. Det gör att systemen kan planera och resonera. Jag tycker att vi borde överge det probabilistiska ramverket eftersom det är svårlöst när vi vill göra saker som att fånga beroenden mellan högdimensionella, kontinuerliga variabler. Och jag förespråkar att överge generativa modeller eftersom systemet kommer att behöva ägna för mycket resurser till att förutsäga saker som är för svåra att förutsäga och kanske förbrukar för mycket resurser. Och det är ganska mycket det. Det är huvudbudskapen, om du vill. Och så den övergripande arkitekturen. Sedan finns det de där spekulationerna om medvetandets natur och konfiguratorns roll, men det här är verkligen spekulationer.

ZDNet: Vi kommer till det nästa gång. Jag tänkte fråga dig, hur jämför du den här saken? Men jag antar att du är lite längre ifrån benchmarking just nu?

YL: Inte nödvändigtvis så långt inne, typ förenklade versioner. Du kan göra det som alla gör i kontroll eller förstärkningsinlärning, det vill säga att du tränar saken att spela Atari-spel eller något liknande eller något annat spel som har en viss osäkerhet i sig.

ZDNet: Tack för din tid, Yann.

Källa