LeCun, guru AI al lui Meta: Majoritatea abordărilor AI de astăzi nu vor duce niciodată la inteligență adevărată

yann-lecun-sept-2022-1

„Cred că sistemele AI trebuie să fie capabile să raționeze”, spune Yann LeCun, om de știință AI al Meta. Abordările populare de AI de astăzi, cum ar fi Transformers, multe dintre ele se bazează pe propria sa activitate de pionierat în domeniu, nu vor fi suficiente. „Trebuie să faci un pas înapoi și să spui: Bine, am construit această scară, dar vrem să mergem pe Lună și nu există nicio posibilitate că această scară ne va duce acolo”, spune LeCun.

Yann LeCun, om de știință șef AI de Meta Properties, proprietarul Facebook, Instagram și WhatsApp, este probabil să bifeze o mulțime de oameni din domeniul său. 

Odată cu postarea în iunie a unui articol de gândire pe serverul Open Review, LeCun a oferit o privire de ansamblu asupra unei abordări despre care crede că este promițătoare pentru obținerea inteligenței la nivel uman în mașini. 

Subînțeles, dacă nu este articulat în lucrare, este afirmația că majoritatea proiectelor mari de astăzi în IA nu vor putea niciodată să atingă acel obiectiv la nivel uman.

Într-o discuție luna aceasta cu ZDNet prin Zoom, LeCun a precizat că vede cu mare scepticism multe dintre cele mai de succes căi de cercetare în domeniul învățării profunde în acest moment.

„Cred că sunt necesare, dar nu suficiente”, a spus câștigătorul premiului Turing ZDNet din preocupările semenilor săi. 

Acestea includ modele mari de limbaj, cum ar fi GPT-3 bazat pe Transformer și asemănările lor. Așa cum o caracterizează LeCun, devotații Transformerului cred: „Nom simbolizează totul și antrenăm giganticmodele pentru a face predicții discrete și cumva AI va ieși din asta.”

„Nu greșesc”, spune el, „în sensul că aceasta poate fi o componentă a unui viitor sistem inteligent, dar cred că îi lipsesc piese esențiale.”

De asemenea: Luminarul AI al lui Meta, LeCun, explorează frontiera energetică a învățării profunde

Este o critică uluitoare a ceea ce pare să funcționeze, venită de la savantul care a perfecționat utilizarea rețelelor neuronale convoluționale, o tehnică practică care a fost incredibil de productivă în programele de învățare profundă. 

LeCun vede defecte și limitări în multe alte domenii de mare succes ale disciplinei. 

Învățarea prin întărire nu va fi niciodată suficientă, susține el. Cercetători precum David Silver de la DeepMind, care a dezvoltat programul AlphaZero care a stăpânit Șahul, Shogi și Go, se concentrează pe programe care sunt „foarte bazate pe acțiune”, observă LeCun, dar „cea mai mare parte a învățării pe care o facem, nu o facem. o facem luând efectiv acțiuni, o facem observând.” 

Lecun, în vârstă de 62 de ani, dintr-o perspectivă a deceniilor de realizare, își exprimă totuși o urgență de a se confrunta cu ceea ce el crede că sunt aleile oarbe spre care mulți s-ar putea grăbi și de a încerca să-și convingă domeniul în direcția pe care el crede că ar trebui să meargă lucrurile. 

„Vedem o mulțime de afirmații cu privire la ce ar trebui să facem pentru a avansa către IA la nivel uman”, spune el. „Și există idei care cred că sunt greșit direcționate.”

„Nu suntem în punctul în care mașinile noastre inteligente au la fel de mult bun simț ca o pisică”, observă Lecun. „Deci, de ce nu începem de acolo?” 

El și-a abandonat credința anterioară în utilizarea rețelelor generative în lucruri precum prezicerea următorului cadru dintr-un videoclip. „A fost un eșec total”, spune el. 

LeCun îi condamnă pe cei pe care îi numește „probabiliștii religioși”, care „cred că teoria probabilității este singurul cadru pe care îl poți folosi pentru a explica învățarea automată”. 

Abordarea pur statistică este insolubilă, spune el. „Este prea mult să ceri ca un model mondial să fie complet probabilist; nu știm cum să o facem.”

Nu doar mediul universitar, ci și IA industrială are nevoie de o regândire profundă, susține LeCun. Mulțimea de mașini care se conduce singur, startup-uri precum Wayve, au fost „puțin prea optimiste”, spune el, crezând că ar putea „arunca date către” rețele neuronale mari „și poți învăța aproape orice”.

„Știi, cred că este absolut posibil să avem mașini autonome de nivelul cinci fără bun simț”, spune el, referindu-se la „ADAS”. sistem avansat de asistență a șoferului termeni pentru conducerea autonomă, „dar va trebui să-l găsești al naibii”.

O astfel de tehnologie de conducere autonomă supra-proiectată va fi ceva la fel de scârțâitoare și fragilă ca toate programele de viziune computerizată care au fost învechite prin învățarea profundă, crede el.

„În cele din urmă, va exista o soluție mai satisfăcătoare și, eventual, mai bună, care implică sisteme care înțeleg mai bine modul în care funcționează lumea.”

Pe parcurs, LeCun oferă câteva puncte de vedere îngrozitoare ale celor mai mari critici ai săi, cum ar fi profesorul de la NYU Gary Marcus — „nu a contribuit niciodată cu nimic la AI” — și Jürgen Schmidhuber, co-director al Institutului Dalle Molle pentru Cercetare în Inteligență Artificială — „este foarte ușor de plantat steag.”

Dincolo de critici, aspectul mai important făcut de LeCun este că anumite probleme fundamentale se confruntă cu toată inteligența artificială, în special modul de măsurare a informațiilor.

„Trebuie să faci un pas înapoi și să spui: Bine, am construit această scară, dar vrem să mergem pe Lună și nu există nicio posibilitate că această scară ne va duce acolo”, spune LeCun despre dorința sa de a determina o regândire. a conceptelor de bază. „Practic, ceea ce scriu aici este că trebuie să construim rachete, nu vă pot oferi detalii despre cum construim rachete, dar aici sunt principiile de bază.”

Lucrarea și gândurile lui LeCun din interviu pot fi înțelese mai bine citind interviul lui LeCun la începutul acestui an cu ZDNet în care pledează pentru învățarea auto-supravegheată bazată pe energie ca o cale înainte pentru învățarea profundă. Aceste reflecții dau un sens al abordării de bază a ceea ce spera să construiască ca alternativă la lucrurile despre care susține că nu vor ajunge la linia de sosire. 

Ceea ce urmează este o transcriere ușor editată a interviului.

ZDNet: Subiectul chat-ului nostru este această lucrare, „O cale către inteligența mașinilor autonome”, a cărei versiune 0.9.2 este versiunea existentă, da?

Yann LeCun: Da, consider asta un fel de document de lucru. Așa că, l-am postat pe Open Review, așteptând ca oamenii să facă comentarii și sugestii, poate referințe suplimentare, iar apoi voi produce o versiune revizuită. 

ZDNet: Văd că Juergen Schmidhuber a adăugat deja câteva comentarii la Open Review.

YL: Ei bine, da, întotdeauna o face. Citez una dintre lucrările lui acolo în lucrarea mea. Cred că argumentele pe care le-a susținut pe rețelele de socializare că practic a inventat toate acestea în 1991, așa cum a făcut în alte cazuri, pur și simplu nu este cazul. Adică, este foarte ușor de făcutplantarea steagurilor și, într-un fel, să scrieți o idee fără experimente, fără nicio teorie, sugerați doar că ați putea face acest lucru. Dar, știi, există o mare diferență între a avea ideea și apoi a-l face să funcționeze într-o problemă de jucărie și apoi a-l face să funcționeze la o problemă reală și apoi a face o teorie care să arate de ce funcționează și apoi desfășurându-l. Există un întreg lanț, iar ideea lui despre credit științific este că este prima persoană care doar, cam, știi, a avut ideea asta, care ar trebui să primească tot creditul. Și asta e ridicol. 

ZDNet: Nu crede tot ce auzi pe rețelele sociale. 

YL: Adică, lucrarea principală pe care spune că ar trebui să o citez nu are niciuna dintre ideile principale despre care vorbesc în lucrare. A făcut asta și cu GAN-uri și alte lucruri, care nu s-au dovedit a fi adevărate. Este ușor să faci steagul, este mult mai greu să aduci o contribuție. Și, apropo, în această lucrare specială, am spus în mod explicit că aceasta nu este o lucrare științifică în sensul obișnuit al termenului. Este mai mult un document de poziție despre unde ar trebui să meargă chestia asta. Și există câteva idei care ar putea fi noi, dar cele mai multe nu sunt. Nu pretind nicio prioritate pentru majoritatea a ceea ce am scris în acea lucrare, în esență.

yann-lecun-sept-2022-2

Învățarea prin întărire nu va fi niciodată suficientă, susține LeCun. Cercetătorii precum David Silver de la DeepMind, care a dezvoltat programul AlphaZero care a stăpânit Șahul, Shogi și Go, sunt „foarte bazați pe acțiune”, observă LeCun, dar „cea mai mare parte a învățării pe care o facem, nu o facem luând de fapt. acțiuni, o facem observând.” 

ZDNet: Și acesta este poate un loc bun pentru a începe, pentru că sunt curios de ce ai urmat acest drum acum? Ce te-a pus pe gânduri la asta? De ce ai vrut să scrii asta?

YL: Ei bine, deci, m-am gândit la asta de foarte mult timp, la o cale către inteligență sau învățare și capacități la nivel uman sau animal. Și, în discuțiile mele, am vorbit destul de mult despre toată această chestiune că atât învățarea supravegheată, cât și învățarea prin întărire sunt insuficiente pentru a emula tipul de învățare pe care îl observăm la animale și la oameni. Fac asta de vreo șapte sau opt ani. Deci, nu este recent. Am avut o conferință la NeurIPS în urmă cu mulți ani în care am subliniat acest punct, în esență, și diverse discuții, există înregistrări. Acum, de ce să scrii o lucrare acum? Am ajuns la subiect – [cercetătorul Google Brain] Geoff Hinton a făcut ceva similar – adică, cu siguranță, el mai mult decât mine, vedem că timpul se scurge. Nu suntem tineri.

ZDNet: Saizeci este noul cincizeci. 

YL: Este adevărat, dar ideea este că vedem o mulțime de afirmații cu privire la ce ar trebui să facem pentru a avansa către IA la nivel uman. Și există idei care cred că sunt greșit direcționate. Deci, o idee este: Oh, ar trebui să adăugăm doar raționament simbolic peste rețelele neuronale. Și nu știu cum să fac asta. Deci, poate ceea ce am explicat în lucrare ar putea fi o abordare care ar face același lucru fără manipularea explicită a simbolurilor. Acesta este genul de Gary Marcus în mod tradițional din lume. Gary Marcus nu este un AI, apropo, el este psiholog. Nu a contribuit niciodată cu nimic la AI. A făcut o muncă foarte bună în psihologia experimentală, dar nu a scris niciodată o lucrare revizuită de colegii despre AI. Deci, sunt acei oameni. 

Există David Silvers [omul de știință de cercetare al principiului DeepMind] din lume care spune, știi, recompensa este suficientă, practic, totul este despre învățarea prin întărire, trebuie doar să o facem puțin mai eficientă, bine? Și, cred că nu greșesc, dar cred că pașii necesari pentru ca învățarea prin întărire să fie mai eficientă, practic, ar releva învățarea prin întărire într-un fel de cireșă pe tort. Iar partea principală care lipsește este să înveți cum funcționează lumea, mai ales prin observare fără acțiune. Învățarea prin întărire se bazează foarte mult pe acțiune, înveți lucruri despre lume luând acțiuni și văzând rezultatele.

ZDNet: Și este axat pe recompensă.

YL: Este axat pe recompensă și este, de asemenea, axat pe acțiune. Deci, trebuie să acționezi în lume pentru a putea învăța ceva despre lume. Și principala afirmație pe care o fac în lucrarea despre învățarea auto-supravegheată este că cea mai mare parte a învățării pe care o facem, nu o facem prin acțiuni efective, ci o facem observând. Și este foarte neortodox, atât pentru oamenii care învață prin întărire, în special, dar și pentru o mulțime de psihologi și oameni de știință cognitiv care cred că, știi, acțiunea este - nu spun că acțiunea nu este esențială, ci is esenţial. Dar cred că cea mai mare parte a ceea ce învățăm este în mare parte despre structura lumii și implică, desigur, interacțiune și acțiune și joacă și lucruri de genul acesta, dar o mare parte este observațională.

ZDNet: De asemenea, veți reuși să bifați oamenii din Transformer, cei care au în primul rând limbajul, în același timp. Cum poți construi asta fără limbaj mai întâi? S-ar putea să reușești să bifezi o mulțime de oameni. 

YL: Da, m-am obișnuit cu asta. Așadar, da, mai sunt oamenii de limbă, care spun, știi, inteligența este despre limbaj, substratul inteligenței este limbajul, bla, bla, bla. Dar asta, oarecum, respinge inteligența animală. Știi, nu suntem în punctul în care mașinile noastre inteligente au la fel de mult bun simț ca o pisică. Deci, de ce nu începem de acolo? Ce îi permite unei pisici să prindă lumea înconjurătoare, să facă lucruri destul de inteligente și să planifice și chestii de genul acesta, iar câinii și mai bine? 

Apoi sunt toți oamenii care spun: „Oh, inteligența este un lucru social, nu? Suntem inteligenți pentru că vorbim unii cu alții și facem schimb de informații, și bla, bla, bla. Există tot felul de specii nonsociale care nu își întâlnesc niciodată părinții foarte inteligenți, cum ar fi caracatița sau urangutanii.Adică, ei [urangutanii] sunt cu siguranță educați de mama lor, dar nu sunt animale sociale. 

Dar cealaltă categorie de oameni pe care aș putea să o bifez sunt cei care spun că scalarea este suficientă. Deci, practic, folosim doar transformatoare gigantice, le antrenăm pe date multimodale care implică, știi, video, text, bla, bla, bla. Noi, oarecum, ne împietrimtotul, și simbolizează totul și apoi antrenează-te giganticmodele pentru a face predicții discrete, practic, și cumva AI va ieși din asta. Nu greșesc, în sensul că aceasta poate fi o componentă a unui viitor sistem inteligent. Dar cred că îi lipsesc piese esențiale. 

Există o altă categorie de oameni pe care o voi bifa cu această lucrare. Și sunt probabiliștii, probabiliștii religioși. Deci, oamenii care cred că teoria probabilității este singurul cadru pe care îl puteți folosi pentru a explica învățarea automată. Și așa cum am încercat să explic în articol, practic este prea mult să ceri ca un model mondial să fie complet probabilist. Nu știm cum să o facem. Există intratabilitatea computațională. Așa că îmi propun să renunț la toată această idee. Și, desigur, știi, acesta este un pilon enorm nu numai al învățării automate, ci și al tuturor statisticilor, care pretinde a fi formalismul normal pentru învățarea automată. 

Celălalt lucru - 

ZDNet: Ești pe un val...

YL: — este ceea ce se numește modele generative. Deci, ideea că poți învăța să prezici și poate poți învăța multe despre lume prin predicție. Așadar, vă dau o bucată de videoclip și cer sistemului să prezică ce se întâmplă în continuare în videoclip. Și vă pot cere să preziceți cadre video reale cu toate detaliile. Dar despre ce argumentez în lucrare este că de fapt este prea mult de cerut și prea complicat. Și acesta este ceva despre care m-am răzgândit. Până acum vreo doi ani, am fost un susținător a ceea ce eu numesc modele generative de variabile latente, modele care prezic ce se va întâmpla în continuare sau informațiile care lipsesc, eventual cu ajutorul unei variabile latente, dacă predicția nu poate fi determinat. Și am renunțat la asta. Și motivul pentru care am renunțat la asta se bazează pe rezultate empirice, în care oamenii au încercat să aplice un fel de antrenament bazat pe predicții sau reconstrucție de tipul care este folosit în BERTși modele mari de limbaj, au încercat să aplice acest lucru imaginilor și a fost un eșec total. Și motivul pentru care este un eșec complet este, din nou, din cauza constrângerilor modelelor probabilistice în care este relativ ușor să prezicem simboluri discrete precum cuvinte, deoarece putem calcula distribuția probabilității pentru toate cuvintele din dicționar. Asta e ușor. Dar dacă cerem sistemului să producă distribuția probabilității pe toate cadrele video posibile, nu avem idee cum să o parametrizăm, sau avem idee cum să o parametrizăm, dar nu știm cum să o normalizăm. Se lovește de o problemă matematică insolubilă pe care nu știm cum să o rezolvăm. 

yann-lecun-sept-2022-3

„Nu suntem în punctul în care mașinile noastre inteligente au la fel de mult bun simț ca o pisică”, observă Lecun. „Deci, de ce nu începem de acolo? Ce îi permite unei pisici să prindă lumea înconjurătoare, să facă lucruri destul de inteligente și să planifice și chestii de genul acesta, iar câinii și mai bine?”

Deci, de aceea spun să renunțăm la teoria probabilității sau cadrul pentru lucruri de genul acesta, cel mai slab, modelele bazate pe energie. Pled pentru asta, de asemenea, de zeci de ani, așa că acesta nu este un lucru recent. Dar, în același timp, abandonând ideea de modele generative pentru că sunt multe lucruri pe lume care nu sunt de înțeles și nu sunt previzibile. Dacă ești inginer, îi spui zgomot. Dacă ești fizician, îi spui căldură. Și dacă ești o persoană care învățează automat, îi spui, știi, detalii irelevante sau orice altceva.

Așadar, exemplul pe care l-am folosit în lucrare sau pe care l-am folosit în discuții este că vrei un sistem de predicție mondială care să ajute într-o mașină care se conduce singur, nu? Vrea să poată prezice, în avans, traiectoriile tuturor celorlalte mașini, ce se va întâmpla cu alte obiecte care s-ar putea mișca, pietoni, biciclete, un copil care alergă după o minge de fotbal, lucruri de genul ăsta. Deci, tot felul de lucruri despre lume. Dar la marginea drumului, s-ar putea să fie copaci, iar astăzi este vânt, așa că frunzele se mișcă în vânt, iar în spatele copacilor este un iaz și sunt ondulații în iaz. Și acestea sunt, în esență, fenomene în mare măsură imprevizibile. Și nu doriți ca modelul dvs. să cheltuiască o cantitate semnificativă de resurse pentru a prezice acele lucruri care sunt atât greu de prezis, cât și irelevante. De aceea susțin arhitectura de încorporare comună, acele lucruri în care variabila pe care încerci să o modelezi, nu încerci să o prezici, încerci să o modelezi, dar rulează printr-un encoder și acel encoder poate elimina o mulțime de detalii despre intrare care sunt irelevante sau prea complicate - practic, echivalent cu zgomotul.

ZDNet: Am discutat la începutul acestui an despre modelele bazate pe energie, JEPA și H-JEPA. Părerea mea, dacă te înțeleg corect, este că găsești punctul de energie scăzută în care aceste două predicții ale înglobărilor X și Y sunt cele mai asemănătoare, ceea ce înseamnă că dacă există un porumbel într-un copac într-unul, și există ceva în fundalul unei scene, acestea pot să nu fie punctele esențiale care fac aceste înglobări apropiate una de alta.

YL: Dreapta. Deci, arhitectura JEPA încearcă de fapt să găsească un compromis, un compromis, între extragerea reprezentărilor care sunt maxim informative despre intrări, dar și predictibile unele de altele, cu un anumit nivel de acuratețe sau fiabilitate. Găsește un compromis. Deci, dacă are de ales între a cheltui o cantitate uriașă de resurse, inclusiv detaliile mișcării frunzelor, și apoi modelarea dinamicii care va decide cum se mișcă frunzele într-o secundă de acum înainte, sau pur și simplu să arunce asta pe podea. În principiu, rulând variabila Y printr-un predictor care elimină toate aceste detalii, probabil că o va elimina, deoarece este prea greu de modelat și de capturat.

ZDNet: Un lucru care este surprins este că ai fost un mare susținător al spunerii „Funcționează, vom descoperi mai târziu teoria termodinamicii pentru a o explica”. Aici ați abordat: „Nu știu cum vom rezolva neapărat acest lucru, dar vreau să propun câteva idei pentru a mă gândi la asta”, și poate chiar abordarea unei teorii sau a unei ipoteze, la cel mai puţin. Este interesant pentru că sunt mulți oameni care cheltuiesc mulți bani lucrând la mașină și care pot vedea pietonul, indiferent dacă mașina are bunul simț. Și îmi imaginez că unii dintre acești oameni nu vor fi bifați, dar vor spune: „Este în regulă, nu ne interesează dacă nu are bun simț, am construit o simulare, simularea este uimitoare, și vom continua să ne îmbunătățim, vom continua să scalam simularea.” 

Și deci este interesant că ești în situația de a spune acum, hai să facem un pas înapoi și să ne gândim la ceea ce facem. Și industria spune că doar o să facem scară, scară, scară, scară, pentru că acea manivela chiar funcționează. Adică, manivela semiconductoare a GPU-urilor chiar funcționează.

YL: Sunt cinci întrebări acolo. Deci, vreau să spun, scalarea este necesară. Nu critic faptul că ar trebui să mărim. Ar trebui să scalam. Acele rețele neuronale se îmbunătățesc pe măsură ce devin mai mari. Nu există nicio îndoială că ar trebui să mărim. Și cei care vor avea un anumit nivel de bun simț vor fi mari. Nu există nicio cale de a ocoli asta, cred. Deci scalarea este bună, este necesară, dar nu suficientă. Acesta este punctul pe care îl spun. Nu este doar scalare. Acesta este primul punct. 

Al doilea punct, dacă teoria este pe primul loc și lucruri de genul ăsta. Așadar, cred că există concepte care vin pe primul loc, care trebuie să faci un pas înapoi și să spui, bine, am construit această scară, dar vrem să mergem pe Lună și nu există nicio posibilitate că această scară ne va duce acolo. Deci, practic, ceea ce scriu aici este că trebuie să construim rachete. Nu vă pot da detalii despre cum construim rachete, dar aici sunt principiile de bază. Și nu scriu o teorie pentru asta sau altceva, dar va fi o rachetă, bine? Sau un lift spațial sau orice altceva. Este posibil să nu avem toate detaliile despre toată tehnologia. Încercăm să facem ca unele dintre aceste lucruri să funcționeze, așa cum am lucrat la JEPA. Încorporarea în comun funcționează foarte bine pentru recunoașterea imaginii, dar pentru a o folosi pentru a antrena un model mondial, există dificultăți. Lucrăm la el, sperăm că o vom face să funcționeze soon, dar s-ar putea să întâlnim niște obstacole acolo pe care nu le putem depăși, eventual. 

Apoi, există o idee cheie în lucrare despre raționament, în care, dacă dorim ca sistemele să poată planifica, ceea ce o puteți considera ca o formă simplă de raționament, trebuie să aibă variabile latente. Cu alte cuvinte, lucruri care nu sunt calculate de nicio rețea neuronală, ci lucruri care sunt - a căror valoare este dedusă astfel încât să minimizeze o funcție obiectivă, o funcție de cost. Și apoi puteți utiliza această funcție de cost pentru a determina comportamentul sistemului. Și aceasta nu este deloc o idee nouă, nu? Acesta este un control foarte clasic, optim, în cazul în care baza acestui lucru merge înapoi la sfârșitul anilor '50, începutul anilor '60. Deci, nu pretind nicio noutate aici. Dar ceea ce spun este că acest tip de inferență trebuie să facă parte dintr-un sistem inteligent care este capabil de planificare și al cărui comportament poate fi specificat sau controlat nu printr-un comportament cablat, nu prin imitație, ci printr-o funcție obiectivă care determină comportamentul - nu stimulează învățarea, neapărat, dar determină comportamentul. Știi, avem asta în creierul nostru și fiecare animal are costuri intrinseci sau motivații intrinseci pentru lucruri. Asta îi determină pe bebelușii de nouă luni să vrea să se ridice. Costul de a fi fericit când te ridici, acel termen din funcția de cost este conectat. Dar cum te ridici nu este, asta înseamnă învățare.

yann-lecun-sept-2022-4

„Scalarea este bună, este necesară, dar nu suficientă”, spune LeCun despre modelele gigantice de limbaj, cum ar fi programele bazate pe Transformer din varietatea GPT-3. Devotații Transformerului cred: „Nom simbolizează totul și ne antrenăm giganticmodele pentru a face predicții discrete și cumva AI va ieși din asta... dar cred că îi lipsesc piese esențiale.”

ZDNet: Doar pentru a completa acest punct, o mare parte din comunitatea de învățare profundă pare bine să meargă înainte cu ceva care nu are bun simț. Se pare că faci un argument destul de clar aici că la un moment dat devine un impas. Unii oameni spun că nu avem nevoie de o mașină autonomă cu bun simț, deoarece scalarea o va face. Se pare că ai spune că nu e în regulă să mergi pe acea cale?

YL: Știi, cred că este absolut posibil să avem mașini autonome de nivelul cinci fără bun simț. Dar problema cu această abordare, aceasta va fi temporară, pentru că va trebui să o construiești al naibii. Așa că, știi, cartografiază întreaga lume, conectează toate tipurile de comportamente specifice de colț, colectează suficiente date pentru a avea toate situațiile, cam ciudate, pe care le poți întâlni pe drumuri, bla, bla, bla. Și bănuiesc că, cu destulă investiție și timp, poți pur și simplu să te descurci. Dar, în cele din urmă, va exista o soluție mai satisfăcătoare și posibil mai bună, care implică sisteme care înțeleg mai bine modul în care funcționează lumea și au, știți, un anumit nivel de ceea ce am numi bunul simț. Nu trebuie să fie de bun simț la nivel uman, ci un tip de cunoștințe pe care sistemul le poate dobândi urmărind, dar nu urmărind pe cineva conducând, doar urmărind lucruri care se mișcă și înțelegând multe despre lume, construind o bază de fundal cunoștințe despre cum funcționează lumea, pe lângă care poți învăța să conduci. 

Permiteți-mi să iau un exemplu istoric în acest sens. Viziunea clasică pe computer s-a bazat pe o mulțime de module cablate, proiectate, pe deasupra cărora aveai, oarecum, un strat subțire de învățare. Așadar, lucrurile care au fost învinse de AlexNet în 2012, au avut practic o primă etapă, un fel de extracție manuală a caracteristicilor, cum ar fi SIFT-urile [Scale-Invariant Feature Transform (SIFT), o tehnică clasică de viziune pentru a identifica obiectele proeminente într-o imagine] și HOG [Histogram of Oriented Gradients, o altă tehnică clasică] și diverse alte lucruri. Și apoi al doilea strat de caracteristici de nivel mediu, bazate pe nuclee de caracteristici și orice altceva, și un fel de metodă nesupravegheată. Și apoi, pe deasupra, puneți o mașină vectorială de suport sau, altfel, un clasificator relativ simplu. Și acesta a fost, oarecum, conducta standard de la mijlocul anilor 2000 până în 2012. Și aceasta a fost înlocuită cu rețele convoluționale end-to-end, unde nu conectați nimic din toate acestea, aveți doar o mulțime de date, și antrenezi chestia de la capăt la capăt, care este abordarea pe care o susținem de mult, dar știi că până atunci nu era practică pentru probleme mari. 

A existat o poveste similară în recunoașterea vorbirii în care, din nou, a existat o cantitate imensă de inginerie detaliată pentru modul în care preprocesați datele, extrageți cepstrum la scară de masă [o inversă a transformatei rapide Fourier pentru procesarea semnalului] și apoi ai Hidden Markov Models, cu un fel de arhitectură prestabilită, bla, bla, bla, cu Mixture of Gaussians. Așadar, este puțin aceeași arhitectură cu viziunea în care ai realizat manual front-end și apoi un strat mijlociu oarecum nesupravegheat, antrenat și apoi un strat supravegheat deasupra. Și acum asta a fost, practic, șters de rețele neuronale de la capăt la capăt. Așa că văd ceva asemănător acolo de a încerca să înveți totul, dar trebuie să ai antecedentul potrivit, arhitectura potrivită, structura potrivită.

yann-lecun-sept-2022-5

Mulțimea de mașini care se conduce singur, startup-uri precum Waymo și Wayve, au fost „puțin prea optimiste”, spune el, crezând că ar putea „să arunce date în ea și poți învăța aproape orice”. Sunt posibile mașinile cu conducere autonomă la nivelul 5 al ADAS, „Dar va trebui să-l găsești al naibii” și vor fi „fragice” ca modelele de viziune computerizate timpurii.

ZDNet: Ceea ce spui este că unii oameni vor încerca să creeze ceea ce nu funcționează în prezent cu deep learning pentru aplicabilitate, să zicem, în industrie, și vor începe să creeze ceva care este lucrul care a devenit învechit în viziunea computerizată?

YL: Dreapta. Și, parțial, este motivul pentru care oamenii care lucrează la conducerea autonomă au fost puțin prea optimiști în ultimii ani, este pentru că, știți, aveți aceste lucruri, un fel de generice, cum ar fi rețele convoluționale și transformatoare, pe care le puteți arunca date. și poate învăța aproape orice. Deci, tu spui, Bine, am soluția la această problemă. Primul lucru pe care îl faceți este să construiți o demonstrație în care mașina se conduce singură timp de câteva minute fără a răni pe nimeni. Și apoi îți dai seama că există o mulțime de carcase de colț și încerci să trasezi curba cât de mult devin mai bine când dublez setul de antrenament și îți dai seama că nu vei ajunge niciodată acolo pentru că există tot felul de carcase de colț. . Și trebuie să ai o mașină care să provoace un accident mortal la mai puțin de 200 de milioane de kilometri, nu? Deci ce faci? Ei bine, mergi în două direcții. 

Prima direcție este cum pot reduce cantitatea de date necesare pentru ca sistemul meu să învețe? Și aici intervine învățarea auto-supravegheată. Așadar, o mulțime de ținute cu mașini autonome sunt foarte interesate de învățarea auto-supravegheată, deoarece aceasta este o modalitate de a folosi în continuare cantități gigantice de date de supraveghere pentru învățarea prin imitare, dar obținerea performanțelor mai bune prin pre-antrenament, în esență. Și încă nu s-a rezolvat, dar va fi. Și apoi există cealaltă opțiune, pe care majoritatea companiilor care sunt mai avansate în acest moment au adoptat-o, și anume, bine, putem face formarea de la capăt la capăt, dar există o mulțime de cazuri de colț pe care le putem" t gestionăm, așa că vom proiecta doar sisteme care vor avea grijă de acele carcase de colț și, practic, le vom trata ca cazuri speciale și vom conecta controlul și apoi vom conecta o mulțime de comportament de bază pentru a face față situațiilor speciale. Și dacă ai o echipă suficient de mare de ingineri, s-ar putea să o faci. Dar va dura mult timp și, în cele din urmă, va fi încă puțin fragil, poate suficient de fiabil încât să îl puteți implementa, dar cu un anumit nivel de fragilitate, care, cu o abordare mai bazată pe învățare, care ar putea apărea în viitor, mașinile nu vor avea, deoarece ar putea avea un anumit nivel de bun simț și înțelegere a modului în care funcționează lumea. 

Pe termen scurt, abordarea, un fel de proiectată, va câștiga - câștigă deja. Acesta este Waymo și Cruise al lumii și Wayveși orice, asta fac ei. Apoi, există abordarea de învățare auto-supravegheată, care probabil va ajuta abordarea proiectată să progreseze. Dar apoi, pe termen lung, care ar putea fi prea lung pentru acele companii, ar fi probabil, oarecum, un sistem de conducere inteligentă autonomă mai integrat.

ZDNet: Spunem dincolo de orizontul investițional al majorității investitorilor.

YL: Asta e corect. Deci, întrebarea este dacă oamenii își vor pierde răbdarea sau vor rămâne fără bani înainte ca performanța să atingă nivelul dorit.

ZDNet: Există ceva interesant de spus despre motivul pentru care ați ales unele dintre elementele pe care le-ați ales în model? Pentru că îl citezi pe Kenneth Craik [1943,Natura explicației] și îi citați pe Bryson și Ho [1969, Control optim aplicat], și sunt curios de ce ați început cu aceste influențe, dacă ați crezut mai ales că oamenii ăștia au avut-o în cuie cât de departe au făcut ei. De ce ai început acolo?

YL: Ei bine, nu cred că, cu siguranță, au avut toate detaliile în cuie. Deci, Bryson și Ho, aceasta este o carte pe care am citit-o în 1987, când eram post-doctorat cu Geoffrey Hinton în Toronto. Dar știam despre această linie de lucru dinainte când îmi scriam doctoratul și am făcut legătura între controlul optim și backprop, în esență. Dacă ai vrea cu adevărat să fii, știi, un alt Schmidhuber, ai spune că adevărații inventatori ai backprop au fost de fapt teoreticienii controlului optim Henry J. Kelley, Arthur Bryson și poate chiar Lev Pontryagin, care este un teoretician rus al controlului optim înapoi. la sfarsitul anilor '50. 

Deci, și-au dat seama și, de fapt, puteți vedea rădăcina acestui lucru, matematica de sub asta, este mecanica lagrangiană. Deci, poți să te întorci la Euler și Lagrange, de fapt, și să găsești un fel de miros din asta în definiția lor a mecanicii clasice lagrangiane, într-adevăr. Deci, în contextul controlului optim, ceea ce i-a interesat pe acești tipi a fost, în principiu, să calculeze traiectorii rachetelor. Știi, asta a fost era spațială timpurie. Și dacă aveți un model al rachetei, vă spune că aici este starea rachetei la momentul respectiv t, și iată acțiunea pe care o voi întreprinde, așa că, împingere și actuatoare de diferite tipuri, iată starea rachetei la timp t + 1.

ZDNet: Un model de stat-acțiune, un model de valoare.

YL: Așa este, baza controlului. Deci, acum puteți simula împușcarea rachetei dvs. imaginându-vă o secvență de comenzi și apoi aveți o funcție de cost, care este distanța rachetei până la ținta ei, o stație spațială sau orice ar fi ea. Și apoi, printr-un fel de coborâre în gradient, vă puteți da seama cum îmi pot actualiza secvența de acțiuni, astfel încât racheta mea să se apropie cât mai mult de țintă. Și asta trebuie să vină prin retropropagarea semnalelor înapoi în timp. Și asta este propagarea înapoi, propagarea în spate a gradientului. Aceste semnale se numesc variabile conjugate în mecanica lagrangiană, dar, de fapt, sunt gradienți. Deci, au inventat backprop, dar nu și-au dat seama că acest principiu ar putea fi folosit pentru a antrena un sistem în mai multe etape care poate face recunoașterea modelelor sau ceva de genul acesta. Acest lucru nu s-a realizat cu adevărat până poate la sfârșitul anilor ’70, începutul anilor ’80, iar apoi nu a fost implementat și făcut să funcționeze până la mijlocul anilor ’80. Bine, deci, aici a decolat cu adevărat backprop, pentru că oamenii au arătat aici câteva linii de cod pe care le poți antrena o rețea neuronală, de la capăt la capăt, pe mai multe straturi. Și asta ridică limitările Perceptronului. Și, da, există conexiuni cu control optim, dar asta e în regulă.

ZDNet: Așadar, este un mod lung de a spune că aceste influențe cu care ai început se întorc la backprop și asta a fost important ca punct de plecare pentru tine?

YL: Da, dar cred că despre ceea ce oamenii au uitat puțin, s-a lucrat destul de mult pe asta, știți, în anii '90, sau chiar în anii '80, inclusiv de oameni ca Michael Jordan [Departamentul creierului MIT. și Științe Cognitive] și oameni de genul ăsta care nu mai fac rețele neuronale, ci ideea că poți folosi rețele neuronale pentru control și poți folosi ideile clasice de control optim. Deci, lucruri precum ceea ce se numește control predictiv model, ceea ce se numește acum control predictiv model, această idee că vă puteți simula sau imagina rezultatul unei secvențe de acțiuni dacă aveți un model bun al sistemului pe care încercați să îl controlați și mediul în care se află. Și apoi prin coborâre în gradient, în esență - nu este învățare, aceasta este inferență - vă puteți da seama care este cea mai bună secvență de acțiuni care îmi va minimiza obiectivul. Deci, utilizarea unei funcții de cost cu o variabilă latentă pentru inferență este, cred, ceva despre care culturile actuale de rețele neuronale la scară largă au uitat. Dar a fost o componentă foarte clasică a învățării automate pentru o lungă perioadă de timp. Deci, fiecare rețea bayesiană sau model grafic sau model grafic probabilistic a folosit acest tip de inferență. Aveți un model care surprinde dependențele dintre o grămadă de variabile, vi se spune valoarea unora dintre variabile și apoi trebuie să deduceți cea mai probabilă valoare a restului variabilelor. Acesta este principiul de bază al inferenței în modelele grafice și rețele bayesiene și lucruri de genul ăsta. Și cred că despre asta ar trebui să fie raționamentul, raționamentul și planificarea.

ZDNet: Ești un Bayesian de dulap.

YL: Sunt un Bayesian non-probabilist. Am mai făcut gluma aia. De fapt, am fost la NeurIPS acum câțiva ani, cred că a fost în 2018 sau 2019 și am fost surprins în video de un bayesian care m-a întrebat dacă sunt bayesian și i-am spus: Da, sunt bayesian, dar eu Sunt un Bayesian non-probabilist, un fel de Bayesian bazat pe energie, dacă vrei. 

ZDNet: Ceea ce cu siguranță sună ca ceva de la Star Trek. Ați menționat la sfârșitul acestei lucrări că va dura ani de muncă foarte grea pentru a realiza ceea ce vă imaginați. Spune-mi în ce constă o parte din acele lucrări în acest moment.

YL: Așadar, explic în ziar cum antrenezi și construiești JEPA. Iar criteriul pe care îl susțin este de a avea o modalitate de a maximiza conținutul informațional pe care îl au reprezentările care sunt extrase despre intrare. Și apoi al doilea este reducerea la minimum a erorii de predicție. Și dacă aveți o variabilă latentă în predictor care permite predictorului să fie nedeterminist, trebuie să regularizați și această variabilă latentă minimizând conținutul ei informațional. Deci, aveți două probleme acum, care este modul în care maximizați conținutul informațional al ieșirii unei rețele neuronale, iar cealaltă este cum minimizați conținutul informațional al unei variabile latente? Și dacă nu faci acele două lucruri, sistemul se va prăbuși. Nu va învăța nimic interesant. Va da zero energie la orice, ceva de genul asta, care nu este un model bun de dependență. Este problema de prevenire a colapsului pe care o menționez. 

Și spun că din toate lucrurile pe care oamenii le-au făcut vreodată, există doar două categorii de metode pentru a preveni colapsul. Una sunt metodele contrastive, iar cealaltă sunt acele metode regularizate. Deci, această idee de maximizare a conținutului informațional al reprezentărilor celor două intrări și minimizarea conținutului de informație al variabilei latente, care aparține metodelor regularizate. Dar o mare parte din munca în acele arhitecturi de încorporare în comun utilizează metode contrastive. De fapt, ele sunt probabil cele mai populare în acest moment. Deci, întrebarea este exact cum măsurați conținutul informațional într-un mod pe care îl puteți optimiza sau minimiza? Și aici lucrurile se complică pentru că nu știm de fapt cum să măsurăm conținutul informațional. O putem aproxima, o putem limita superioară, putem face astfel de lucruri. Dar ele nu măsoară de fapt conținutul informațional, care, de fapt, într-o oarecare măsură nici măcar nu este bine definit.

ZDNet: Nu este Legea lui Shannon? Nu este teoria informației? Ai o anumită cantitate de entropie, entropie bună și entropie proastă, iar entropia bună este un sistem de simboluri care funcționează, entropia proastă este zgomot. Nu este totul rezolvat de Shannon?

YL: Ai dreptate, dar există un defect major în spatele asta. Aveți dreptate în sensul că, dacă aveți date care vin la dvs. și puteți cumva cuantifica datele în simboluri discrete și apoi măsurați probabilitatea fiecăruia dintre acele simboluri, atunci cantitatea maximă de informații transportată de acele simboluri este suma peste posibilele simboluri ale Pi log Pi, dreapta? Unde Pi este probabilitatea simbolului eu - asta este entropia Shannon. [Legea lui Shannon este formulată în mod obișnuit ca H = – ∑ pi log pi.]

Iată însă problema: Ce este Pi? Este ușor atunci când numărul de simboluri este mic și simbolurile sunt desenate independent. Când există multe simboluri și dependențe, este foarte greu. Deci, dacă aveți o secvență de biți și presupuneți că biții sunt independenți unul de celălalt și probabilitatea este egală între unu și zero sau orice altceva, atunci puteți măsura cu ușurință entropia, fără probleme. Dar dacă lucrurile care vin la tine sunt vectori de dimensiuni înalte, cum ar fi, știi, cadre de date sau ceva de genul acesta, ce este Pi? Care este distribuția? Mai întâi trebuie să cuantificați acel spațiu, care este un spațiu continuu, de dimensiuni înalte. Nu aveți idee cum să cuantificați acest lucru corect. Puteți folosi k-means, etc. Aceasta este ceea ce fac oamenii atunci când fac compresie video și compresie imagini. Dar este doar o aproximare. Și atunci trebuie să faci presupuneri de independență. Deci, este clar că într-un videoclip, cadrele succesive nu sunt independente. Există dependențe, iar acel cadru ar putea depinde de un alt cadru pe care l-ați văzut acum o oră, care era o imagine a aceluiași lucru. Deci, știi, nu poți măsura Pi. A masura Pi, trebuie să ai un sistem de învățare automată care învață să prezică. Și așa ai revenit la problema anterioară. Deci, puteți doar să aproximați măsura informațiilor, în esență. 

yann-lecun-sept-2022-6

„Întrebarea este exact cum măsurați conținutul informațional într-un mod pe care îl puteți optimiza sau minimiza?” spune LeCun. „Și acolo lucrurile devin complicate, deoarece nu știm de fapt cum să măsurăm conținutul informațiilor.” Cel mai bun lucru care se poate face până acum este să găsim un proxy care să fie „suficient de bun pentru sarcina pe care o dorim”.

Să iau un exemplu mai concret. Unul dintre algoritmii cu care ne-am jucat și despre care am vorbit în articol, este acest lucru numit VICReg, regularizare varianță-invarianță-covarianță. Este într-o lucrare separată care a fost publicată la ICLR și a fost pus pe arXiv cu aproximativ un an înainte, 2021. Și ideea de acolo este de a maximiza informația. Și ideea a apărut de fapt dintr-o lucrare anterioară a grupului meu numită Gemenii Barlow. Maximizați conținutul de informații al unui vector care iese dintr-o rețea neuronală, practic, presupunând că singura dependență dintre variabile este corelația, dependența liniară. Deci, dacă presupuneți că singura dependență posibilă între perechile de variabile sau între variabilele din sistemul dvs. este corelațiile dintre perechile de obiecte de valoare, care este o aproximare extrem de aproximativă, atunci puteți maximiza conținutul de informații care iese din sistemul dvs. asigurându-vă că toate variabilele au varianță diferită de zero - să zicem, varianța unu, nu contează ce este - și apoi corelarea inversă a acestora, același proces care se numește albire, nici nu este nou. Problema cu aceasta este că puteți avea dependențe extrem de complexe între grupuri de variabile sau chiar doar perechi de variabile care nu sunt dependențe liniare și nu apar în corelații. Deci, de exemplu, dacă aveți două variabile și toate punctele acelor două variabile se aliniază într-un fel de spirală, există o dependență foarte puternică între acele două variabile, nu? Dar, de fapt, dacă calculezi corelația dintre aceste două variabile, ele nu sunt corelate. Așadar, iată un exemplu în care conținutul informațional al acestor două variabile este de fapt foarte mic, este doar o cantitate, deoarece este poziția ta în spirală. Ele sunt decorelate, deci crezi că ai o mulțime de informații care ies din acele două variabile, când de fapt nu ai, doar ai, știi, poți prezice una dintre variabile din cealaltă, în esență. Deci, asta arată că avem doar modalități foarte aproximative de a măsura conținutul informațional.

ZDNet: Și deci acesta este unul dintre lucrurile la care trebuie să lucrezi acum cu asta? Aceasta este întrebarea mai mare: cum știm când maximizăm și minimizăm conținutul informațional?

YL:  Sau dacă proxy-ul pe care îl folosim pentru aceasta este suficient de bun pentru sarcina pe care o dorim. De fapt, facem asta tot timpul în machine learning. Funcțiile de cost pe care le minimizăm nu sunt niciodată cele pe care vrem de fapt să le minimizăm. Deci, de exemplu, vrei să faci o clasificare, bine? Funcția de cost pe care doriți să o minimizați atunci când antrenați un clasificator este numărul de greșeli pe care le face clasificatorul. Dar aceasta este o funcție de cost oribil, nediferențiată, pe care nu o poți minimiza pentru că știi că vei schimba greutățile rețelei tale neuronale, nimic nu se va schimba până când una dintre acele mostre nu își va întoarce decizia și apoi un salt. în eroare, pozitivă sau negativă.

ZDNet: Deci aveți un proxy care este o funcție obiectivă despre care puteți spune cu siguranță că putem curge gradienții acestui lucru.

YL: Asta e corect. Deci oamenii folosesc această pierdere de entropie încrucișată, sau SOFTMAX, aveți mai multe nume pentru ea, dar este același lucru. Și practic este o aproximare lină a numărului de erori pe care le face sistemul, unde netezirea se face, practic, ținând cont de scorul pe care sistemul îl acordă fiecăreia dintre categorii.

ZDNet: Există ceva ce nu am acoperit pe care ați dori să îl acoperiți?

YL: Probabil că subliniază punctele principale. Cred că sistemele AI trebuie să fie capabile să raționeze, iar procesul pentru acest lucru pe care îl susțin este de a minimiza un anumit obiectiv în ceea ce privește o variabilă latentă. Acest lucru permite sistemelor să planifice și să raționeze. Cred că ar trebui să renunțăm la cadrul probabilistic, deoarece este insolubil atunci când vrem să facem lucruri precum captarea dependențelor între variabile continue de dimensiuni mari. Și susțin abandonarea modelelor generative pentru că sistemul va trebui să aloce prea multe resurse pentru a prezice lucruri prea greu de prezis și poate consuma prea multe resurse. Și cam asta este. Acestea sunt mesajele principale, dacă vrei. Și apoi arhitectura generală. Apoi sunt acele speculații despre natura conștiinței și rolul configuratorului, dar aceasta este într-adevăr speculații.

ZDNet: Vom ajunge la asta data viitoare. Vroiam să te întreb, cum faci comparație cu chestia asta? Dar cred că ești puțin mai departe de benchmarking acum?

YL: Nu neapărat atât de departe în versiuni simplificate. Poți face ceea ce face toată lumea în învățarea de control sau de întărire, și anume, antrenezi lucrul pentru a juca jocuri Atari sau ceva de genul ăsta sau un alt joc care are o oarecare incertitudine.

ZDNet: Mulțumesc pentru timpul acordat, Yann.

Sursă