Metin AI guru LeCun: Večina današnjih pristopov AI ne bo nikoli vodila do prave inteligence

yann-lecun-sept-2022-1

»Mislim, da morajo biti sistemi AI sposobni sklepati,« pravi Yann LeCun, glavni znanstvenik za AI pri Meti. Današnji priljubljeni pristopi umetne inteligence, kot so Transformerji, od katerih mnogi temeljijo na njegovem lastnem pionirskem delu na tem področju, ne bodo zadostovali. "Morate stopiti korak nazaj in reči: V redu, zgradili smo to lestev, vendar želimo iti na Luno in ni možnosti, da bi nas ta lestev pripeljala tja," pravi LeCun.

Yann LeCun, glavni znanstvenik za AI podjetja Meta Properties, lastnika Facebooka, Instagrama in WhatsAppa, bo verjetno navdušil veliko ljudi na svojem področju. 

Z objavo razmišljanja junija na strežniku Open Review, je LeCun ponudil širok pregled pristopa, za katerega meni, da je obetaven za doseganje inteligence na človeški ravni v strojih. 

Nakazana, če ni artikulirana v prispevku, je trditev, da večina današnjih velikih projektov na področju umetne inteligence nikoli ne bo mogla doseči tega cilja na ravni človeka.

V razpravi ta mesec z ZDNet prek Zooma je LeCun jasno povedal, da z velikim skepticizmom gleda na trenutno najuspešnejše poti raziskovanja globokega učenja.

"Mislim, da so potrebni, a ne zadostni," je povedal dobitnik Turingove nagrade ZDNet udejstvovanja svojih vrstnikov. 

Ti vključujejo velike jezikovne modele, kot je GPT-3, ki temelji na transformatorju, in njim podobni. Kot je to označil LeCun, privrženci Transformerja verjamejo: »Vse tokeniziramo in treniramo velikanskemodeli za diskretne napovedi in nekako bo iz tega nastala umetna inteligenca.«

"Ne motijo ​​se," pravi, "v smislu, da je to morda sestavni del prihodnjega inteligentnega sistema, vendar mislim, da mu manjkajo bistveni deli."

Prav tako: Metina AI svetilka LeCun raziskuje energetske meje globokega učenja

To je osupljiva kritika učenjaka, ki je izpopolnil uporabo konvolucijskih nevronskih mrež, praktične tehnike, ki je bila neverjetno produktivna v programih globokega učenja, o tem, kar se zdi, da deluje. 

LeCun vidi pomanjkljivosti in omejitve na številnih drugih zelo uspešnih področjih discipline. 

Učenje s krepitvijo tudi nikoli ne bo dovolj, trdi. Raziskovalci, kot je David Silver iz DeepMinda, ki je razvil program AlphaZero, ki je obvladal šah, šogi in go, se osredotočajo na programe, ki »zelo temeljijo na dejanjih«, ugotavlja LeCun, vendar »večine učenja, ki ga naredimo, ne naredimo tako, da dejansko ukrepamo, mi pa z opazovanjem.« 

Lecun, 62, z vidika desetletij dosežkov kljub temu izraža nujnost, da se sooči s tistimi, za katere misli, da so slepe ulice, kamor mnogi morda hitijo, in da poskuša usmeriti svoje področje v smer, za katero misli, da bi morale stvari iti. 

"Vidimo veliko trditev o tem, kaj bi morali storiti, da napredujemo v smeri umetne inteligence na ravni človeka," pravi. "In obstajajo ideje, za katere menim, da so napačno usmerjene."

"Nismo do točke, ko bi imeli naši inteligentni stroji toliko zdrave pameti kot mačka," ugotavlja Lecun. "Torej, zakaj ne začnemo tam?" 

Opustil je svojo prejšnjo vero v uporabo generativnih omrežij v stvareh, kot je napovedovanje naslednje sličice v videu. "To je bil popoln neuspeh," pravi. 

LeCun obsoja tiste, ki jih imenuje "verski probabilisti", ki "mislijo, da je teorija verjetnosti edini okvir, ki ga lahko uporabite za razlago strojnega učenja." 

Čisto statistični pristop je nerešljiv, pravi. »Preveč je zahtevati, da je svetovni model popolnoma verjetnosten; ne vemo, kako to narediti."

LeCun trdi, da ne le akademiki, tudi industrijska umetna inteligenca potrebuje temeljit premislek. Množica samovozečih avtomobilov, zagonska podjetja, kot je Wayve, so bili "malo preveč optimistični," pravi, ko so mislili, da lahko "vržejo podatke v" velike nevronske mreže "in se lahko naučijo skoraj vsega."

"Veste, mislim, da je povsem možno, da bomo imeli avtonomne avtomobile pete stopnje brez zdrave pameti," pravi, pri čemer se nanaša na "ADAS," napreden sistem za pomoč vozniku izraze za samovožnjo, "vendar boste morali narediti hudiča."

Takšna preveč inženirska samovozeča tehnologija bo nekaj tako škripajočega in krhkega kot vsi programi za računalniški vid, ki so bili zastareli zaradi globokega učenja, je prepričan.

"Navsezadnje bo na voljo bolj zadovoljiva in morda boljša rešitev, ki vključuje sisteme, ki bolje razumejo, kako svet deluje."

Ob tem LeCun ponudi nekaj usodnih pogledov na svoje največje kritike, kot sta profesor Gary Marcus na NYU – »nikoli ni prispeval ničesar k umetni inteligenci« – in Jürgen Schmidhuber, sodirektor inštituta Dalle Molle za raziskave umetne inteligence – »je zastavljanje zastavic je zelo enostavno.”

Poleg kritik je pomembnejša točka, ki jo je izpostavil LeCun, ta, da se vsa umetna inteligenca sooča z določenimi temeljnimi težavami, zlasti s tem, kako meriti informacije.

"Morate stopiti korak nazaj in reči: V redu, zgradili smo to lestev, vendar želimo iti na Luno in ni možnosti, da bi nas ta lestev pripeljala tja," pravi LeCun o svoji želji, da spodbudi ponoven razmislek osnovnih pojmov. "V bistvu pišem, da moramo izdelati rakete, ne morem vam dati podrobnosti o tem, kako izdelujemo rakete, toda tukaj so osnovna načela."

Članek in LeCunove misli v intervjuju lahko bolje razumete, če preberete LeCunov intervju v začetku tega leta z ZDNet v katerem se zavzema za samonadzorovano učenje na podlagi energije kot pot naprej za poglobljeno učenje. Ta razmišljanja dajejo občutek osrednjega pristopa k temu, kar upa zgraditi kot alternativo stvarem, za katere trdi, da ne bodo prišle do ciljne črte. 

Sledi rahlo urejen prepis intervjuja.

ZDNet: Tema našega klepeta je ta članek »Pot do avtonomne strojne inteligence«, katerega različica 0.9.2 je obstoječa različica, kajne?

Yann LeCun: Ja, menim, da je to nekako delovni dokument. Zato sem ga objavil na Open Review in čakal, da bodo ljudje podali pripombe in predloge, morda dodatne reference, nato pa bom izdelal revidirano različico. 

ZDNet: Vidim, da je Juergen Schmidhuber že dodal nekaj komentarjev v Open Review.

YL: No, ja, vedno ga ima. V svojem prispevku citiram enega od njegovih člankov. Mislim, da argumenti, ki jih je navedel na družbenih omrežjih, da je v bistvu vse to izumil leta 1991, kot je počel v drugih primerih, enostavno ne držijo. Mislim, zelo enostavno je nareditizastavljanje zastave in na nek način napisati idejo brez kakršnih koli eksperimentov, brez kakršne koli teorije, samo predlagajte, da bi to lahko storili na ta način. Ampak, veste, obstaja velika razlika med tem, da preprosto imate idejo in jo nato pripravite do tega, da deluje pri problemu igrače, nato pa jo pripravite do tega, da deluje pri resničnem problemu, nato pa naredite teorijo, ki pokaže, zakaj deluje, in potem uvajanje. Obstaja cela veriga in njegova zamisel o znanstvenih zaslugah je, da bi morala dobiti vse zasluge prva oseba, ki je samo nekako, veste, imela idejo o tem. In to je smešno. 

ZDNet: Ne verjemite vsemu, kar slišite na družbenih omrežjih. 

YL: Mislim, glavni dokument, za katerega pravi, da bi ga moral citirati, nima nobene od glavnih idej, o katerih govorim v časopisu. To je počel tudi z GAN-ji in drugimi stvarmi, kar pa se ni izkazalo za resnično. Enostavno je postaviti zastavo, veliko težje je prispevati. In, mimogrede, v tem posebnem članku sem izrecno rekel, da to ni znanstveni članek v običajnem pomenu izraza. To je bolj dokument o stališču o tem, kam naj gre ta stvar. Tam je nekaj idej, ki so morda nove, a večina jih ni. V bistvu ne trdim, da ima prednost večina tega, kar sem napisal v tem dokumentu.

yann-lecun-sept-2022-2

LeCun trdi, da tudi učenje s krepitvijo nikoli ne bo dovolj. Raziskovalci, kot je David Silver iz DeepMinda, ki je razvil program AlphaZero, ki je obvladal šah, šogi in go, "zelo temeljijo na dejanjih", ugotavlja LeCun, vendar "večine učenja, ki ga izvajamo, ne naredimo tako, da dejansko prevzamemo dejanj, to počnemo z opazovanjem.« 

ZDNet: In to je morda dobro mesto za začetek, ker me zanima, zakaj ste zdaj sledili tej poti? Kaj te je dalo razmišljati o tem? Zakaj si hotel to napisati?

YL: No, torej, o tem sem razmišljal zelo dolgo, o poti do inteligence ali učenja in sposobnosti na ravni ljudi ali živali. In v svojih pogovorih sem bil precej glasen glede vse te stvari, da sta tako nadzorovano učenje kot učenje s krepitvijo nezadostna za posnemanje vrste učenja, ki ga opazimo pri živalih in ljudeh. To delam že sedem ali osem let. Torej ni nedavno. Pred mnogimi leti sem imel osrednji govor na NeurIPS, kjer sem v bistvu predstavil to točko, in različni govori, tam so posnetki. Zdaj, zakaj zdaj napisati članek? Prišel sem do bistva – [raziskovalec Googlovih možganov] Geoff Hinton je naredil nekaj podobnega – mislim, vsekakor, njemu bolj kot meni, vidimo, da se čas izteka. Nismo mladi.

ZDNet: Šestdeset je novih petdeset. 

YL: To je res, a bistvo je, da vidimo veliko trditev o tem, kaj bi morali storiti, da bi napredovali k človeški ravni umetne inteligence. In obstajajo ideje, za katere menim, da so napačno usmerjene. Torej, ena ideja je, Oh, morali bi samo dodati simbolno razmišljanje na vrhu nevronskih mrež. In ne vem, kako to narediti. Torej je morda to, kar sem razložil v prispevku, en pristop, ki bi naredil isto stvar brez eksplicitne manipulacije s simboli. To je nekakšen tradicionalni Gary Marcus na svetu. Gary Marcus ni oseba z umetno inteligenco, mimogrede, on je psiholog. Nikoli ni ničesar prispeval k AI. Opravil je zelo dobro delo na področju eksperimentalne psihologije, vendar nikoli ni napisal recenziranega prispevka o AI. Torej, tam so ti ljudje. 

Obstaja [glavni raziskovalni znanstvenik DeepMinda] David Silvers na svetu, ki pravi, veste, nagrada je dovolj, v bistvu je vse v učenju s krepitvijo, narediti ga moramo le malo bolj učinkovito, v redu? In mislim, da se ne motijo, vendar menim, da bi potrebni koraki k učinkovitejšemu učenju s krepitvijo v bistvu potisnili učenje s krepitvijo na češnjo na torti. In glavni manjkajoči del je učenje, kako svet deluje, večinoma z opazovanjem brez dejanj. Učenje s krepitvijo je zelo temelječe na dejanjih, o svetu se naučite tako, da ukrepate in vidite rezultate.

ZDNet: In osredotočen je na nagrado.

YL: Osredotočen je na nagrado in tudi na dejanja. Torej, moraš delovati v svetu, da se lahko nekaj naučiš o svetu. In glavna trditev, ki jo podajam v prispevku o samonadzorovanem učenju, je, da večino učenja, ki ga izvajamo, ne izvajamo tako, da dejansko ukrepamo, ampak to počnemo z opazovanjem. In to je zelo neortodoksno, zlasti za ljudi, ki se učijo s krepitvijo, pa tudi za veliko psihologov in kognitivnih znanstvenikov, ki mislijo, da je dejanje – ne pravim, da dejanje ni nujno, is bistveno. Ampak mislim, da je večina tega, kar se naučimo, večinoma o strukturi sveta in vključuje seveda interakcijo, akcijo in igro in podobne stvari, vendar je veliko tega opazovanja.

ZDNet: Hkrati vam bo uspelo odkljukati tudi Transformerje, ljudi, ki so na prvem mestu jezika. Kako lahko to zgradite brez jezika? Morda vam bo uspelo odkljukati veliko ljudi. 

YL: Ja, tega sem navajen. Torej, ja, tu so ljudje, ki so prvi jezik, ki pravijo, veste, inteligenca je povezana z jezikom, substrat inteligence je jezik, bla, bla, bla. Toda to na nek način zavrača živalsko inteligenco. Veste, nismo do točke, ko bi imeli naši inteligentni stroji toliko zdrave pameti kot mačke. Torej, zakaj ne začnemo tam? Kaj je tisto, kar mački omogoča, da dojema svet okoli sebe, dela precej pametne stvari, načrtuje in podobno, psom pa še bolje? 

Potem so tu še vsi ljudje, ki pravijo: Oh, inteligenca je družbena stvar, kajne? Inteligentni smo, ker se med seboj pogovarjamo in izmenjujemo informacije in bla, bla, bla. Obstajajo vse vrste nesocialnih vrst, ki nikoli ne srečajo svojih staršev, ki so zelo pametni, kot so hobotnice ali orangutani.Mislim, [orangutane] zagotovo vzgaja njihova mati, vendar niso družabne živali. 

Toda druga kategorija ljudi, ki bi jo morda odkljukal, so ljudje, ki pravijo, da je skaliranje dovolj. Torej, v bistvu samo uporabljamo ogromne Transformerje, treniramo jih na multimodalnih podatkih, ki vključujejo, saj veste, video, besedilo, bla, bla, bla. Mi, nekako, okamenelivse, in tokenizirati vse, nato pa trenirati velikanskomodeli za diskretne napovedi, v bistvu, in nekako bo iz tega nastala umetna inteligenca. Ne motijo ​​se v smislu, da je to lahko sestavni del prihodnjega inteligentnega sistema. Ampak mislim, da manjkajo bistveni deli. 

Obstaja še ena kategorija ljudi, ki jo bom odkljukal s tem dokumentom. In to so verjetnosti, verski verjetnosti. Torej, ljudje, ki mislijo, da je teorija verjetnosti edini okvir, ki ga lahko uporabite za razlago strojnega učenja. In kot sem poskušal razložiti v delu, je v bistvu preveč zahtevati, da je svetovni model popolnoma verjetnosten. Ne vemo, kako to narediti. Tu je računska nezmožnost. Zato predlagam, da opustimo celotno idejo. In seveda, veste, to je ogromen steber ne le strojnega učenja, ampak celotne statistike, ki trdi, da je običajen formalizem strojnega učenja. 

Druga stvar - 

ZDNet: V igri ste ...

YL: — so tako imenovani generativni modeli. Torej, zamisel, da se lahko naučite napovedovati in da se lahko s predvidevanjem morda veliko naučite o svetu. Torej, dam vam del videoposnetka in prosim sistem, da predvidi, kaj se bo v videoposnetku zgodilo naslednje. Morda vas bom prosil, da predvidite dejanske video okvirje z vsemi podrobnostmi. Toda v prispevku trdim, da je to dejansko preveč za vprašati in preveč zapleteno. In to je nekaj, o čemer sem si premislil. Do pred približno dvema letoma sem bil zagovornik tega, čemur pravim generativni modeli latentne spremenljivke, modeli, ki napovedujejo, kaj se bo zgodilo naslednje, ali informacije, ki manjkajo, po možnosti s pomočjo latentne spremenljivke, če napovedi ni mogoče deterministični. In sem obupal nad tem. In razlog, da sem opustil to, temelji na empiričnih rezultatih, pri katerih so ljudje poskušali uporabiti nekakšno usposabljanje na podlagi napovedi ali rekonstrukcije, kot se uporablja v BERTin velike jezikovne modele, so to poskušali uporabiti na slikah, a je bil popoln neuspeh. In razlog, da je popolnoma neuspešen, je spet v omejitvah verjetnostnih modelov, kjer je razmeroma enostavno napovedati diskretne žetone, kot so besede, ker lahko izračunamo porazdelitev verjetnosti za vse besede v slovarju. To je lahko. Toda če od sistema zahtevamo, da ustvari verjetnostno porazdelitev na vse možne video okvire, nimamo pojma, kako to parametrizirati, ali pa imamo idejo, kako to parametrizirati, vendar ne vemo, kako to normalizirati. Naleti na nerešljiv matematični problem, ki ga ne znamo rešiti. 

yann-lecun-sept-2022-3

"Nismo do točke, ko bi imeli naši inteligentni stroji toliko zdrave pameti kot mačka," ugotavlja Lecun. »Torej, zakaj ne začnemo tam? Kaj je tisto, kar mački omogoča, da dojema svet okoli sebe, počne precej pametne stvari, načrtuje in podobno, psom pa še bolje?«

Torej, zato pravim, da opustimo teorijo verjetnosti ali okvir za takšne stvari, tiste šibkejše, modele, ki temeljijo na energiji. Tudi jaz to zagovarjam že desetletja, tako da to ni nekaj nedavnega. A hkrati opuščanje ideje o generativnih modelih, ker je na svetu veliko stvari, ki niso razumljive in nepredvidljive. Če ste inženir, temu rečete hrup. Če ste fizik, temu rečete toplota. In če ste oseba s strojnim učenjem, temu rečete, saj veste, nepomembne podrobnosti ali kako drugače.

Torej, primer, ki sem ga uporabil v članku ali sem ga uporabil v pogovorih, je, da želite sistem za napovedovanje sveta, ki bi pomagal pri samovozečem avtomobilu, kajne? Želi biti sposoben vnaprej predvideti trajektorije vseh drugih avtomobilov, kaj se bo zgodilo z drugimi predmeti, ki se lahko premikajo, pešci, kolesa, otrok, ki teče za nogometno žogo, in podobne stvari. Torej, vse vrste stvari o svetu. Toda ob cesti so lahko drevesa in danes piha veter, tako da se listje premika v vetru, za drevesi pa je ribnik in v ribniku je valovanje. In to so v bistvu v veliki meri nepredvidljivi pojavi. In ne želite, da vaš model porabi veliko sredstev za napovedovanje stvari, ki jih je težko predvideti in so nepomembne. Zato zagovarjam skupno arhitekturo vdelave, tiste stvari, pri katerih spremenljivke, ki jo poskušate modelirati, ne poskušate predvideti, poskušate jo modelirati, vendar teče skozi kodirnik in ta kodirnik lahko odpravi veliko podrobnosti o vnosu, ki so nepomembne ali preveč zapletene - v bistvu enakovredne šumu.

ZDNet: V začetku tega leta smo razpravljali o modelih, ki temeljijo na energiji, JEPA in H-JEPA. Če vas prav razumem, menim, da iščete točko nizke energije, kjer sta si ti dve napovedi vdelav X in Y najbolj podobni, kar pomeni, da če je v enem golob na drevesu in je nekaj v ozadju prizora, to morda niso bistvene točke, zaradi katerih so te vdelave blizu druga drugi.

YL: Prav. Torej, arhitektura JEPA dejansko poskuša najti kompromis, kompromis med ekstrahiranjem predstavitev, ki so maksimalno informativne o vhodih, a tudi predvidljive druga od druge z določeno stopnjo natančnosti ali zanesljivosti. Najde kompromis. Torej, če ima možnost izbire med porabo ogromne količine sredstev, vključno s podrobnostmi o gibanju listov, in nato modeliranjem dinamike, ki bo odločila, kako se bodo listi premikali čez sekundo, ali pa to samo spusti na tla, Če v bistvu izvajamo spremenljivko Y skozi napovedovalec, ki izloči vse te podrobnosti, jo bo verjetno samo izločil, ker jo je enostavno pretežko modelirati in zajeti.

ZDNet: Ena stvar, ki je presenečena, je, da ste bili velik zagovornik trditve: "Deluje, pozneje bomo ugotovili teorijo termodinamike, da bi to razložili." Tukaj ste ubrali pristop: "Ne vem, kako bomo to nujno rešili, vendar želim predstaviti nekaj zamisli za razmislek o tem," in se morda celo približati teoriji ali hipotezi, vsaj. To je zanimivo, ker veliko ljudi porabi veliko denarja za avto, ki lahko vidi pešca ne glede na to, ali ima avto zdrav razum. Predstavljam si, da bodo nekateri od teh ljudi, ne da bi jih odkljukali, ampak bodo rekli: »V redu je, vseeno nam je, če nima zdrave pameti, zgradili smo simulacijo, simulacija je neverjetna, in še naprej se bomo izboljševali, še naprej bomo širili simulacijo.« 

In zato je zanimivo, da ste zdaj v položaju, da rečete, stopimo korak nazaj in razmislimo o tem, kaj počnemo. In industrija pravi, da bomo samo povečevali, merili, merili, merili, ker ta ročica res deluje. Mislim, polprevodniška ročica grafičnih procesorjev res deluje.

YL: Tam je približno pet vprašanj. Torej, mislim, skaliranje je potrebno. Ne kritiziram dejstva, da bi se morali povečati. Morali bi se povečati. Te nevronske mreže postajajo boljše, ko postajajo večje. Ni dvoma, da bi morali povečati. In tisti, ki bodo imeli nekaj zdrave pameti, bodo veliki. Temu se ne da izogniti, mislim. Skaliranje je torej dobro, potrebno, vendar ne zadostno. To je tisto, kar hočem povedati. Ne gre samo za skaliranje. To je prva točka. 

Druga točka, ali je teorija na prvem mestu in podobne stvari. Torej, mislim, da obstajajo koncepti, ki so na prvem mestu, da moraš stopiti korak nazaj in reči, v redu, zgradili smo to lestev, vendar želimo iti na Luno in ni možnosti, da bi nas ta lestev pripeljala tja. Torej, v bistvu, kar tukaj pišem, je, da moramo zgraditi rakete. Ne morem vam povedati podrobnosti o tem, kako gradimo rakete, toda tukaj so osnovna načela. In ne pišem teorije za to ali kaj podobnega, ampak to bo raketa, v redu? Ali vesoljsko dvigalo ali karkoli drugega. Morda nimamo vseh podrobnosti o vsej tehnologiji. Poskušamo doseči, da nekatere od teh stvari delujejo, kot sem delal na JEPA. Skupna vdelava deluje zelo dobro za prepoznavanje slik, vendar je uporaba za urjenje svetovnega modela težavna. Delamo na tem, upamo, da nam bo uspelo soon, vendar lahko tam naletimo na ovire, ki jih po možnosti ne moremo premagati. 

Potem je v prispevku ključna zamisel o sklepanju, pri čemer morajo sistemi imeti latentne spremenljivke, če želimo, da lahko načrtujejo, kar si lahko predstavljate kot preprosto obliko sklepanja. Z drugimi besedami, stvari, ki jih ne izračuna nobena nevronska mreža, ampak stvari, ki so - katerih vrednost je sklepana tako, da se minimizira neka objektivna funkcija, neka stroškovna funkcija. In potem lahko uporabite to stroškovno funkcijo za usmerjanje vedenja sistema. In to sploh ni nova ideja, kajne? To je zelo klasičen, optimalen nadzor, katerega osnova sega v pozne 50. in zgodnja 60. leta. Torej, tukaj ne trdim nobene novosti. Toda tisto, kar pravim, je, da mora biti ta vrsta sklepanja del inteligentnega sistema, ki je sposoben načrtovati in katerega vedenje je mogoče določiti ali nadzirati ne s trdim vedenjem, ne z nagnjenjem k imitaciji, ampak z objektivno funkcijo, ki poganja vedenje — ni nujno, da poganja učenje, poganja pa vedenje. Veste, to imamo v naših možganih in vsaka žival ima notranjo ceno ali notranjo motivacijo za stvari. To spodbudi devetmesečne dojenčke, da želijo vstati. Cena sreče, ko vstaneš, ta izraz v funkciji stroškov je vgrajen. Kako pa vstaneš, ni, to je učenje.

yann-lecun-sept-2022-4

»Skaliranje je dobro, potrebno je, vendar ne zadostuje,« pravi LeCun o velikanskih jezikovnih modelih, kot so programi, ki temeljijo na Transformerju, sorte GPT-3. Privrženci Transformerja verjamejo: »Vse tokeniziramo in treniramo velikanskomodeli za diskretne napovedi in nekako bo iz tega nastala umetna inteligenca … vendar mislim, da manjkajo bistveni deli.«

ZDNet: Če samo zaokrožim to točko, se zdi, da večina skupnosti globokega učenja dobro nadaljuje z nečim, kar nima zdrave pameti. Zdi se, kot da tukaj dajete precej jasen argument, da na neki točki postane slepo ulico. Nekateri ljudje pravijo, da ne potrebujemo avtonomnega avtomobila z zdravo pametjo, ker bo to uspelo s skaliranjem. Sliši se, kot da pravite, da ni v redu samo nadaljevati po tej poti?

YL: Veste, mislim, da je povsem možno, da bomo imeli avtonomne avtomobile pete stopnje brez zdrave pameti. Toda težava pri tem pristopu je, da bo to začasno, ker boste morali hudičevo načrtovati. Torej, veste, zemljevid celotnega sveta, trdo povezovanje vseh vrst specifičnega vedenja v ovinkih, zbiranje dovolj podatkov, da boste imeli vse nenavadne situacije, na katere lahko naletite na cestah, bla, bla, bla. In moja domneva je, da lahko z dovolj naložbe in časa izdelate hudiča. Toda na koncu se bo pojavila bolj zadovoljujoča in morda boljša rešitev, ki bo vključevala sisteme, ki bolje razumejo, kako svet deluje, in ima, veste, določeno raven tega, čemur bi rekli zdrava pamet. Ni nujno, da gre za zdravo pamet na ravni človeka, ampak za nekakšno znanje, ki ga lahko sistem pridobi z opazovanjem, ne pa z opazovanjem nekoga, ki vozi, samo z opazovanjem stvari, ki se premikajo, in razumevanjem veliko o svetu, gradnjo temelja ozadja znanje o tem, kako svet deluje, poleg tega se lahko naučite voziti. 

Naj navedem zgodovinski primer tega. Klasični računalniški vid je temeljil na številnih ožičenih, inženirskih modulih, na vrhu katerih bi imeli, nekako, tanko plast učenja. Torej, stvari, ki jih je leta 2012 premagal AlexNet, so v bistvu imele prvo stopnjo, neke vrste ročno izdelane ekstrakcije funkcij, kot so SIFT [Scale-Invariant Feature Transform (SIFT), klasična vidna tehnika za prepoznavanje pomembnih predmetov na sliki] in HOG (Histogram usmerjenih gradientov, druga klasična tehnika) in razne druge stvari. In potem druga plast nekakšnih funkcij srednje ravni, ki temeljijo na jedrih funkcij in karkoli že, in nekakšni nenadzorovani metodi. In potem na vrh tega postavite stroj podpornih vektorjev ali pa razmeroma preprost klasifikator. In to je bil nekako standardni cevovod od sredine 2000-ih do leta 2012. In to so nadomestila konvolucijska omrežja od konca do konca, kjer ničesar od tega ne povežete, imate samo veliko podatkov, in zadevo treniraš od konca do konca, kar je pristop, ki sem ga zagovarjal že dolgo, a veš, do takrat ni bil praktičen za velike probleme. 

Podobna zgodba je bila pri prepoznavanju govora, kjer je bilo spet ogromno podrobnega inženiringa za to, kako vnaprej obdelate podatke, ekstrahirate množični kepstrum [inverzijo hitre Fourierove transformacije za obdelavo signalov] in nato imate skrite Markovljeve modele z nekakšno vnaprej nastavljeno arhitekturo, bla, bla, bla, z mešanico Gaussovih. In tako je nekoliko enaka arhitektura kot vizija, kjer imate ročno izdelan sprednji del, nato nekoliko nenadzorovan, usposobljen srednji sloj in nato nadzorovan sloj na vrhu. In zdaj so to v bistvu izbrisale nevronske mreže od konca do konca. Tako nekako vidim nekaj podobnega, da se poskušaš naučiti vsega, vendar moraš imeti pravo predznanje, pravo arhitekturo, pravo strukturo.

yann-lecun-sept-2022-5

Množica samovozečih avtomobilov, zagonska podjetja, kot sta Waymo in Wayve, so bili "malo preveč optimistični," pravi, saj so mislili, da bi lahko "nanje vrgli podatke in se lahko naučite skoraj vsega." Samovozeči avtomobili na 5. stopnji ADAS so možni, "vendar boste morali to narediti do hudiča" in bodo "krhki" kot zgodnji modeli računalniškega vida.

ZDNet: Hočete reči, da bodo nekateri ljudje poskušali oblikovati tisto, kar trenutno ne deluje z globokim učenjem, za uporabnost, recimo v industriji, in bodo začeli ustvarjati nekaj, kar je zastarelo v računalniškem vidu?

YL: Prav. In to je deloma razlog, zakaj so bili ljudje, ki se ukvarjajo z avtonomno vožnjo, v zadnjih nekaj letih malo preveč optimistični, ker, veste, imate te neke vrste generične stvari, kot so konvolucijska omrežja in transformatorji, na katere lahko vržete podatke , in se lahko nauči skoraj vsega. Torej, rečete, v redu, imam rešitev za ta problem. Prva stvar, ki jo naredite, je, da sestavite demo, kjer se avto nekaj minut vozi sam, ne da bi koga poškodoval. In potem ugotoviš, da je veliko zakotnih primerov, in poskušaš zarisati krivuljo, koliko boljši sem, ko podvojim vadbo, in ugotoviš, da nikoli ne boš prišel tja, ker obstajajo vse vrste zakotnih primerov . In morate imeti avto, ki bo povzročil smrtno nesrečo manj kot vsakih 200 milijonov kilometrov, kajne? Torej kaj počneš? No, hodiš v dve smeri. 

Prva smer je, kako lahko zmanjšam količino podatkov, ki so potrebni za učenje mojega sistema? In tu pride na vrsto samonadzorovano učenje. Veliko proizvajalcev samovozečih avtomobilov se zelo zanima za samonadzorovano učenje, ker je to način, da se še vedno uporablja velikanska količina nadzornih podatkov za posnemanje učenja, vendar se izboljša učinkovitost z v bistvu pred usposabljanjem. In še ni se čisto izšlo, a se bo. In potem je tu še druga možnost, ki jo je sprejela večina podjetij, ki so na tej točki naprednejša, kar je, v redu, lahko izvedemo usposabljanje od konca do konca, vendar obstaja veliko zakotnih primerov, ki jih lahko t ročaj, tako da bomo samo načrtovali sisteme, ki bodo poskrbeli za te vogalne primere, in jih v bistvu obravnavali kot posebne primere ter napeli krmiljenje in nato ožičili veliko osnovnega vedenja za obvladovanje posebnih situacij. In če imate dovolj veliko ekipo inženirjev, vam bo morda uspelo. Vendar bo trajalo veliko časa in na koncu bo še vedno nekoliko krhko, morda dovolj zanesljivo, da ga lahko uvedete, vendar z določeno stopnjo krhkosti, ki bo s pristopom, ki bolj temelji na učenju, ki se lahko pojavi v prihodnosti avtomobili ne bodo imeli, ker bi lahko imeli nekaj zdrave pameti in razumevanja, kako svet deluje. 

Kratkoročno bo nekakšen inženirski pristop zmagal – že zmaguje. To sta Waymo in Cruise sveta in Wayvein karkoli, to počnejo. Potem je tu pristop samonadzorovanega učenja, ki bo verjetno pomagal inženirskemu pristopu k napredku. Toda na dolgi rok, ki je za ta podjetja morda predolg, da bi nanj čakala, bi bil verjetno bolj integriran sistem avtonomne inteligentne vožnje.

ZDNet: Pravimo, da presega naložbeni horizont večine vlagateljev.

YL: Tako je. Vprašanje je torej, ali bodo ljudje izgubili potrpljenje ali zmanjkalo denarja, preden bo uspešnost dosegla želeno raven.

ZDNet: Je kaj zanimivega za povedati o tem, zakaj ste izbrali nekatere elemente, ki ste jih izbrali v modelu? Ker citiraš Kennetha Craika [1943,Narava razlage] in citirate Brysona in Hoja [1969, Uporabljen optimalen nadzor], in zanima me, zakaj ste začeli s temi vplivi, če ste še posebej verjeli, da so ti ljudje pribili do tega, kar so naredili. Zakaj ste začeli tam?

YL: No, mislim, da zagotovo niso imeli vseh podrobnosti. Torej, Bryson in Ho, to je knjiga, ki sem jo prebral leta 1987, ko sem bil na podoktorskem študiju pri Geoffreyju Hintonu v Torontu. Toda za to področje dela sem vedel že vnaprej, ko sem pisal doktorat, in v bistvu vzpostavil povezavo med optimalnim nadzorom in hrbtno stranjo. Če bi res želeli biti, veste, še en Schmidhuber, bi rekli, da so bili pravi izumitelji backpropa pravzaprav teoretiki optimalnega nadzora Henry J. Kelley, Arthur Bryson in morda celo Lev Pontrjagin, ki je ruski teoretik optimalnega nadzora nazaj v poznih 50-ih. 

Tako so ugotovili in dejansko lahko vidite koren tega, matematika pod tem je Lagrangeva mehanika. Torej se lahko pravzaprav vrneš k Eulerju in Lagrangeu in najdeš pridih tega v njuni definiciji Lagrangeove klasične mehanike. Torej, v kontekstu optimalnega nadzora je te fante zanimalo v bistvu računanje trajektorij raket. Veste, to je bila zgodnja vesoljska doba. In če imate model rakete, vam pove, v kakšnem trenutku je raketa t, in tukaj je ukrep, ki ga bom izvedel, torej, potisk in aktuatorji različnih vrst, tukaj je stanje rakete v trenutku t + 1.

ZDNet: Model stanje-delovanje, vrednotni model.

YL: Tako je, osnova nadzora. Torej, zdaj lahko simulirate streljanje svoje rakete tako, da si zamislite zaporedje ukazov, nato pa imate neko stroškovno funkcijo, ki je razdalja rakete do njenega cilja, vesoljske postaje ali karkoli že. In potem lahko z nekakšnim gradientnim spuščanjem ugotovite, kako lahko posodobim svoje zaporedje dejanj, tako da se moja raketa dejansko čim bolj približa cilju. In to mora priti s povratnim širjenjem signalov nazaj v času. In to je širjenje nazaj, gradientno širjenje nazaj. Ti signali se v Lagrangeovi mehaniki imenujejo konjugirane spremenljivke, v resnici pa so gradienti. Torej so izumili backprop, vendar se niso zavedali, da bi to načelo lahko uporabili za treniranje večstopenjskega sistema, ki lahko izvaja prepoznavanje vzorcev ali kaj podobnega. To ni bilo zares realizirano do morda poznih 70-ih, zgodnjih 80-ih, potem pa je bilo dejansko implementirano in pripravljeno za delo šele sredi 80-ih. V redu, torej, tukaj je backprop resnično, na nek način, vzletel, ker so ljudje pokazali nekaj vrstic kode, s katerimi lahko trenirate nevronsko mrežo, od konca do konca, večplastno. In to odpravlja omejitve Perceptrona. In ja, obstajajo povezave z optimalnim nadzorom, vendar je to v redu.

ZDNet: Torej, to je dolg način za reči, da so se ti vplivi, s katerimi ste začeli, vračali nazaj k backpropu, in to je bilo za vas pomembno kot izhodišče?

YL: Ja, ampak mislim, da so ljudje malce pozabili na to, da je bilo na tem kar nekaj dela, veste, v 90. ali celo 80. letih, vključno z ljudmi, kot je Michael Jordan [MIT Dept. of Brain in kognitivne znanosti] in podobnih ljudi, ki ne delajo več nevronskih mrež, ampak idejo, da lahko nevronske mreže uporabljate za nadzor in lahko uporabite klasične ideje optimalnega nadzora. Torej, stvari, kot so tisto, čemur pravimo modelno napovedni nadzor, kar se zdaj imenuje modelno napovedni nadzor, ta ideja, da lahko simulirate ali predstavljate izid zaporedja dejanj, če imate dober model sistema, ki ga poskušate nadzorovati. in okolje, v katerem je. In potem z gradientnim spuščanjem, v bistvu – to ni učenje, to je sklepanje – lahko ugotovite, katero je najboljše zaporedje dejanj, ki bo zmanjšalo moj cilj. Torej, mislim, da je uporaba stroškovne funkcije z latentno spremenljivko za sklepanje nekaj, na kar so sedanji pridelki obsežnih nevronskih mrež pozabili. Vendar je bil dolgo časa zelo klasična komponenta strojnega učenja. Torej je vsaka Bayesova mreža ali grafični model ali verjetnostni grafični model uporabljal to vrsto sklepanja. Imate model, ki zajame odvisnosti med množico spremenljivk, povejo vam vrednost nekaterih spremenljivk, nato pa morate sklepati o najverjetnejši vrednosti preostalih spremenljivk. To je osnovno načelo sklepanja v grafičnih modelih in Bayesovih mrežah in podobnih stvareh. In mislim, da bi moralo biti razmišljanje o tem, sklepanje in načrtovanje.

ZDNet: Ste Bayesian iz omare.

YL: Sem neverjetnostni Bayesian. To šalo sem naredil že prej. Pravzaprav sem bil na NeurIPS pred nekaj leti, mislim, da je bilo leta 2018 ali 2019, in na video me je ujel Bayesian, ki me je vprašal, ali sem Bayesian, in rekel sem, Ja, sem Bayesian, vendar sem Sem neverjetnostni Bayesian, nekakšen, na energiji temelječ Bayesian, če želite. 

ZDNet: Kar zagotovo zveni kot nekaj iz Star Trek. Na koncu tega prispevka ste omenili, da bodo potrebna leta res trdega dela, da uresničite, kar si zamislite. Povejte mi, kaj del tega dela trenutno obsega.

YL: Torej, v prispevku razložim, kako trenirate in gradite JEPA. In merilo, za katerega se zavzemam, je imeti nek način maksimiranja vsebine informacij, ki jih imajo predstavitve, ki so ekstrahirane, o vnosu. In potem drugi minimizira napako napovedi. In če imate v napovedovalcu latentno spremenljivko, ki omogoča, da napovedovalec ni determinističen, morate urediti tudi to latentno spremenljivko tako, da minimizirate njeno vsebino informacij. Torej imate zdaj dve vprašanji, in sicer kako povečate informacijsko vsebino izhoda neke nevronske mreže, drugo pa je, kako zmanjšate informacijsko vsebino neke latentne spremenljivke? In če teh dveh stvari ne storite, se bo sistem sesul. Ne bo izvedel nič zanimivega. Vsemu bo dal nič energije, nekaj takega, kar ni dober model odvisnosti. To je problem preprečevanja propada, ki ga omenjam. 

In pravim, da od vseh stvari, ki so jih ljudje kdaj naredili, obstajata samo dve kategoriji metod za preprečevanje propada. Ena so kontrastne metode, druga pa tiste regularizirane metode. Torej, ta zamisel maksimiranja informacijske vsebine predstavitev obeh vhodov in minimiziranja informacijske vsebine latentne spremenljivke, ki spada med regularizirane metode. Toda veliko dela v teh arhitekturah skupne vdelave je z uporabo kontrastnih metod. Pravzaprav so trenutno verjetno najbolj priljubljeni. Vprašanje je torej, kako natančno merite vsebino informacij na način, ki ga lahko optimizirate ali minimizirate? In tu se stvari zapletejo, ker pravzaprav ne vemo, kako meriti vsebino informacij. Lahko ga približamo, lahko ga zgornjo mejo, lahko delamo takšne stvari. Vendar dejansko ne merijo vsebine informacij, ki pravzaprav do neke mere niti ni natančno definirana.

ZDNet: Ali ni Shannonov zakon? Ali ni teorija informacij? Imate določeno količino entropije, dobro entropijo in slabo entropijo, in dobra entropija je simbolni sistem, ki deluje, slaba entropija je šum. Ali ni vsega rešila Shannon?

YL: Imaš prav, a za tem je velika napaka. Prav imate v smislu, da če imate podatke, ki prihajajo k vam in jih lahko nekako kvantizirate v diskretne simbole, nato pa izmerite verjetnost vsakega od teh simbolov, potem je največja količina informacij, ki jih prenašajo ti simboli, seštejte možne simbole Pi log Pi, prav? Kje Pi je verjetnost simbola jaz - to je Shannonova entropija. [Shannonov zakon je običajno formuliran kot H = – ∑ pi log pi.]

Tu pa je težava: Kaj je Pi? Enostavno je, če je število simbolov majhno in so simboli narisani neodvisno. Ko je veliko simbolov in odvisnosti, je zelo težko. Torej, če imate zaporedje bitov in domnevate, da so biti neodvisni drug od drugega in je verjetnost enaka med ena in nič ali karkoli drugega, potem lahko preprosto izmerite entropijo, ni problema. Toda če so stvari, ki pridejo do vas, visokodimenzionalni vektorji, kot veste, podatkovni okviri ali kaj podobnega, kaj je Pi? Kakšna je distribucija? Najprej morate kvantizirati ta prostor, ki je visokodimenzionalen, kontinuiran prostor. Nimate pojma, kako to pravilno kvantizirati. Uporabite lahko k-means itd. To počnejo ljudje, ko izvajajo stiskanje videa in slike. Ampak to je le približek. In potem morate narediti predpostavke o neodvisnosti. Jasno je torej, da v videu zaporedni okvirji niso neodvisni. Obstajajo odvisnosti in ta okvir je lahko odvisen od drugega okvira, ki ste ga videli pred eno uro in ki je bila slika iste stvari. Torej, veste, ne morete meriti Pi. Meriti Pi, morate imeti sistem strojnega učenja, ki se nauči napovedovati. In tako ste spet pri prejšnjem problemu. Torej lahko v bistvu le približate količino informacij. 

yann-lecun-sept-2022-6

"Vprašanje je, kako natančno merite vsebino informacij na način, ki ga lahko optimizirate ali minimizirate?" pravi LeCun. "In tu se stvari zapletejo, ker dejansko ne vemo, kako meriti vsebino informacij." Najboljše, kar lahko storimo do zdaj, je najti posrednika, ki je "dovolj dober za nalogo, ki jo želimo."

Naj navedem bolj konkreten primer. Eden od algoritmov, s katerim smo se igrali in o katerem sem govoril v prispevku, je stvar, imenovana VICReg, ureditev variance-invariance-covariance. To je v ločenem dokumentu, ki je bil objavljen na ICLR, in dano je bilo na arXiv približno eno leto prej, 2021. In ideja je povečati informacije. In ideja je dejansko izšla iz prejšnjega dokumenta moje skupine z naslovom Dvojčka Barlow. Informacijsko vsebino vektorja, ki prihaja iz nevronske mreže, povečate tako, da v bistvu predpostavite, da je edina odvisnost med spremenljivkami korelacija, linearna odvisnost. Torej, če domnevate, da je edina možna odvisnost med pari spremenljivk ali med spremenljivkami v vašem sistemu korelacije med pari vrednosti, kar je zelo grob približek, potem lahko povečate vsebino informacij, ki prihajajo iz vašega sistema. tako, da zagotovite, da imajo vse spremenljivke različno varianco – recimo varianco ena, ni pomembno, kakšna je – in jih nato povratno korelirate, isti postopek, ki se imenuje beljenje, tudi ni nov. Težava pri tem je, da imate lahko zelo zapletene odvisnosti med skupinami spremenljivk ali celo samo pari spremenljivk, ki niso linearne odvisnosti, in se ne prikažejo v korelacijah. Torej, na primer, če imate dve spremenljivki in se vse točke teh dveh spremenljivk poravnajo v nekakšno spiralo, obstaja zelo močna odvisnost med tema dvema spremenljivkama, kajne? Toda v resnici, če izračunate korelacijo med tema dvema spremenljivkama, nista korelirani. Torej, tukaj je primer, kjer je vsebina informacij teh dveh spremenljivk dejansko zelo majhna, je samo ena količina, ker je to vaš položaj v spirali. So brez korelacije, tako da mislite, da imate veliko informacij, ki izhajajo iz teh dveh spremenljivk, čeprav jih v resnici nimate, imate samo, saj veste, da lahko eno spremenljivko predvidite iz druge, v bistvu. To torej kaže, da imamo le zelo približne načine za merjenje vsebine informacij.

ZDNet: In to je torej ena od stvari, na kateri moraš zdaj delati? To je širše vprašanje, kako vemo, kdaj povečamo ali zmanjšamo vsebino informacij?

YL:  Ali pa je proxy, ki ga uporabljamo za to, dovolj dober za nalogo, ki jo želimo. Pravzaprav to v strojnem učenju počnemo ves čas. Stroškovne funkcije, ki jih minimiziramo, nikoli niso tiste, ki jih dejansko želimo minimizirati. Torej, na primer, želite narediti klasifikacijo, v redu? Funkcija stroškov, ki jo želite minimizirati, ko učite klasifikatorja, je število napak, ki jih klasifikator naredi. Toda to je nediferencialna, grozljiva stroškovna funkcija, ki je ne morete minimizirati, ker veste, da boste spremenili uteži vaše nevronske mreže, nič se ne bo spremenilo, dokler eden od teh vzorcev ne spremeni svoje odločitve, nato pa skok v napaki, pozitivni ali negativni.

ZDNet: Torej imate približek, ki je objektivna funkcija, za katero zagotovo lahko rečete, da lahko definitivno gradiente toka te stvari.

YL: Tako je. Torej ljudje uporabljajo to navzkrižno entropijsko izgubo ali SOFTMAX, imate več imen za to, vendar je ista stvar. In v bistvu gre za gladek približek števila napak, ki jih naredi sistem, pri čemer se glajenje izvede v bistvu z upoštevanjem ocene, ki jo sistem dodeli vsaki od kategorij.

ZDNet: Ali obstaja kaj, kar še nismo zajeli, pa bi želeli pokriti?

YL: Verjetno poudarja glavne točke. Mislim, da morajo biti sistemi umetne inteligence sposobni sklepati in postopek za to, ki ga zagovarjam, je minimiziranje nekega cilja glede na neko latentno spremenljivko. To omogoča sistemom načrtovanje in razmišljanje. Mislim, da bi morali opustiti verjetnostni okvir, ker je nerešljiv, ko želimo delati stvari, kot je zajemanje odvisnosti med visokodimenzionalnimi zveznimi spremenljivkami. In zagovarjam opustitev generativnih modelov, ker bo sistem moral posvetiti preveč virov napovedovanju stvari, ki jih je pretežko predvideti in morda porabijo preveč virov. In to je skoraj vse. To so glavna sporočila, če želite. In potem celotna arhitektura. Potem so tu še špekulacije o naravi zavesti in vlogi konfiguratorja, a to so res špekulacije.

ZDNet: Do tega bomo prišli naslednjič. Hotel sem vas vprašati, kako primerjate to stvar? Ampak mislim, da ste zdaj malo dlje od primerjalne analize?

YL: Ne nujno tako daleč v nekako poenostavljenih različicah. Naredite lahko to, kar počnejo vsi pri nadzornem ali krepitvenem učenju, to je, da usposobite stvar za igranje iger Atari ali česa podobnega ali kakšne druge igre, ki vsebuje nekaj negotovosti.

ZDNet: Hvala za tvoj čas, Yann.

vir