Metin AI guru LeCun: Većina današnjih pristupa AI nikada neće dovesti do prave inteligencije

yann-lecun-sept-2022-1

„Mislim da sistemi veštačke inteligencije moraju da budu u stanju da razumiju“, kaže Yann LeCun, Meta-in glavni AI naučnik. Današnji popularni pristupi umjetnoj inteligenciji kao što su Transformers, od kojih se mnogi zasnivaju na njegovom vlastitom pionirskom radu na terenu, neće biti dovoljni. „Morate da napravite korak unazad i kažete: U redu, napravili smo ove merdevine, ali želimo da idemo na Mesec, i nema šanse da nas ove merdevine odvedu tamo“, kaže LeKun.

Yann LeCun, glavni naučnik AI Meta Propertiesa, vlasnika Facebooka, Instagrama i WhatsAppa, vjerovatno će oduševiti mnoge ljude u svojoj oblasti. 

Sa objavom razmišljanja u junu na serveru Open Review, LeCun je ponudio široki pregled pristupa za koji smatra da obećava za postizanje inteligencije na ljudskom nivou u mašinama. 

U radu se podrazumijeva ako nije artikulirana tvrdnja da većina današnjih velikih projekata u AI nikada neće moći postići taj cilj na ljudskom nivou.

U raspravi ovog mjeseca sa ZDNet putem Zoom-a, LeCun je jasno stavio do znanja da sa velikim skepticizmom gleda na mnoge od najuspješnijih puteva istraživanja dubokog učenja u ovom trenutku.

„Mislim da su neophodne, ali nisu dovoljne“, rekao je dobitnik Turingove nagrade ZDNet potragama njegovih vršnjaka. 

To uključuje velike jezičke modele kao što je GPT-3 zasnovan na Transformeru i njima sličnim. Kako to LeCun opisuje, bhakte Transformera vjeruju: „Sve tokeniziramo i treniramo gigantskemodeli za diskretna predviđanja, a iz ovoga će nekako izaći AI.”

“Oni nisu u krivu,” kaže on, “u smislu da bi to mogla biti komponenta budućeg inteligentnog sistema, ali mislim da mu nedostaju bitni dijelovi.”

Takođe: Meta-in AI luminar LeCun istražuje energetske granice dubokog učenja

To je zapanjujuća kritika onoga što se čini da radi dolazi od naučnika koji je usavršio upotrebu konvolucionih neuronskih mreža, praktične tehnike koja je bila nevjerovatno produktivna u programima dubokog učenja. 

LeCun vidi nedostatke i ograničenja u mnogim drugim vrlo uspješnim područjima discipline. 

Učenje s pojačanjem također nikada neće biti dovoljno, tvrdi on. Istraživači kao što je David Silver iz DeepMinda, koji je razvio program AlphaZero koji je savladao šah, šogi i go, fokusiraju se na programe koji su „veoma zasnovani na akciji“, primećuje LeKun, ali „većinu učenja koje radimo, mi ne radimo tako što zaista preduzimamo akcije, mi to radimo posmatrajući.” 

Lecun, 62, iz perspektive decenija dostignuća, ipak izražava hitnost da se suoči s onim što on misli da su slijepe ulice u koje mnogi možda žure, i da pokuša nagovoriti svoje polje u smjeru u kojem misli da bi stvari trebale ići. 

„Vidimo mnogo tvrdnji o tome šta treba da uradimo da napredujemo ka veštačkoj inteligenciji na ljudskom nivou“, kaže on. “I postoje ideje za koje mislim da su pogrešno usmjerene.”

„Nismo do tačke u kojoj naše inteligentne mašine imaju toliko zdravog razuma kao mačka,“ primećuje Lecun. “Pa, zašto ne bismo počeli tamo?” 

On je napustio svoju prethodnu vjeru u korištenje generativnih mreža u stvarima kao što je predviđanje sljedećeg kadra u videu. “To je bio potpuni neuspjeh”, kaže on. 

LeCun osuđuje one koje naziva „religioznim verovatnoćarima“, koji „smatraju da je teorija verovatnoće jedini okvir koji možete koristiti da objasnite mašinsko učenje“. 

Čisto statistički pristup je nerešiv, kaže on. “Previše je tražiti da model svijeta bude potpuno vjerovatno; ne znamo kako to da uradimo.”

Ne samo akademici, već i industrijska AI treba duboko preispitati, tvrdi LeCun. Gomila samovozećih automobila, startupi kao što je Wayve, bili su "malo previše optimistični", kaže on, misleći da bi mogli "baciti podatke na" velike neuronske mreže "i možete naučiti skoro sve."

„Znate, mislim da je sasvim moguće da ćemo imati autonomne automobile petog nivoa bez zdravog razuma“, kaže on, misleći na „ADAS“, napredni sistem za pomoć vozaču termini za samovožnju, "ali ćete morati da ga isplanirate."

Takva preterano osmišljena tehnologija samovožnje bit će nešto tako škripava i krhka kao i svi programi za kompjuterski vid koji su zastarjeli dubokim učenjem, vjeruje on.

„Na kraju, postojaće zadovoljavajuće i možda bolje rešenje koje uključuje sisteme koji bolje razumeju način na koji svet funkcioniše.”

Usput, LeCun nudi neke sumorne poglede na svoje najveće kritičare, kao što su profesor NYU Gary Marcus — „on nikada nije ništa doprinio AI“ — i Jürgen Schmidhuber, ko-direktor Dalle Molle instituta za istraživanje umjetne inteligencije — „to je vrlo lako napraviti postavljanje zastava.”

Osim kritika, važnija poenta koju je iznio LeCun je da se određeni fundamentalni problemi susreću s cijelom umjetnom inteligencijom, posebno kako mjeriti informacije.

„Morate da napravite korak unazad i kažete, u redu, napravili smo ove merdevine, ali želimo da idemo na Mesec, i nema šanse da nas ove merdevine odvedu tamo“, kaže LeKun o svojoj želji da podstakne preispitivanje osnovnih pojmova. “U suštini, ovo što pišem ovdje je da moramo praviti rakete, ne mogu vam dati detalje o tome kako pravimo rakete, ali evo osnovnih principa.”

Rad i LeCunove misli u intervjuu mogu se bolje razumjeti čitanjem LeCunovog intervjua ranije ove godine sa ZDNet u kojem se zalaže za samonadzirano učenje zasnovano na energiji kao put naprijed za duboko učenje. Ta razmišljanja daju osjećaj osnovnog pristupa onome što se nada da će izgraditi kao alternativu stvarima za koje tvrdi da neće stići do cilja. 

Ono što slijedi je lagano uređen transkript intervjua.

ZDNet: Tema našeg razgovora je ovaj rad, „Put ka autonomnoj mašinskoj inteligenciji“, čija je verzija 0.9.2 postojeća verzija, zar ne?

Yann LeCun: Da, smatram ovo, na neki način, radnim dokumentom. Dakle, postavio sam ga na Open Review, čekajući da ljudi daju komentare i sugestije, možda dodatne reference, a onda ću napraviti revidiranu verziju. 

ZDNet: Vidim da je Juergen Schmidhuber već dodao neke komentare u Open Review.

YL: Pa, da, uvijek radi. Citiram jedan od njegovih radova tamo u svom radu. Mislim da argumenti koje je iznosio na društvenim mrežama da je on sve ovo izmislio 1991. godine, kao što je to činio u drugim slučajevima, jednostavno nisu tačni. Mislim, to je vrlo lako uraditipostavljanje zastave, i da, na neki način, napišete ideju bez ikakvih eksperimenata, bez ikakve teorije, samo sugerirajte da biste to mogli učiniti na ovaj način. Ali, znate, postoji velika razlika između samo imati ideju, a zatim je natjerati da radi na problemu igračke, a zatim je natjerati da radi na stvarnom problemu, i onda raditi teoriju koja pokazuje zašto funkcionira, i onda raspoređujući ga. Postoji čitav lanac, a njegova ideja o naučnoj zaslugi je da je to prva osoba koja je, na neki način, imala ideju o tome, koja bi trebala dobiti sve zasluge. I to je smiješno. 

ZDNet: Ne vjerujte svemu što čujete na društvenim mrežama. 

YL: Mislim, glavni rad koji on kaže da treba da citiram nema nijednu od glavnih ideja o kojima govorim u radu. To je radio i sa GAN-ovima i drugim stvarima, što se nije pokazalo istinitim. Lako je postaviti zastavu, mnogo je teže dati doprinos. I, inače, u ovom konkretnom radu sam izričito rekao da ovo nije naučni rad u uobičajenom smislu te reči. To je više papir o poziciji o tome gdje bi ova stvar trebala ići. I postoji nekoliko ideja koje bi mogle biti nove, ali većina nije. Ne tražim nikakav prioritet za većinu onoga što sam napisao u tom radu, u suštini.

yann-lecun-sept-2022-2

Učenje s pojačanjem također nikada neće biti dovoljno, tvrdi LeCun. Istraživači kao što je David Silver iz DeepMind-a, koji je razvio program AlphaZero koji je savladao šah, šogi i go, „veoma su zasnovani na akciji“, primećuje LeKun, ali „većinu učenja koje radimo, ne radimo tako što akcije, mi to radimo posmatrajući.” 

ZDNet: I to je možda dobro mjesto za početak, jer me zanima zašto ste sada krenuli ovim putem? Šta te je navelo na razmišljanje o ovome? Zašto ste htjeli ovo napisati?

YL: Dakle, razmišljam o ovome već jako dugo, o putu ka inteligenciji ili učenju i sposobnostima na ljudskom ili životinjskom nivou. I, u svojim razgovorima, bio sam prilično glasan u vezi cijele ove stvari da su i nadgledano učenje i učenje s pojačanjem nedovoljni da oponašaju vrstu učenja koju opažamo kod životinja i ljudi. Ovo radim otprilike sedam ili osam godina. Dakle, nije nedavno. Imao sam predavanje na NeurIPS-u prije mnogo godina gdje sam to iznio, u suštini, i razni razgovori, postoje snimci. Zašto sada pisati rad? Došao sam do tačke — [Google Brain istraživač] Geoff Hinton je uradio nešto slično — mislim, svakako, on više nego ja, vidimo da vrijeme ističe. Nismo mladi.

ZDNet: Šezdeset je novih pedeset. 

YL: To je tačno, ali poenta je da vidimo mnogo tvrdnji o tome šta treba da uradimo da napredujemo ka ljudskom nivou AI. I postoje ideje za koje mislim da su pogrešno usmjerene. Dakle, jedna ideja je, Oh, trebali bismo samo dodati simboličko rezonovanje povrh neuronskih mreža. I ne znam kako to da uradim. Dakle, možda bi ono što sam objasnio u radu mogao biti jedan pristup koji bi učinio istu stvar bez eksplicitne manipulacije simbolima. Ovo je vrsta tradicionalnog Gary Marcusesa u svijetu. Gary Marcus nije AI osoba, inače, on je psiholog. Nikada nije ništa doprinio AI. Uradio je zaista dobar posao u eksperimentalnoj psihologiji, ali nikada nije napisao recenzirani rad o AI. Dakle, tu su ti ljudi. 

Postoji [naučnik istraživanja principa DeepMind] David Silvers iz svijeta koji kaže, znate, nagrada je dovoljna, u suštini, sve je u učenju s pojačanjem, samo ga trebamo učiniti malo efikasnijim, u redu? I, mislim da nisu u krivu, ali mislim da bi neophodni koraci ka tome da učenje s pojačanjem učinimo efikasnijim, u osnovi, dovelo do toga da učenje s pojačanjem bude neka vrsta trešnje na torti. A glavni dio koji nedostaje je učenje kako svijet funkcionira, uglavnom posmatranjem bez akcije. Učenje s pojačanjem je vrlo bazirano na akciji, naučite stvari o svijetu poduzimajući akcije i gledajući rezultate.

ZDNet: I fokusiran je na nagradu.

YL: Fokusiran je na nagradu, a fokusiran je i na akciju. Dakle, morate djelovati u svijetu da biste mogli nešto naučiti o svijetu. A glavna tvrdnja koju iznosim u radu o samonadgledanom učenju je da većinu učenja koje radimo, ne radimo tako što zapravo preduzimamo akcije, mi to radimo posmatrajući. I to je vrlo neortodoksno, posebno za ljude koji uče s pojačavanjem, ali i za mnoge psihologe i kognitivne naučnike koji misle da je, znate, akcija – ne kažem da akcija nije suštinska, ona is bitno. Ali mislim da je najveći dio onoga što učimo uglavnom o strukturi svijeta, i uključuje, naravno, interakciju i akciju i igru, i slične stvari, ali dosta toga je promatranje.

ZDNet: Također ćete uspjeti istovremeno označiti ljude iz Transformera, ljude koji su prvi na jeziku. Kako ovo možete izgraditi bez jezika? Možda ćete uspeti da odbacite mnogo ljudi. 

YL: Da, navikao sam na to. Dakle, da, postoje ljudi koji su na prvom mestu prema jeziku, koji kažu, znate, inteligencija je vezana za jezik, supstrat inteligencije je jezik, bla, bla, bla. Ali to, na neki način, odbacuje životinjsku inteligenciju. Znate, nismo do te mjere da naše inteligentne mašine imaju zdrav razum kao mačka. Pa, zašto ne bismo počeli tamo? Šta je to što omogućava mački da shvati okolni svijet, radi prilično pametne stvari, planira i slične stvari, a psima još bolje? 

Onda postoje svi ljudi koji kažu: Oh, inteligencija je društvena stvar, zar ne? Inteligentni smo jer razgovaramo jedni s drugima i razmjenjujemo informacije, i bla, bla, bla. Postoje sve vrste nesocijalnih vrsta koje nikada ne upoznaju svoje roditelje koji su veoma pametni, poput hobotnice ili orangutana.Mislim, njih [orangutane] svakako obrazuje njihova majka, ali oni nisu društvene životinje. 

Ali druga kategorija ljudi koju bih mogao označiti su ljudi koji kažu da je skaliranje dovoljno. Dakle, u osnovi, mi samo koristimo gigantske Transformere, treniramo ih na multimodalnim podacima koji uključuju, znate, video, tekst, bla, bla, bla. Mi se, nekako, okamenimosve, i tokeniziraj sve, a zatim treniraj gigantskimodeli za pravljenje diskretnih predviđanja, u osnovi, i nekako će iz ovoga proizaći AI. Nisu u krivu, u smislu da to može biti komponenta budućeg inteligentnog sistema. Ali mislim da mu nedostaju bitni dijelovi. 

Postoji još jedna kategorija ljudi koju ću označiti ovim papirom. I to su probabilisti, vjerski probabilisti. Dakle, ljudi koji misle da je teorija vjerovatnoće jedini okvir koji možete koristiti da objasnite mašinsko učenje. I kao što sam pokušao da objasnim u članku, u suštini je previše tražiti da svetski model bude potpuno verovatnoćan. Ne znamo kako to da uradimo. Tu je računska neuračunljivost. Zato predlažem da odustanemo od cijele ove ideje. I naravno, znate, ovo je ogroman stub ne samo mašinskog učenja, već i celokupne statistike, koja tvrdi da je normalan formalizam za mašinsko učenje. 

Druga stvar - 

ZDNet: Vi ste na putu…

YL: — je ono što se zove generativni modeli. Dakle, ideja da možete naučiti predviđati, a možda možete naučiti mnogo o svijetu predviđanjem. Dakle, dajem vam dio videa i tražim od sistema da predvidi šta će se sljedeće dogoditi u videu. I možda ću vas zamoliti da predvidite stvarne video okvire sa svim detaljima. Ali ono o čemu ja tvrdim u novinama je da je to zapravo previše za tražiti i previše komplikovano. I ovo je nešto o čemu sam se predomislio. Do prije otprilike dvije godine, bio sam zagovornik onoga što nazivam latentnim varijabilnim generativnim modelima, modela koji predviđaju šta će se sljedeće dogoditi ili informacije koje nedostaju, možda uz pomoć latentne varijable, ako se predviđanje ne može deterministički. I odustao sam od ovoga. A razlog zašto sam odustao od ovoga je zasnovan na empirijskim rezultatima, gdje su ljudi pokušali primijeniti, svojevrsnu, predviđanje ili rekonstrukciju zasnovanu obuku tipa koji se koristi u BERT-ui velike jezičke modele, pokušali su to primijeniti na slike, i to je bio potpuni neuspjeh. A razlog zašto je to potpuni neuspjeh je, opet, zbog ograničenja vjerojatnosnih modela gdje je relativno lako predvidjeti diskretne tokene poput riječi jer možemo izračunati distribuciju vjerovatnoće za sve riječi u rječniku. To je lako. Ali ako tražimo od sistema da proizvede distribuciju vjerovatnoće po svim mogućim video okvirima, nemamo pojma kako da ga parametrizujemo, ili imamo neku ideju kako da ga parametrizujemo, ali ne znamo kako da ga normalizujemo. Pogađa nerešivi matematički problem koji ne znamo kako da rešimo. 

yann-lecun-sept-2022-3

„Nismo do tačke u kojoj naše inteligentne mašine imaju toliko zdravog razuma kao mačka,“ primećuje Lecun. „Pa, ​​zašto ne bismo počeli tamo? Šta je to što omogućava mački da shvati okolni svijet, radi prilično pametne stvari, planira i slične stvari, a psima još bolje?”

Dakle, zato kažem da napustimo teoriju vjerovatnoće ili okvir za takve stvari, onaj slabiji, modele zasnovane na energiji. I ja se za to zalažem decenijama, tako da ovo nije novina. Ali u isto vrijeme, napuštanje ideje generativnih modela jer ima puno stvari na svijetu koje nisu razumljive i nepredvidive. Ako ste inženjer, to nazivate bukom. Ako ste fizičar, to nazivate toplotom. A ako ste osoba koja se bavi mašinskim učenjem, vi to nazivate, znate, nebitnim detaljima ili kako god.

Dakle, primjer koji sam koristio u radu ili sam koristio u razgovorima je da želite sistem predviđanja svijeta koji bi pomogao u automobilu koji se samostalno vozi, zar ne? Želi biti u stanju unaprijed predvidjeti putanje svih drugih automobila, šta će se dogoditi s drugim objektima koji bi se mogli kretati, pješacima, biciklima, klincem koji trči za fudbalskom loptom, itd. Dakle, svašta o svijetu. Ali na ivici puta, moglo bi biti drveća, a danas ima vjetra, tako da se lišće kreće na vjetru, a iza drveća je jezerce, a u bari je valovitost. A to su, u suštini, uglavnom nepredvidivi fenomeni. I ne želite da vaš model troši značajnu količinu resursa na predviđanje onih stvari koje je i teško predvidjeti i nebitne. Zato se zalažem za arhitekturu zajedničkog ugrađivanja, one stvari u kojima varijabla koju pokušavate modelirati, ne pokušavate je predvidjeti, pokušavate je modelirati, ali ona prolazi kroz koder, i taj enkoder može eliminisati mnogo detalja o ulazu koji su irelevantni ili previše komplikovani — u osnovi, ekvivalentni šumu.

ZDNet: Ranije ove godine razgovarali smo o energetski zasnovanim modelima, JEPA i H-JEPA. Moj osjećaj je, ako sam vas dobro razumio, da pronalazite tačku niske energije gdje su ova dva predviđanja ugradnje X i Y najsličnija, što znači da ako je golub na drvetu u jednom, a postoji nešto u pozadine scene, to možda nisu bitne tačke koje ove ugradnje čine bliskim jedna drugoj.

YL: U redu. Dakle, JEPA arhitektura zapravo pokušava pronaći kompromis, kompromis između izdvajanja reprezentacija koje su maksimalno informativne o ulazima, ali i predvidive jedna od druge sa određenim nivoom tačnosti ili pouzdanosti. Pronalazi kompromis. Dakle, ako ima izbor između trošenja ogromne količine resursa uključujući detalje o kretanju listova, a zatim modeliranja dinamike koja će odlučiti kako će se listovi kretati za sekundu od sada, ili jednostavnog spuštanja toga na pod samo u osnovi provođenje varijable Y kroz prediktor koji eliminira sve te detalje, vjerovatno će ga samo eliminirati jer je jednostavno previše teško modelirati i uhvatiti.

ZDNet: Jedna stvar koja vas iznenađuje jeste da ste bili veliki zagovornik reči „Radi, kasnije ćemo shvatiti teoriju termodinamike da bismo to objasnili.” Ovdje ste zauzeli pristup: „Ne znam kako ćemo to nužno riješiti, ali želim iznijeti neke ideje da razmislimo o tome“, a možda čak i pristup teoriji ili hipotezi, na najmanje. To je zanimljivo jer ima puno ljudi koji troše mnogo novca radeći na automobilu koji može vidjeti pješaka bez obzira da li automobil ima zdrav razum. I zamišljam da će neki od tih ljudi biti, ne označeni, ali će reći: „To je u redu, nije nas briga ako nema zdravog razuma, napravili smo simulaciju, simulacija je nevjerovatna, i nastavićemo da se poboljšavamo, nastavićemo da skaliramo simulaciju.” 

I tako je zanimljivo da ste u poziciji da sada kažete, hajde da se vratimo i razmislimo o tome šta radimo. A industrija kaže da ćemo samo raditi na skali, mjeriti, mjeriti, mjeriti, jer ta ručica zaista radi. Mislim, poluvodička ručica GPU-a zaista radi.

YL: Ima, kao, pet pitanja. Dakle, mislim, skaliranje je neophodno. Ne kritikujem činjenicu da treba da se povećamo. Trebali bismo skalirati. Te neuronske mreže postaju sve bolje kako postaju veće. Nema sumnje da bismo trebali skalirati. A oni koji će imati neki nivo zdravog razuma biće veliki. Ne postoji način da se to zaobiđe, mislim. Dakle, skaliranje je dobro, potrebno je, ali nije dovoljno. To je poenta koju mislim. Nije samo skaliranje. To je prva tačka. 

Druga stvar, da li je teorija na prvom mjestu i slične stvari. Dakle, mislim da postoje koncepti koji su na prvom mestu da morate da napravite korak unazad i kažete, u redu, napravili smo ove merdevine, ali želimo da idemo na Mesec i nema šanse da nas ove merdevine odvedu tamo. Dakle, u osnovi, ono što pišem ovdje je da moramo praviti rakete. Ne mogu vam dati detalje o tome kako pravimo rakete, ali evo osnovnih principa. I ne pišem teoriju za to ili bilo šta, ali, to će biti raketa, u redu? Ili svemirski lift ili bilo šta drugo. Možda nemamo sve detalje o svim tehnologijama. Pokušavamo da neke od tih stvari funkcionišu, kao da sam ja radio na JEPA-i. Zajedničko ugrađivanje radi jako dobro za prepoznavanje slika, ali postoje poteškoće da ga koristite za treniranje svjetskog modela. Radimo na tome, nadamo se da ćemo uspjeti soon, ali tamo možemo naići na neke prepreke koje ne možemo savladati, moguće. 

Zatim postoji ključna ideja u radu o rasuđivanju gdje ako želimo da sistemi mogu planirati, što možete zamisliti kao jednostavan oblik zaključivanja, oni moraju imati latentne varijable. Drugim riječima, stvari koje ne izračunava nijedna neuronska mreža, već stvari koje jesu — čija se vrijednost izvodi tako da se minimizira neka ciljna funkcija, neka funkcija troškova. I onda možete koristiti ovu funkciju troškova da upravljate ponašanjem sistema. I ovo uopće nije nova ideja, zar ne? Ovo je vrlo klasična, optimalna kontrola gdje osnova seže do kasnih 50-ih, ranih 60-ih. Dakle, ovdje ne tvrdim nikakve novine. Ali ono što ja kažem je da ova vrsta zaključivanja mora biti dio inteligentnog sistema koji je sposoban za planiranje, i čije ponašanje se može specificirati ili kontrolirati ne fiksiranim ponašanjem, ne imitacijom sklonosti, već objektivnom funkcijom koja pokreće ponašanje — ne pokreće učenje, nužno, ali pokreće ponašanje. Znate, to imamo u mozgu, i svaka životinja ima intrinzičnu cijenu ili intrinzičnu motivaciju za stvari. To tjera devetomjesečne bebe da požele da ustanu. Trošak sreće kada ustanete, taj pojam u funkciji troškova je čvrsto povezan. Ali kako se uspraviš nije, to je učenje.

yann-lecun-sept-2022-4

„Skaliranje je dobro, neophodno je, ali nije dovoljno“, kaže LeKun o ogromnim jezičkim modelima kao što su programi zasnovani na Transformeru GPT-3 varijante. Bhakte Transformera vjeruju: „Sve tokeniziramo i treniramo gigantskimodeli za diskretna predviđanja, i nekako će AI izaći iz ovoga… ali mislim da mu nedostaju bitni dijelovi.”

ZDNet: Samo da to zaokružimo, čini se da je veliki dio zajednice dubokog učenja u redu krenuti s nečim što nema zdrav razum. Čini se da ovdje iznosite prilično jasan argument da u nekom trenutku to postaje ćorsokak. Neki ljudi kažu da nam ne treba autonomni automobil sa zdravim razumom jer će to učiniti skaliranje. Zvuči kao da kažete da nije u redu samo nastaviti tim putem?

YL: Znate, mislim da je sasvim moguće da ćemo imati autonomne automobile petog nivoa bez zdravog razuma. Ali problem sa ovim pristupom, ovo će biti privremeni, jer ćete morati da ga isplanirate. Dakle, znate, mapirajte cijeli svijet, učvrstite sve vrste specifičnog ponašanja u kutovima, prikupite dovoljno podataka da imate sve, nekako, čudne situacije na koje možete naići na cestama, bla, bla, bla. I ja pretpostavljam da uz dovoljno ulaganja i vremena, možete to jednostavno napraviti. Ali na kraju, postojaće zadovoljavajuće i možda bolje rešenje koje uključuje sisteme koji bolje razumeju način na koji svet funkcioniše i koji imaju, znate, neki nivo onoga što bismo nazvali zdravim razumom. To ne mora biti zdrav razum na nivou čovjeka, već neka vrsta znanja koje sistem može steći gledajući, ali ne gledajući nekoga kako vozi, samo gledajući stvari koje se kreću okolo i razumijevajući mnogo o svijetu, izgradnjom temelja znanje o tome kako svijet funkcionira, a povrh toga možete naučiti voziti. 

Uzeću istorijski primer ovoga. Klasična kompjuterska vizija bila je zasnovana na puno ožičenih, projektovanih modula, povrh kojih biste imali, na neki način, tanak sloj učenja. Dakle, stvari koje je pobedio AlexNet 2012. godine, imale su u osnovi prvu fazu, neku vrstu, ručno izrađenih ekstrakcija karakteristika, poput SIFT-a [Scale-Invariant Feature Transform (SIFT), klasična tehnika vida za identifikaciju istaknutih objekata na slici] i HOG [Histogram orijentiranih gradijenata, još jedna klasična tehnika] i razne druge stvari. A onda drugi sloj, neka vrsta karakteristika srednjeg nivoa zasnovanih na jezgrima karakteristika i bilo čemu, i neka vrsta metode bez nadzora. I onda povrh ovoga, stavite mašinu za vektor podrške, ili inače relativno jednostavan klasifikator. I to je bio, nekako, standardni cevovod od sredine 2000-ih do 2012. I to je zamijenjeno konvolucijskim mrežama od kraja do kraja, gdje ništa od ovoga ne spajate, samo imate puno podataka, i treniraš stvar od kraja do kraja, što je pristup koji sam ja dugo zastupao, ali znaš, do tada nije bio praktičan za velike probleme. 

Postojala je slična priča u prepoznavanju govora gdje je, opet, postojala ogromna količina detaljnog inženjeringa za način na koji prethodno obrađujete podatke, izdvajate kepstrum masovnog razmjera [inverzni od Brze Fourierove transformacije za obradu signala], a zatim imate Skrivene Markov modele, sa nekom vrstom, unapred postavljenom arhitekturom, bla, bla, bla, sa mešavinom Gaussovih. I tako, to je pomalo ista arhitektura kao vizija u kojoj imate ručno izrađeni front-end, a zatim donekle nenadgledani, obučeni srednji sloj, a zatim nadzirani sloj na vrhu. A sada je to, u osnovi, zbrisano end-to-end neuronskim mrežama. Tako da vidim nešto slično u pokušaju da naučite sve, ali morate imati pravi prethodni, pravu arhitekturu, pravu strukturu.

yann-lecun-sept-2022-5

Gomila samovozećih automobila, startupi kao što su Waymo i Wayve, bili su "malo previše optimistični", kaže on, misleći da bi mogli "baciti podatke na to i možete naučiti skoro sve." Automobili koji se sami voze na nivou 5 ADAS-a su mogući, „ali ćete morati da ih dođavola isplanirate“ i biće „krhki“ poput ranih modela kompjuterskog vida.

ZDNet: Ono što kažete je da će neki ljudi pokušati da osmisle ono što trenutno ne funkcioniše sa dubokim učenjem za primenljivost, recimo, u industriji, i počeće da stvaraju nešto što je zastarelo u kompjuterskom vidu?

YL: U redu. I to je dijelom razlog zašto su ljudi koji rade na autonomnoj vožnji bili malo previše optimistični u posljednjih nekoliko godina, jer, znate, imate te, neke vrste, generičke stvari kao što su konvolucijske mreže i transformatori, na koje možete bacati podatke , i može naučiti skoro sve. Dakle, vi kažete, u redu, imam rješenje za taj problem. Prva stvar koju uradite je da napravite demo u kojem se automobil sam vozi nekoliko minuta, a da nikoga ne povrijedite. I onda shvatiš da ima puno kutija, i pokušaš nacrtati krivulju koliko sam bolji dok udvostručim set za trening, i shvatiš da nikada nećeš stići tamo jer postoje sve vrste kutija . I trebate imati automobil koji će uzrokovati fatalnu nesreću manje od svakih 200 miliona kilometara, zar ne? Pa, šta radiš? Pa, hodaš u dva smjera. 

Prvi smjer je, kako mogu smanjiti količinu podataka koja je neophodna da bi moj sistem naučio? I tu dolazi samonadzirano učenje. Dakle, mnoga vozila koja se sami voze su veoma zainteresovana za samonadzirano učenje jer je to način da se i dalje koriste ogromne količine nadzornih podataka za imitaciju učenja, ali da se postigne bolje performanse pre treninga, u suštini. I to još nije u potpunosti ispalo, ali hoće. A tu je i druga opcija, koju je većina kompanija koje su naprednije u ovom trenutku usvojila, a to je, u redu, možemo da obavimo obuku od kraja do kraja, ali postoji mnogo slučajeva iz ugla koje možemo' t rukovati, tako da ćemo samo projektirati sisteme koji će se pobrinuti za te kutne slučajeve, i, u osnovi, tretirati ih kao posebne slučajeve, i ožičiti kontrolu, a zatim ožičiti mnogo osnovnog ponašanja za rješavanje posebnih situacija. A ako imate dovoljno veliki tim inženjera, možda ćete to uspjeti. Ali to će potrajati dugo i na kraju će i dalje biti malo krhko, možda dovoljno pouzdano da ga možete primijeniti, ali s određenom razinom krhkosti, što se, uz pristup koji se više temelji na učenju, može pojaviti u budućnosti, automobili neće imati jer bi mogli imati neki nivo zdravog razuma i razumijevanja o tome kako svijet funkcionira. 

Kratkoročno gledano, neka vrsta, projektovani pristup će pobediti — već pobeđuje. To je Waymo i Cruise svijeta i Wayvei šta god, to je ono što oni rade. Zatim postoji pristup samonadziranom učenju, koji će vjerovatno pomoći inžinjerskom pristupu da napreduje. Ali onda, na duge staze, što bi moglo biti predugo za te kompanije da čekaju, vjerovatno bi bio, na neki način, integrisaniji autonomni sistem inteligentne vožnje.

ZDNet: Kažemo izvan horizonta ulaganja većine investitora.

YL: Tako je. Dakle, pitanje je da li će ljudi izgubiti strpljenje ili ostati bez novca prije nego što učinak dostigne željeni nivo.

ZDNet: Postoji li nešto zanimljivo za reći o tome zašto ste odabrali neke od elemenata koje ste odabrali u modelu? Zato što citirate Kennetha Craika [1943.Priroda objašnjenja], a vi citirate Brysona i Hoa [1969, Primijenjena optimalna kontrola], i znatiželjan sam zašto ste počeli sa ovim uticajima, ako ste posebno vjerovali da su ti ljudi uspjeli da dođu do onoga što su uradili. Zašto ste tamo počeli?

YL: Pa, ne mislim, svakako, da su imali sve detalje. Dakle, Bryson i Ho, ovo je knjiga koju sam pročitao 1987. godine kada sam bio postdoktor kod Geoffreyja Hintona u Torontu. Ali znao sam za ovu liniju rada prije kada sam pisao svoj doktorat i napravio vezu između optimalne kontrole i backpropa, u suštini. Da ste zaista želeli da budete, znate, još jedan Schmidhuber, rekli biste da su pravi izumitelji backpropa zapravo bili teoretičari optimalne kontrole Henry J. Kelley, Arthur Bryson, a možda čak i Lev Pontryagin, koji je ruski teoretičar optimalne kontrole natrag kasnih 50-ih. 

Dakle, oni su to shvatili, i zapravo, zapravo možete vidjeti korijen ovoga, matematika ispod toga, je Lagranžijeva mehanika. Dakle, možete se vratiti na Eulera i Lagrangea, zapravo, i na neki način pronaći dašak ovoga u njihovoj definiciji Lagrangeove klasične mehanike, zaista. Dakle, u kontekstu optimalne kontrole, ono što je zanimalo ove momke je u osnovi izračunavanje putanja raketa. Znate, ovo je bilo rano svemirsko doba. A ako imate model rakete, on vam govori u kakvom je stanju raketa u tom trenutku t, a evo akcije koju ću preduzeti, dakle, potiski i aktuatori raznih vrsta, evo stanja rakete u trenutku t + 1.

ZDNet: Model stanja i akcije, model vrijednosti.

YL: Tako je, osnova kontrole. Dakle, sada možete simulirati ispaljivanje svoje rakete tako što ćete zamisliti niz naredbi, a onda imate neku funkciju troškova, a to je udaljenost rakete do cilja, svemirske stanice ili bilo čega drugog. I onda pomoću neke vrste gradijenta spuštanja, možete shvatiti, kako da ažuriram svoj slijed radnji tako da se moja raketa zapravo približi meti što je više moguće. A to mora doći putem signala koji se šire unazad u vremenu. A to je propagacija unazad, gradijentna propagacija unazad. Ti signali se u Lagranževoj mehanici nazivaju konjugovane varijable, ali u stvari su gradijenti. Dakle, izmislili su backprop, ali nisu shvatili da bi ovaj princip mogao da se koristi za obuku višestepenog sistema koji može da radi prepoznavanje obrazaca ili nešto slično. Ovo nije bilo stvarno realizovano do možda kasnih 70-ih, ranih 80-ih, a onda nije stvarno implementirano i osposobljeno da funkcioniše sve do sredine 80-ih. U redu, dakle, ovo je mjesto gdje je backprop zaista, nekako, uzeo maha jer su ljudi pokazali ovdje je nekoliko linija koda da možete trenirati neuronsku mrežu, od kraja do kraja, višeslojnu. I to ukida ograničenja Perceptrona. I, da, postoje veze sa optimalnom kontrolom, ali to je u redu.

ZDNet: Dakle, to je dug put da se kaže da su se ti uticaji sa kojima ste započeli vraćali na backprop, i to je za vas bilo važno kao polazna tačka?

YL: Da, ali mislim da su ljudi pomalo zaboravili da je bilo dosta posla na ovome, znate, još 90-ih, ili čak 80-ih, uključujući i ljude poput Michaela Jordana [MIT Dept. of Brain i kognitivne nauke] i ljudi poput toga koji više ne rade neuronske mreže, već ideju da možete koristiti neuronske mreže za kontrolu, a možete koristiti klasične ideje optimalne kontrole. Dakle, stvari poput onoga što se zove modelsko-prediktivna kontrola, ono što se sada zove modelsko-prediktivna kontrola, ova ideja da možete simulirati ili zamisliti ishod niza radnji ako imate dobar model sistema koji pokušavate kontrolirati i okruženje u kojem se nalazi. A onda gradijentom spuštanja, u suštini — ovo nije učenje, ovo je zaključak — možete shvatiti koji je najbolji redosled radnji koje će minimizirati moj cilj. Dakle, upotreba funkcije troškova sa latentnom varijablom za zaključivanje je, mislim, nešto na šta su sadašnji usevi velikih neuronskih mreža zaboravili. Ali to je dugo vremena bila vrlo klasična komponenta mašinskog učenja. Dakle, svaki Bayesian Net ili grafički model ili probabilistički grafički model koristi ovu vrstu zaključivanja. Imate model koji hvata zavisnosti između gomile varijabli, kaže vam se vrijednost nekih varijabli, a zatim morate zaključiti najvjerovatnije vrijednosti ostalih varijabli. To je osnovni princip zaključivanja u grafičkim modelima i Bayesovim mrežama i sličnim stvarima. I mislim da bi to u osnovi trebalo da se odnosi na rasuđivanje, rezonovanje i planiranje.

ZDNet: Ti si bajesovac.

YL: Ja sam nevjerovatni Bayesovac. Već sam se šalio. Zapravo sam bio u NeurIPS-u prije nekoliko godina, mislim da je to bilo 2018. ili 2019., i snimio me jedan Bayesovac koji me je pitao da li sam Bayesovac, a ja sam rekao, Da, ja sam Bayesovac, ali ja Ja sam nevjerovatni Bayesovac, na neki način, bajesovac baziran na energiji, ako želite. 

ZDNet: Što definitivno zvuči kao nešto od Zvjezdane staze. Spomenuli ste na kraju ovog rada, biće potrebne godine zaista napornog rada da se ostvari ono što zamišljate. Recite mi od čega se sastoji neki od tih radova u ovom trenutku.

YL: Dakle, objašnjavam kako trenirate i gradite JEPA u novinama. A kriterijum za koji se zalažem je postojanje nekog načina da se maksimizira sadržaj informacija koji reprezentacije koje se ekstrahuju imaju o inputu. A onda drugi je minimiziranje greške predviđanja. A ako imate latentnu varijablu u prediktoru koja omogućava da prediktor bude nedeterministički, morate regulirati i ovu latentnu varijablu minimizirajući njen sadržaj informacija. Dakle, sada imate dva problema, a to je kako maksimizirati sadržaj informacija izlaza neke neuronske mreže, a drugi je kako minimizirati sadržaj informacija neke latentne varijable? A ako ne uradite te dvije stvari, sistem će se urušiti. Neće naučiti ništa zanimljivo. Sve će dati nultu energiju, tako nešto, što nije dobar model zavisnosti. To je problem prevencije kolapsa koji spominjem. 

I kažem od svih stvari koje su ljudi ikada radili, postoje samo dvije kategorije metoda za sprječavanje kolapsa. Jedna su kontrastivne metode, a druga su one regularizirane metode. Dakle, ova ideja maksimiziranja informativnog sadržaja reprezentacija dvaju ulaza i minimiziranja informativnog sadržaja latentne varijable, pripada regulariziranim metodama. Ali veliki dio posla u tim arhitekturama zajedničkog ugrađivanja koristi se kontrastnim metodama. U stvari, vjerovatno su najpopularniji u ovom trenutku. Dakle, pitanje je kako tačno mjerite sadržaj informacija na način koji možete optimizirati ili minimizirati? I tu se stvari komplikuju jer ne znamo kako da izmjerimo sadržaj informacija. Možemo ga aproksimirati, možemo ga ograničiti na gornju granicu, možemo raditi takve stvari. Ali oni zapravo ne mjere sadržaj informacija, koji, zapravo, u određenoj mjeri nije ni dobro definiran.

ZDNet: Nije Šenonov zakon? To nije teorija informacija? Imate određenu količinu entropije, dobru entropiju i lošu entropiju, a dobra entropija je sistem simbola koji radi, loša entropija je buka. Nije li to sve riješila Shannon?

YL: U pravu ste, ali iza toga stoji velika mana. U pravu ste u smislu da ako imate podatke koji dolaze do vas i možete ih nekako kvantizirati u diskretne simbole, a zatim izmjerite vjerovatnoću svakog od tih simbola, onda je maksimalna količina informacija koju nose ti simboli zbroj mogućih simbola Pi log Pi, zar ne? Gdje Pi je vjerovatnoća simbola ja — to je Šenonova entropija. [Šenonov zakon se obično formuliše kao H = – ∑ pi log pi.]

Međutim, ovdje je problem: šta je Pi? Lako je kada je broj simbola mali i simboli se crtaju nezavisno. Kada postoji mnogo simbola i zavisnosti, to je veoma teško. Dakle, ako imate niz bitova i pretpostavite da su bitovi nezavisni jedan od drugog i da je vjerovatnoća jednaka između jedan i nula ili bilo šta drugo, onda možete lako izmjeriti entropiju, bez problema. Ali ako su stvari koje dolaze do vas visokodimenzionalni vektori, kao, znate, okviri podataka, ili nešto slično ovome, šta je Pi? Kakva je distribucija? Prvo morate kvantizirati taj prostor, koji je visokodimenzionalni, kontinuirani prostor. Nemate pojma kako ovo pravilno kvantizirati. Možete koristiti k-means, itd. To je ono što ljudi rade kada rade video kompresiju i kompresiju slike. Ali to je samo aproksimacija. I onda morate napraviti pretpostavke o nezavisnosti. Dakle, jasno je da u videu uzastopni kadrovi nisu nezavisni. Postoje zavisnosti, a taj okvir može zavisiti od drugog kadra koji ste vidjeli prije sat vremena, a koji je bio slika iste stvari. Dakle, znate, ne možete mjeriti Pi. Izmjeriti Pi, morate imati sistem mašinskog učenja koji uči da predviđa. I tako se vraćate na prethodni problem. Dakle, možete samo aproksimirati mjeru informacija, u suštini. 

yann-lecun-sept-2022-6

„Pitanje je kako tačno mjeriti sadržaj informacija na način koji možete optimizirati ili minimizirati?“ kaže LeKun. “I tu se stvari zakompliciraju jer ne znamo zapravo kako mjeriti sadržaj informacija.” Najbolje što se do sada može učiniti je pronaći proxy koji je „dovoljno dobar za zadatak koji želimo“.

Dozvolite mi da uzmem konkretniji primjer. Jedan od algoritama s kojim smo se igrali, a o kojem sam govorio u ovom dijelu, je ova stvar koja se zove VICReg, regularizacija varijanse-invarijanse-kovarijance. To je u posebnom radu koji je objavljen na ICLR-u, i stavljen je na arXiv otprilike godinu dana prije, 2021. A ideja je da se maksimizira informacije. A ideja je zapravo proizašla iz ranijeg rada moje grupe pod nazivom Barlow Twins. Maksimizirate informacioni sadržaj vektora koji izlazi iz neuronske mreže, u osnovi, pretpostavljajući da je jedina zavisnost između varijabli korelacija, linearna zavisnost. Dakle, ako pretpostavite da je jedina zavisnost koja je moguća između parova varijabli, ili između varijabli u vašem sistemu, korelacije između parova vrijednosti, što je izuzetno gruba aproksimacija, tada možete maksimizirati sadržaj informacija koji izlazi iz vašeg sistema tako što ćemo se pobrinuti da sve varijable imaju varijansu različitu od nule — recimo, varijansu jedan, nije važno šta je — i zatim ih povratno korelirati, isti proces koji se zove izbjeljivanje, ni to nije novo. Problem s ovim je u tome što vrlo dobro možete imati izuzetno složene zavisnosti između bilo grupa varijabli ili čak samo parova varijabli koje nisu linearne zavisnosti, i one se ne pojavljuju u korelacijama. Dakle, na primjer, ako imate dvije varijable, a sve tačke te dvije varijable su postavljene u neku vrstu spirale, postoji vrlo jaka ovisnost između te dvije varijable, zar ne? Ali u stvari, ako izračunate korelaciju između te dvije varijable, one nisu u korelaciji. Dakle, evo primjera gdje je sadržaj informacija ove dvije varijable zapravo vrlo mali, to je samo jedna količina jer je to vaša pozicija u spirali. One su dekorelirane, tako da mislite da imate puno informacija koje proizlaze iz te dvije varijable, a zapravo ih nemate, vi samo, znate, možete predvidjeti jednu od varijabli iz druge, u suštini. Dakle, to pokazuje da imamo samo vrlo približne načine mjerenja sadržaja informacija.

ZDNet: I to je, dakle, jedna od stvari na kojima sada morate da radite sa ovim? Ovo je veće pitanje kako da znamo kada maksimiziramo i minimiziramo sadržaj informacija?

YL:  Ili da li je proxy koji koristimo za ovo dovoljno dobar za zadatak koji želimo. U stvari, to radimo stalno u mašinskom učenju. Funkcije troškova koje minimiziramo nikada nisu one koje zapravo želimo minimizirati. Dakle, na primjer, želite da izvršite klasifikaciju, u redu? Funkcija troškova koju želite da minimizirate kada trenirate klasifikator je broj grešaka koje klasifikator pravi. Ali to je nerazlučiva, užasna funkcija troškova koju ne možete minimizirati jer znate da ćete promijeniti težine svoje neuronske mreže, ništa se neće promijeniti dok jedan od tih uzoraka ne promijeni svoju odluku, a onda skok u grešci, pozitivnoj ili negativnoj.

ZDNet: Dakle, imate proxy koji je ciljna funkcija za koju definitivno možete reći, mi definitivno možemo proći gradijente ove stvari.

YL: Tako je. Dakle, ljudi koriste ovaj gubitak unakrsne entropije, ili SOFTMAX, imate nekoliko imena za njega, ali to je ista stvar. I to je u osnovi glatka aproksimacija broja grešaka koje sistem pravi, pri čemu se izglađivanje vrši tako što se, u osnovi, uzima u obzir rezultat koji sistem daje svakoj od kategorija.

ZDNet: Postoji li nešto što nismo pokrili, a vi biste željeli da pokrijete?

YL: Verovatno naglašava glavne tačke. Mislim da sistemi veštačke inteligencije moraju biti u stanju da razumiju, a proces za ovo za koji se zalažem je minimiziranje nekog cilja u odnosu na neku latentnu varijablu. To omogućava sistemima da planiraju i razmišljaju. Mislim da bismo trebali napustiti vjerojatnostni okvir jer je nerješiv kada želimo da radimo stvari poput hvatanja zavisnosti između visokodimenzionalnih, kontinuiranih varijabli. I zalažem se za napuštanje generativnih modela jer će sistem morati posvetiti previše resursa predviđanju stvari koje je preteško predvidjeti i koje će možda potrošiti previše resursa. I to je skoro sve. To su glavne poruke, ako želite. A onda i cjelokupna arhitektura. Zatim postoje te spekulacije o prirodi svijesti i ulozi konfiguratora, ali ovo je zapravo nagađanje.

ZDNet: Doći ćemo do toga sljedeći put. Hteo sam da te pitam, kako meriš ovu stvar? Ali pretpostavljam da ste sada malo dalje od benčmarkinga?

YL: Ne nužno tako daleko u, svojevrsnim, pojednostavljenim verzijama. Možete raditi ono što svi rade u kontroli ili učenju s pojačanjem, to jest, trenirate stvar da igra Atari igre ili nešto slično ili neku drugu igru ​​koja ima neku nesigurnost u sebi.

ZDNet: Hvala na vašem vremenu, Yann.

izvor