Metin AI guru LeCun: Većina današnjih AI pristupa nikada neće dovesti do prave inteligencije

yann-lecun-rujan-2022-1

"Mislim da sustavi umjetne inteligencije moraju biti u stanju razmišljati", kaže Yann LeCun, glavni znanstvenik za umjetnu inteligenciju u Meti. Današnji popularni pristupi umjetne inteligencije, poput Transformersa, od kojih se mnogi grade na njegovom vlastitom pionirskom radu na tom polju, neće biti dovoljni. “Morate napraviti korak unatrag i reći: U redu, izgradili smo ove ljestve, ali želimo ići na Mjesec i nema šanse da nas ove ljestve tamo odvedu”, kaže LeCun.

Yann LeCun, glavni znanstvenik za umjetnu inteligenciju iz Meta Propertiesa, vlasnika Facebooka, Instagrama i WhatsAppa, vjerojatno će razljutiti mnoge ljude u svom području. 

Uz objavu razmišljanja u lipnju na poslužitelju Open Review, LeCun je ponudio široki pregled pristupa za koji smatra da obećava postizanje inteligencije na ljudskoj razini u strojevima. 

Implicirana je, ako nije artikulirana u radu, tvrdnja da većina današnjih velikih projekata u umjetnoj inteligenciji nikada neće moći postići taj cilj na ljudskoj razini.

U raspravi ovog mjeseca sa ZDNet putem Zooma, LeCun je jasno dao do znanja da s velikim skepticizmom gleda na trenutno najuspješnije načine istraživanja dubokog učenja.

"Mislim da su potrebni, ali ne i dovoljni", rekao je dobitnik Turingove nagrade ZDNet bavljenja svojih vršnjaka. 

To uključuje velike jezične modele kao što je GPT-3 temeljen na Transformeru i njemu slične. Kako to opisuje LeCun, poklonici Transformera vjeruju: "Mi sve tokeniziramo i treniramo divovskemodele za izradu diskretnih predviđanja i nekako će AI proizaći iz ovoga.”

"Nisu u krivu", kaže on, "u smislu da bi to mogla biti komponenta budućeg inteligentnog sustava, ali mislim da mu nedostaju bitni dijelovi."

Isto tako: Metina AI svjetiljka LeCun istražuje energetske granice dubokog učenja

To je zapanjujuća kritika onoga što se čini da funkcionira dolazi od znanstvenika koji je usavršio korištenje konvolucijskih neuronskih mreža, praktične tehnike koja je bila nevjerojatno produktivna u programima dubokog učenja. 

LeCun vidi nedostatke i ograničenja u mnogim drugim vrlo uspješnim područjima discipline. 

Učenje s potkrepljenjem također nikada neće biti dovoljno, tvrdi on. Istraživači poput Davida Silvera iz DeepMinda, koji je razvio program AlphaZero koji je savladao šah, šogi i go, usredotočeni su na programe koji su "vrlo temeljeni na akciji", primjećuje LeCun, ali "većinu učenja koje radimo, ne učinite to stvarnim poduzimanjem radnji, mi to činimo promatranjem." 

Lecun, 62, iz perspektive desetljeća postignuća, ipak izražava hitnost da se suoči sa onim što misli da su slijepe ulice prema kojima mnogi žure, i da pokuša nagovoriti svoje polje u smjeru za koji misli da stvari trebaju ići. 

"Vidimo mnogo tvrdnji o tome što bismo trebali učiniti da napredujemo prema AI-u na ljudskoj razini", kaže on. "A postoje ideje za koje mislim da su pogrešno usmjerene."

"Nismo došli do točke kada bi naši inteligentni strojevi imali toliko zdravog razuma koliko i mačke", primjećuje Lecun. "Pa, zašto ne bismo počeli tamo?" 

Napustio je svoju prijašnju vjeru u korištenje generativnih mreža u stvarima kao što je predviđanje sljedećeg kadra u videu. “To je bio potpuni neuspjeh”, kaže. 

LeCun osuđuje one koje naziva "vjerskim probabilistima", koji "misle da je teorija vjerojatnosti jedini okvir koji možete koristiti za objašnjenje strojnog učenja." 

Čisto statistički pristup je teško riješiti, kaže on. “Previše je tražiti da model svijeta bude potpuno probabilistički; ne znamo kako to učiniti.”

Ne samo akademici, već i industrijska umjetna inteligencija treba duboko preispitati, tvrdi LeCun. Gomila samovozećih automobila, startupi kao što je Wayve, bili su "malo previše optimistični", kaže on, misleći da mogu "baciti podatke na" velike neuronske mreže "i možete naučiti gotovo sve."

"Znate, mislim da je potpuno moguće da ćemo imati autonomne automobile razine pet bez zdravog razuma", kaže on, misleći na "ADAS", napredni sustav pomoći vozaču izraze za samovožnju, "ali morat ćete to vraški projektirati."

Takva pretjerano projektirana samovozeća tehnologija bit će nešto škripavo i krhko poput svih programa za računalni vid koji su zastarjeli zbog dubokog učenja, vjeruje on.

"U konačnici će postojati zadovoljavajuće i moguće bolje rješenje koje uključuje sustave koji bolje razumiju način na koji svijet funkcionira."

Usput, LeCun nudi neke osuđujuće poglede na svoje najveće kritičare, poput profesora NYU-a Garyja Marcusa - "on nikada nije ničim doprinio umjetnoj inteligenciji" - i Jürgena Schmidhubera, sudirektora Instituta Dalle Molle za istraživanje umjetne inteligencije - "to je vrlo lako postaviti zastavu.”

Osim kritika, važnija točka koju je LeCun iznio jest da se s čitavom umjetnom inteligencijom suočavaju određeni temeljni problemi, posebice kako mjeriti informacije.

"Morate napraviti korak unatrag i reći: U redu, izgradili smo ove ljestve, ali želimo ići na Mjesec i nema šanse da nas ove ljestve tamo odvedu", kaže LeCun o svojoj želji da potakne preispitivanje osnovnih pojmova. "U osnovi, ono što ovdje pišem je da moramo izgraditi rakete, ne mogu vam dati detalje o tome kako gradimo rakete, ali evo osnovnih principa."

Rad i LeCunova razmišljanja u intervjuu mogu se bolje razumjeti ako pročitate LeCunov intervju ranije ove godine s ZDNet u kojem se zalaže za samonadzirano učenje temeljeno na energiji kao put naprijed za duboko učenje. Ta razmišljanja daju osjećaj temeljnog pristupa onome što se nada izgraditi kao alternativu stvarima za koje tvrdi da neće stići do cilja. 

Ono što slijedi je lagano uređen transkript intervjua.

ZDNet: Predmet našeg razgovora je ovaj dokument, "Put prema autonomnoj strojnoj inteligenciji", čija je verzija 0.9.2 postojeća verzija, zar ne?

Yann LeCun: Da, smatram ovo, na neki način, radnim dokumentom. Stoga sam ga objavio na Open Review, čekajući da ljudi daju komentare i prijedloge, možda dodatne reference, a zatim ću izraditi revidiranu verziju. 

ZDNet: Vidim da je Juergen Schmidhuber već dodao neke komentare u Open Review.

YL: Pa, da, uvijek to radi. Citiram jedan njegov rad u svom radu. Mislim da argumenti koje je iznosio na društvenim mrežama da je on zapravo sve to izmislio 1991. godine, kao što je činio iu drugim slučajevima, jednostavno nisu točni. Mislim, to je vrlo lako učinitipostavljanje zastave, i, na neki način, napisati ideju bez ikakvih eksperimenata, bez ikakve teorije, samo sugerirajte da biste to mogli učiniti na ovaj način. Ali, znate, postoji velika razlika između toga da samo imate ideju, i onda je natjerate da radi na problemu s igračkom, i onda da je natjerate da radi na stvarnom problemu, i onda napravite teoriju koja pokazuje zašto to funkcionira, i onda raspoređujući ga. Postoji cijeli lanac, a njegova ideja o znanstvenim zaslugama je da bi prva osoba koja je jednostavno, na neki način, znaš, imala ideju o tome, trebala dobiti sve zasluge. A to je smiješno. 

ZDNet: Ne vjerujte svemu što čujete na društvenim mrežama. 

YL: Mislim, glavni rad za koji on kaže da bih ga trebao citirati nema nijednu od glavnih ideja o kojima govorim u radu. To je radio i s GAN-ovima i drugim stvarima, što se nije pokazalo točnim. Lako je podmetati zastave, puno je teže dati doprinos. I, usput, u ovom konkretnom radu sam izričito rekao da ovo nije znanstveni rad u uobičajenom smislu te riječi. To je više dokument o stavu o tome kamo bi ova stvar trebala ići. Postoji nekoliko ideja koje bi mogle biti nove, ali većina njih nije. U suštini, ne tražim nikakav prioritet u većini onoga što sam napisao u tom dokumentu.

yann-lecun-rujan-2022-2

Učenje s potkrepljenjem također nikada neće biti dovoljno, tvrdi LeCun. Istraživači poput Davida Silvera iz DeepMinda, koji je razvio program AlphaZero koji je savladao šah, šogi i go, "vrlo su temeljeni na akciji", primjećuje LeCun, ali "većinu učenja ne činimo tako što radnje, to činimo promatranjem.” 

ZDNet: I to je možda dobro mjesto za početak, jer me zanima zašto ste sada krenuli tim putem? Što te navelo na razmišljanje o ovome? Zašto ste htjeli ovo napisati?

YL: Pa, dakle, razmišljao sam o ovome jako dugo, o putu prema inteligenciji ili učenju i sposobnostima na ljudskoj ili životinjskoj razini. I, u svojim sam govorima bio prilično glasan o cijeloj toj stvari da su i nadzirano učenje i učenje s potkrepljenjem nedostatni za oponašanje vrste učenja koje opažamo kod životinja i ljudi. Ovo radim nekih sedam ili osam godina. Dakle, nije nedavno. Imao sam uvodno izlaganje na NeurIPS-u prije mnogo godina gdje sam iznio tu točku, u biti, i razne govore, postoje snimke. Sada, zašto sada napisati rad? Došao sam do poante — [istraživač Google Braina] Geoff Hinton učinio je nešto slično — mislim, svakako, njemu više nego meni, vidimo da vrijeme ističe. Nismo mladi.

ZDNet: Šezdeset je novih pedeset. 

YL: To je istina, ali poanta je u tome da vidimo mnogo tvrdnji o tome što bismo trebali učiniti da napredujemo prema ljudskoj razini AI. I postoje ideje za koje mislim da su pogrešno usmjerene. Dakle, jedna ideja je, Oh, trebali bismo samo dodati simboličko razmišljanje povrh neuralnih mreža. I ne znam kako to učiniti. Dakle, možda bi ono što sam objasnio u radu mogao biti jedan pristup koji bi učinio istu stvar bez eksplicitne manipulacije simbolima. Ovo je vrsta tradicionalnog Garyja Marcusa svijeta. Gary Marcus nije AI osoba, usput, on je psiholog. Nikada nije ništa doprinio umjetnoj inteligenciji. Napravio je jako dobar posao u eksperimentalnoj psihologiji, ali nikada nije napisao recenzirani rad o umjetnoj inteligenciji. Dakle, tu su ti ljudi. 

Postoji [glavni istraživač DeepMinda] David Silvers iz svijeta koji kaže, znate, nagrada je dovoljna, u osnovi, sve je u učenju s potkrepljenjem, samo ga trebamo učiniti malo učinkovitijim, u redu? I, mislim da nisu u krivu, ali mislim da bi nužni koraci prema tome da učenje s potkrepljenjem učinimo učinkovitijim, u osnovi, potisnuli učenje s potkrepljenjem na neku vrstu trešnje na torti. A glavni dio koji nedostaje je učenje kako svijet funkcionira, uglavnom promatranjem bez djelovanja. Učenje s potkrepljenjem uvelike se temelji na akciji, učite stvari o svijetu poduzimanjem radnji i gledanjem rezultata.

ZDNet: I usmjeren je na nagradu.

YL: Usmjeren je na nagradu, a također i na akciju. Dakle, morate djelovati u svijetu da biste mogli naučiti nešto o svijetu. A glavna tvrdnja koju iznosim u radu o samonadziranom učenju je da većinu učenja ne činimo poduzimajući akcije, već promatrajući. I to je vrlo neortodoksno, i za ljude koji uče potkrepljivanje, posebno, ali i za mnoge psihologe i kognitivne znanstvenike koji misle da je, znate, akcija - ne kažem da akcija nije bitna, is bitno. Ali mislim da je većina onoga što učimo uglavnom o strukturi svijeta, i uključuje, naravno, interakciju, akciju i igru, i slične stvari, ali puno toga je promatranje.

ZDNet: Istodobno ćete uspjeti označiti ljude iz Transformera, ljude koji su prvi na jeziku. Kako to možete izgraditi bez jezika? Možda ćete uspjeti zavarati mnoge ljude. 

YL: Da, navikao sam na to. Dakle, da, tu su ljudi koji su prvi na jeziku, koji kažu, znate, inteligencija je o jeziku, supstrat inteligencije je jezik, bla, bla, bla. Ali to, na neki način, odbacuje životinjsku inteligenciju. Znate, nismo došli do točke u kojoj bi naši inteligentni strojevi imali toliko zdravog razuma koliko mačke. Dakle, zašto ne počnemo tamo? Što je to što mački omogućuje da shvaća svijet oko sebe, čini prilično pametne stvari, planira i slično, a psima još bolje? 

Zatim, tu su svi ljudi koji kažu, Oh, inteligencija je društvena stvar, zar ne? Inteligentni smo jer razgovaramo jedni s drugima i razmjenjujemo informacije, i bla, bla, bla. Postoje sve vrste nedruštvenih vrsta koje nikada ne upoznaju svoje roditelje, a koje su vrlo pametne, poput hobotnica ili orangutana.Mislim, njih [orangutane] sigurno školuje njihova majka, ali oni nisu društvene životinje. 

Ali druga kategorija ljudi koju bih mogao označiti su ljudi koji kažu da je skaliranje dovoljno. Dakle, u osnovi, samo koristimo ogromne Transformerse, treniramo ih na multimodalnim podacima koji uključuju, znate, video, tekst, bla, bla, bla. Mi se, nekako, skamenimosve, i tokenizirati sve, a zatim trenirati divovskimodeli za pravljenje diskretnih predviđanja, u osnovi, i nekako će AI proizaći iz ovoga. Nisu u krivu, u smislu da bi to mogla biti komponenta budućeg inteligentnog sustava. Ali mislim da mu nedostaju bitni dijelovi. 

Postoji još jedna kategorija ljudi koju ću štiklirati ovim radom. I to su probabilisti, religiozni probabilisti. Dakle, ljudi koji misle da je teorija vjerojatnosti jedini okvir koji možete koristiti za objašnjenje strojnog učenja. I kao što sam pokušao objasniti u članku, u osnovi je previše tražiti da model svijeta bude potpuno vjerojatan. Ne znamo kako to učiniti. Tu je računalna teškoća. Stoga predlažem odustajanje od cijele ove ideje. I naravno, znate, ovo je ogroman stup ne samo strojnog učenja, već cijele statistike, koja tvrdi da je normalan formalizam za strojno učenje. 

Druga stvar — 

ZDNet: U redu si…

YL: — je ono što se zove generativni modeli. Dakle, ideja da možete naučiti predviđati, i možda možete naučiti puno o svijetu predviđanjem. Dakle, dajem vam dio videa i tražim od sustava da predvidi što će se sljedeće dogoditi u videu. Mogu vas zamoliti da predvidite stvarne video kadrove sa svim detaljima. Ali ono o čemu raspravljam u radu je da je to zapravo previše za tražiti i previše komplicirano. I to je nešto o čemu sam se predomislio. Do prije otprilike dvije godine bio sam zagovornik onoga što nazivam generativnim modelima latentne varijable, modela koji predviđaju što će se sljedeće dogoditi ili informacije koje nedostaju, po mogućnosti uz pomoć latentne varijable, ako predviđanje nije moguće deterministički. I odustao sam od ovoga. A razlog zašto sam odustao od ovoga temelji se na empirijskim rezultatima, gdje su ljudi pokušali primijeniti, na neki način, obuku temeljenu na predviđanju ili rekonstrukciji tipa koji se koristi u BERT-ui velike jezične modele, pokušali su to primijeniti na slike, i to je bio potpuni neuspjeh. A razlog zbog kojeg je potpuni neuspjeh je, opet, zbog ograničenja probabilističkih modela gdje je relativno lako predvidjeti diskretne tokene poput riječi jer možemo izračunati distribuciju vjerojatnosti za sve riječi u rječniku. To je lako. Ali ako tražimo od sustava da proizvede distribuciju vjerojatnosti preko svih mogućih video okvira, nemamo pojma kako to parametrizirati, ili imamo ideju kako to parametrizirati, ali ne znamo kako to normalizirati. Nailazi na nerješiv matematički problem koji ne znamo kako riješiti. 

yann-lecun-rujan-2022-3

"Nismo došli do točke kada bi naši inteligentni strojevi imali toliko zdravog razuma koliko i mačke", primjećuje Lecun. “Pa, zašto ne počnemo tamo? Što je to što mački omogućuje da shvaća svijet oko sebe, čini prilično pametne stvari, planira i slično, a psima još bolje?”

Dakle, zato kažem da napustimo teoriju vjerojatnosti ili okvir za takve stvari, one slabije, modele temeljene na energiji. I ja to zagovaram desetljećima, tako da ovo nije nedavna stvar. Ali u isto vrijeme, napuštanje ideje generativnih modela jer postoji puno stvari u svijetu koje nisu razumljive i nepredvidive. Ako ste inženjer, to zovete bukom. Ako ste fizičar, to nazivate toplinom. A ako ste osoba koja uči strojno, to možete nazvati, znate, nebitnim detaljima ili kako već.

Dakle, primjer koji sam koristio u novinama, ili sam koristio u razgovorima, je, želite sustav predviđanja svijeta koji bi pomogao u samovozećem automobilu, zar ne? Želi biti u mogućnosti predvidjeti, unaprijed, putanje svih drugih automobila, što će se dogoditi s drugim objektima koji bi se mogli kretati, pješacima, biciklima, djetetu koje trči za nogometnom loptom, sličnim stvarima. Dakle, svašta o svijetu. Ali uz cestu bi moglo biti drveća, a danas puše vjetar, tako da se lišće miče na vjetru, a iza drveća je jezerce, au jezercu ima mreškanja. A to su, u biti, uglavnom nepredvidivi fenomeni. I ne želite da vaš model troši značajnu količinu resursa predviđajući one stvari koje su i teško predvidljive i nevažne. Zato zagovaram arhitekturu zajedničkog ugrađivanja, one stvari gdje varijablu koju pokušavate modelirati, ne pokušavate je predvidjeti, pokušavate je modelirati, ali ona prolazi kroz koder, i taj koder može eliminirati mnoge detalje o ulazu koji su nevažni ili previše komplicirani — u osnovi, ekvivalentno šumu.

ZDNet: Ranije ove godine razgovarali smo o modelima koji se temelje na energiji, JEPA i H-JEPA. Moj osjećaj, ako sam vas dobro razumio, je da pronalazite točku niske energije gdje su ova dva predviđanja ugrađivanja X i Y najsličnija, što znači da ako postoji golub na drvetu u jednom, i postoji nešto u pozadina scene, to možda nisu bitne točke koje čine ova ugrađivanja bliskima jedno drugome.

YL: Pravo. Dakle, JEPA arhitektura zapravo pokušava pronaći kompromis, kompromis, između izvlačenja prikaza koji su maksimalno informativni o ulazima, ali također predvidljivi jedni od drugih s određenom razinom točnosti ili pouzdanosti. Pronalazi kompromis. Dakle, ako ima izbor između trošenja ogromne količine resursa, uključujući pojedinosti o kretanju lišća, i zatim modeliranja dinamike koja će odlučiti kako se lišće kreće sekundu od sada, ili samo ispuštanja toga na pod samo u osnovi provođenje varijable Y kroz prediktor koji eliminira sve te detalje, vjerojatno će to samo eliminirati jer ju je jednostavno previše teško modelirati i uhvatiti.

ZDNet: Jedna stvar koja je iznenađena je da ste bili veliki zagovornik izjave "Radi, kasnije ćemo smisliti teoriju termodinamike da to objasnimo." Ovdje ste zauzeli pristup: "Ne znam kako ćemo to nužno riješiti, ali želim iznijeti neke ideje za razmišljanje o tome," i možda čak pristupiti teoriji ili hipotezi, na najmanje. To je zanimljivo jer ima puno ljudi koji troše puno novca radeći na automobilu koji može vidjeti pješaka bez obzira ima li automobil zdravog razuma. I pretpostavljam da će neki od tih ljudi biti, ne označeni kvačicama, ali će reći, "U redu je, nije nas briga ako nema zdravog razuma, napravili smo simulaciju, simulacija je nevjerojatna, i nastavit ćemo se poboljšavati, nastavit ćemo skalirati simulaciju.” 

I stoga je zanimljivo da ste sada u poziciji da kažete, napravimo korak unatrag i razmislimo o tome što radimo. A industrija govori da ćemo samo povećavati, povećavati, povećavati, povećavati, jer ta ručica stvarno radi. Mislim, poluvodička ručica GPU-a stvarno radi.

YL: Tu je otprilike pet pitanja. Dakle, mislim, skaliranje je neophodno. Ne kritiziram činjenicu da bismo se trebali mjeriti. Trebali bismo mjeriti. Te neuronske mreže postaju bolje što su veće. Nema sumnje da bismo trebali mjeriti. A oni koji će imati neku razinu zdravog razuma bit će veliki. Nema načina da se to zaobiđe, mislim. Dakle, skaliranje je dobro, potrebno je, ali nije dovoljno. To je ono što želim reći. Nije to samo skaliranje. To je prva točka. 

Druga točka, dolazi li teorija na prvo mjesto i slične stvari. Dakle, mislim da postoje koncepti koji su na prvom mjestu, morate napraviti korak unatrag i reći, u redu, izgradili smo ove ljestve, ali želimo ići na Mjesec i nema šanse da nas ove ljestve odvedu tamo. Dakle, u osnovi, ono što ovdje pišem je da moramo napraviti rakete. Ne mogu vam dati detalje o tome kako gradimo rakete, ali evo osnovnih principa. I ne pišem teoriju za to ili tako nešto, ali, to će biti raketa, u redu? Ili svemirski lift ili što već. Možda nemamo sve pojedinosti o svoj tehnologiji. Pokušavamo učiniti da neke od tih stvari funkcioniraju, kao što sam ja radio na JEPA-i. Zajedničko ugrađivanje jako dobro radi za prepoznavanje slika, ali postoje poteškoće pri korištenju za treniranje svjetskog modela. Radimo na tome, nadamo se da ćemo uspjeti soon, ali tamo bismo mogli naići na neke prepreke koje ne bismo mogli savladati, moguće. 

Zatim postoji ključna ideja u radu o rasuđivanju gdje ako želimo da sustavi mogu planirati, što možete zamisliti kao jednostavan oblik rasuđivanja, moraju imati latentne varijable. Drugim riječima, stvari koje nije izračunala nikakva neuronska mreža, ali stvari koje jesu — čija je vrijednost izvedena tako da minimizira neku objektivnu funkciju, neku funkciju troška. Zatim možete koristiti ovu funkciju troška da upravljate ponašanjem sustava. A ovo uopće nije nova ideja, zar ne? Ovo je vrlo klasična, optimalna kontrola čija osnova seže u kasne 50-e, rane 60-e. Dakle, ovdje ne tvrdim ništa novo. Ali ono što želim reći jest da ova vrsta zaključivanja mora biti dio inteligentnog sustava koji je sposoban planirati i čije se ponašanje može specificirati ili kontrolirati ne ukorijenjenim ponašanjem, ne oponašanjem, već objektivnom funkcijom koja pokreće ponašanje — ne potiče nužno učenje, ali pokreće ponašanje. Znate, to imamo u mozgu, a svaka životinja ima intrinzičnu cijenu ili intrinzičnu motivaciju za stvari. To tjera devetomjesečne bebe da žele ustati. Trošak biti sretan kada ustaneš, taj pojam u funkciji troška je ukorijenjen. Ali kako stojiš nije, to je učenje.

yann-lecun-rujan-2022-4

"Skaliranje je dobro, potrebno je, ali nije dovoljno", kaže LeCun o ogromnim jezičnim modelima kao što su programi temeljeni na Transformeru vrste GPT-3. Obožavatelji Transformera vjeruju: “Mi sve tokeniziramo i treniramo divovskemodeli za pravljenje diskretnih predviđanja i nekako će AI proizaći iz ovoga... ali mislim da mu nedostaju bitni dijelovi.”

ZDNet: Samo da zaokružimo tu točku, većina zajednice dubokog učenja čini se u redu ako nastavi s nečim što nema zdravog razuma. Čini se kao da ovdje dajete prilično jasan argument da u jednom trenutku to postane slijepa ulica. Neki ljudi kažu da nam ne treba zdravorazumski autonomni automobil jer će skaliranje to učiniti. Zvuči kao da kažete da nije u redu samo nastaviti tim putem?

YL: Znate, mislim da je sasvim moguće da ćemo imati autonomne automobile razine pet bez zdravog razuma. Ali problem s ovim pristupom je to što će ovo biti privremeno, jer ćete morati raditi vraški inženjering. Dakle, znate, mapirajte cijeli svijet, ožičite sve vrste specifičnog ponašanja u kutu, prikupite dovoljno podataka da imate sve, na neki način, čudne situacije na koje možete naići na cestama, bla, bla, bla. I moja je pretpostavka da uz dovoljno ulaganja i vremena, možete to jednostavno projektirati. Ali u konačnici, postojat će zadovoljavajuće i moguće bolje rješenje koje uključuje sustave koji bolje razumiju način na koji svijet funkcionira i ima, znate, neku razinu onoga što bismo nazvali zdravim razumom. To ne mora biti zdrav razum na ljudskoj razini, već neka vrsta znanja koju sustav može steći promatranjem, ali ne i gledanjem nečije vožnje, samo promatranjem stvari koje se kreću okolo i razumijevanjem puno o svijetu, gradeći temelj pozadine znanje o tome kako svijet funkcionira, povrh kojeg možete naučiti voziti. 

Uzmimo povijesni primjer za to. Klasični računalni vid temeljio se na puno ožičenih, projektiranih modula, povrh kojih biste imali, na neki način, tanak sloj učenja. Dakle, stvari koje je AlexNet pobijedio 2012. u osnovi su imale prvu fazu, neku vrstu, ručno rađenih ekstrakcija značajki, poput SIFT-ova [Scale-Invariant Feature Transform (SIFT), klasična tehnika vida za prepoznavanje istaknutih objekata na slici] i HOG [Histogram usmjerenih gradijenata, još jedna klasična tehnika] i razne druge stvari. I onda drugi sloj, na neki način, značajki srednje razine temeljen na jezgri značajki i bilo čemu, i nekoj vrsti nenadzirane metode. I onda povrh ovoga, stavite stroj potpornih vektora, ili pak relativno jednostavan klasifikator. I to je bio, na neki način, standardni cjevovod od sredine 2000-ih do 2012. I to je zamijenjeno end-to-end konvolucijskim mrežama, gdje ništa od ovoga ne povezujete, samo imate puno podataka, i treniraš stvar od kraja do kraja, što je pristup koji sam zagovarao već dugo, ali znaš, do tada nije bio praktičan za velike probleme. 

Bila je slična priča u prepoznavanju govora gdje je, opet, postojala ogromna količina detaljnog inženjeringa za način na koji pretprocesirate podatke, izdvajate kepstrum masovne skale [obrnuto od brze Fourierove transformacije za obradu signala], a zatim imate Skrivene Markovljeve modele, s nekom vrstom unaprijed postavljene arhitekture, bla, bla, bla, s mješavinom Gaussovih. I tako, to je pomalo ista arhitektura kao vizija gdje imate ručno izrađen prednji dio, a zatim donekle nenadzirani, obučeni srednji sloj, a zatim nadzirani sloj na vrhu. A sada su to, u osnovi, izbrisale end-to-end neuronske mreže. Tako da nekako vidim nešto slično u pokušaju da naučite sve, ali morate imati pravo prethodno, pravu arhitekturu, pravu strukturu.

yann-lecun-rujan-2022-5

Gomila samovozećih automobila, startupi kao što su Waymo i Wayve, bili su "malo previše optimistični", kaže on, misleći da bi mogli "baciti podatke na to, i možete naučiti gotovo sve". Automobili koji se sami voze na razini 5 ADAS-a su mogući, "ali morat ćete do vraga to konstruirati" i bit će "krti" poput ranih modela računalnog vida.

ZDNet: Ono što želite reći jest da će neki ljudi pokušati razviti ono što trenutno ne radi s dubokim učenjem za primjenjivost, recimo, u industriji, i počet će stvarati nešto što je zastarjelo u računalnom vidu?

YL: Pravo. I djelomično je to razlog zašto su ljudi koji rade na autonomnoj vožnji bili malo previše optimistični tijekom posljednjih nekoliko godina, jer, znate, imate te, na neki način, generičke stvari poput konvolucijskih mreža i transformatora, na koje možete bacati podatke , i može naučiti gotovo sve. Dakle, kažete, u redu, imam rješenje za taj problem. Prvo što napravite je da napravite demonstraciju u kojoj auto vozi sam sebe nekoliko minuta, a da nikoga ne ozlijedi. I onda shvatite da postoji mnogo problema u kutu, i pokušate iscrtati krivulju koliko postajem bolji dok udvostručujem set treninga, i shvatite da nikada nećete stići tamo jer ima svakakvih slučajeva u kutu . A morate imati automobil koji će izazvati smrtonosnu nesreću manje od svakih 200 milijuna kilometara, zar ne? Što radiš? Pa hodaš u dva smjera. 

Prvi smjer je, kako mogu smanjiti količinu podataka koja je potrebna mom sustavu za učenje? I tu na scenu dolazi samonadzorno učenje. Dakle, mnogo tvrtki za samovozeće automobile jako je zainteresirano za samonadzorno učenje jer je to način da se još uvijek koriste goleme količine nadzornih podataka za imitacijsko učenje, ali da se postigne bolja izvedba prije treninga, u biti. I nije još skroz krenulo, ali hoće. A tu je i druga opcija, koju je usvojila većina kompanija koje su naprednije u ovom trenutku, a to je, u redu, možemo provesti obuku od kraja do kraja, ali postoji mnogo zaostalih slučajeva koje možemo t rukovanje, tako da ćemo samo projektirati sustave koji će se pobrinuti za te kutne slučajeve, i, u osnovi, tretirati ih kao posebne slučajeve, i ožičiti kontrolu, a zatim ožičiti puno osnovnog ponašanja za rukovanje posebnim situacijama. A ako imate dovoljno velik tim inženjera, mogli biste to uspjeti. No, trebat će dugo vremena, a na kraju će i dalje biti malo krt, možda dovoljno pouzdan da ga možete primijeniti, ali s određenom razinom krtosti, što, s pristupom koji se više temelji na učenju koji bi se mogao pojaviti u budućnosti, automobili neće imati jer bi mogli imati neku razinu zdravog razuma i razumijevanja o tome kako svijet funkcionira. 

Kratkoročno, na neki način projektirani pristup će pobijediti - već pobjeđuje. To je svjetski Waymo i Cruise i Wayvei što god, to oni rade. Tu je i pristup samonadziranog učenja, koji će vjerojatno pomoći inženjerskom pristupu da postigne napredak. Ali onda bi, dugoročno gledano, što bi moglo biti predugo za te tvrtke da čekaju, vjerojatno bio, na neki način, integriraniji sustav autonomne inteligentne vožnje.

ZDNet: Kažemo izvan investicijskog horizonta većine investitora.

YL: Tako je. Dakle, pitanje je hoće li ljudi izgubiti strpljenje ili će ostati bez novca prije nego što učinak dosegne željenu razinu.

ZDNet: Ima li nešto zanimljivo za reći o tome zašto ste odabrali neke od elemenata koje ste odabrali u modelu? Zato što citirate Kennetha Craika [1943.Priroda objašnjenja], a vi citirate Brysona i Hoa [1969, Primijenjena optimalna kontrola], i znatiželjan sam zašto ste počeli s tim utjecajima, ako ste vjerovali posebno da su ti ljudi doveli do onoga što su učinili. Zašto ste tamo počeli?

YL: Pa, ne mislim, svakako, da su sve detalje zakucali. Dakle, Bryson i Ho, ovo je knjiga koju sam pročitao 1987. kad sam bio na postdoktorskom studiju s Geoffreyjem Hintonom u Torontu. Ali znao sam za ovu liniju rada otprije dok sam pisao svoj doktorat, i u biti sam napravio vezu između optimalne kontrole i naslona. Da stvarno želite biti, znate, još jedan Schmidhuber, rekli biste da su pravi izumitelji backpropa zapravo bili teoretičari optimalne kontrole Henry J. Kelley, Arthur Bryson, a možda čak i Lev Pontryagin, koji je ruski teoretičar optimalne kontrole natrag u kasnim '50-ima. 

Dakle, oni su to shvatili, i zapravo, možete vidjeti korijen ovoga, matematika ispod toga, je Lagrangeova mehanika. Dakle, možete se vratiti Euleru i Lagrangeu, zapravo, i na neki način pronaći dašak ovoga u njihovoj definiciji Lagrangeove klasične mehanike, zapravo. Dakle, u kontekstu optimalne kontrole, ono što je ove dečke zanimalo je u osnovi računanje raketnih putanja. Znate, ovo je bilo rano svemirsko doba. A ako imate model rakete, on vam govori o stanju rakete u trenutku t, a ovo je akcija koju ću poduzeti, dakle, potisak i aktuatori raznih vrsta, ovo je stanje rakete u određenom trenutku t + 1.

ZDNet: Model stanje-djelovanje, model vrijednosti.

YL: Tako je, osnova kontrole. Dakle, sada možete simulirati ispaljivanje svoje rakete zamišljajući slijed naredbi, a zatim imate neku funkciju troška, ​​a to je udaljenost rakete od njezine mete, svemirske stanice ili što već. A onda nekom vrstom gradijentnog spuštanja možete shvatiti kako mogu ažurirati svoj redoslijed radnji tako da moja raketa zapravo dođe što bliže meti. A to mora doći putem povratnog širenja signala unatrag kroz vrijeme. A to je širenje unatrag, gradijentno širenje unatrag. Ti signali se nazivaju konjugirane varijable u Lagrangeovoj mehanici, ali zapravo su gradijenti. Dakle, izumili su backprop, ali nisu shvatili da se ovaj princip može koristiti za treniranje višestupanjskog sustava koji može prepoznavati uzorke ili nešto slično. Ovo nije stvarno realizirano sve do možda kasnih 70-ih, ranih 80-ih, a onda nije zapravo implementirano i pokrenuto do sredine 80-ih. U redu, dakle, ovo je mjesto gdje je backprop stvarno, na neki način, uzeo maha jer su ljudi pokazali evo nekoliko redaka koda pomoću kojih možete trenirati neuronsku mrežu, s kraja na kraj, višeslojnu. A to podiže ograničenja Perceptrona. I, da, postoje veze s optimalnom kontrolom, ali to je u redu.

ZDNet: Dakle, to je dug način da se kaže da su se ovi utjecaji s kojima ste počeli vraćali natrag na backprop, a to je bilo važno kao početna točka za vas?

YL: Da, ali mislim da je ono što su ljudi malo zaboravili, bilo je dosta posla na ovome, znate, još u '90-ima, ili čak '80-ima, uključujući ljude poput Michaela Jordana [MIT Depart. of Brain i kognitivne znanosti] i ljudi poput njih koji više ne rade neuronske mreže, već ideju da možete koristiti neuronske mreže za kontrolu, i možete koristiti klasične ideje optimalne kontrole. Dakle, stvari poput onoga što se zove model-prediktivna kontrola, ono što se sada naziva model-prediktivna kontrola, ta ideja da možete simulirati ili zamisliti ishod niza radnji ako imate dobar model sustava koji pokušavate kontrolirati i okoline u kojoj se nalazi. A onda spuštanjem prema gradijentima, u biti - ovo nije učenje, ovo je zaključivanje - možete shvatiti koji je najbolji slijed radnji koji će minimizirati moj cilj. Dakle, korištenje troškovne funkcije s latentnom varijablom za zaključivanje je, mislim, nešto na što su trenutni usjevi velikih neuronskih mreža zaboravili. Ali to je dugo vremena bila vrlo klasična komponenta strojnog učenja. Dakle, svaka Bayesova mreža ili grafički model ili probabilistički grafički model koristi ovu vrstu zaključivanja. Imate model koji bilježi ovisnosti između hrpe varijabli, rečeno vam je o vrijednosti nekih varijabli, a zatim morate zaključiti najvjerojatnije vrijednosti ostalih varijabli. To je osnovno načelo zaključivanja u grafičkim modelima i Bayesovim mrežama i sličnim stvarima. I mislim da je to u osnovi ono o čemu bi rasuđivanje trebalo biti, rasuđivanje i planiranje.

ZDNet: Ti si prikriveni Bayesovac.

YL: Ja sam non-probabilistički Bayesian. Već sam napravio tu šalu. Zapravo sam bio na NeurIPS-u prije nekoliko godina, mislim da je to bilo 2018. ili 2019., i na video me uhvatio Bayesian koji me pitao jesam li Bayesian, a ja sam rekao, Da, ja sam Bayesian, ali ja Ja sam neprobabilistički Bayesian, na neki način, Bayesian temeljen na energiji, ako želite. 

ZDNet: Što definitivno zvuči kao nešto iz Star Trek. Spomenuli ste na kraju ovog rada da će trebati godine stvarno napornog rada da se ostvari ono što ste zamislili. Recite mi o čemu se sastoji dio tog posla u ovom trenutku.

YL: Dakle, objašnjavam kako trenirate i gradite JEPA u novinama. A kriterij za koji se zalažem jest postojanje nekog načina maksimiziranja sadržaja informacija koje reprezentacije koje su izvučene imaju o unosu. A drugi je minimiziranje pogreške predviđanja. A ako imate latentnu varijablu u prediktoru koja dopušta prediktoru da bude nedeterministički, morate regulirati i ovu latentnu varijablu minimiziranjem njezinog informacijskog sadržaja. Dakle, sada imate dva problema, a to je kako maksimizirati informacijski sadržaj izlaza neke neuronske mreže, a drugi je kako minimizirati informacijski sadržaj neke latentne varijable? A ako ne učinite te dvije stvari, sustav će se urušiti. Neće naučiti ništa zanimljivo. Dat će nula energije svemu, tako nešto, što nije dobar model ovisnosti. To je problem sprječavanja kolapsa koji sam spomenuo. 

I kažem od svih stvari koje su ljudi ikada učinili, postoje samo dvije kategorije metoda za sprječavanje kolapsa. Jedno su kontrastivne metode, a drugo one regularizirane metode. Dakle, ova ideja maksimiziranja informacijskog sadržaja reprezentacija dvaju ulaza i minimiziranja informacijskog sadržaja latentne varijable pripada regulariziranim metodama. Ali mnogo posla u tim arhitekturama ugradnje spojeva koristi se kontrastnim metodama. Zapravo, oni su trenutno vjerojatno najpopularniji. Dakle, pitanje je kako točno mjerite sadržaj informacija na način da ga možete optimizirati ili minimizirati? I tu se stvari kompliciraju jer zapravo ne znamo kako mjeriti sadržaj informacija. Možemo ga približno odrediti, možemo ga postaviti na gornju granicu, možemo raditi takve stvari. Ali oni zapravo ne mjere sadržaj informacija, koji, zapravo, u određenoj mjeri nije ni dobro definiran.

ZDNet: Nije Shannonov zakon? Nije teorija informacija? Imate određenu količinu entropije, dobru entropiju i lošu entropiju, a dobra entropija je sustav simbola koji funkcionira, loša entropija je šum. Nije li sve riješila Shannon?

YL: U pravu ste, ali iza toga postoji veliki nedostatak. U pravu ste u smislu da ako imate podatke koji vam dolaze i možete nekako kvantizirati podatke u diskretne simbole, a zatim izmjerite vjerojatnost svakog od tih simbola, tada je maksimalna količina informacija koju nose ti simboli zbroj preko mogućih simbola Pi log Pi, zar ne? Gdje Pi je vjerojatnost simbola ja — to je Shannonova entropija. [Shannonov zakon se obično formulira kao H = – ∑ pi log pi.]

Međutim, ovdje je problem: Što je Pi? Lako je kada je broj simbola mali i simboli se crtaju neovisno. Kada ima mnogo simbola i ovisnosti, jako je teško. Dakle, ako imate slijed bitova i pretpostavite da su bitovi neovisni jedan o drugome i da je vjerojatnost jednaka između jedan i nula ili što već, tada možete lako izmjeriti entropiju, nema problema. Ali ako su stvari koje vam dolaze visokodimenzionalni vektori, kao, znate, podatkovni okviri, ili nešto poput ovoga, što je Pi? Što je distribucija? Prvo morate kvantizirati taj prostor, koji je visokodimenzionalni, kontinuirani prostor. Nemate pojma kako ovo pravilno kvantizirati. Možete koristiti k-srednje vrijednosti, itd. To je ono što ljudi rade kada rade kompresiju videa i kompresiju slike. Ali to je samo aproksimacija. A onda morate napraviti pretpostavke neovisnosti. Dakle, jasno je da u videu uzastopni okviri nisu neovisni. Postoje ovisnosti, a taj okvir može ovisiti o drugom okviru koji ste vidjeli prije sat vremena, a koji je slika iste stvari. Dakle, znate, ne možete mjeriti Pi. Mjeriti Pi, morate imati sustav strojnog učenja koji uči predviđati. I tako se vraćate na prethodni problem. Dakle, u biti možete samo približno odrediti mjeru informacija. 

yann-lecun-rujan-2022-6

"Pitanje je kako točno mjerite sadržaj informacija na način da ga možete optimizirati ili minimizirati?" kaže LeCun. “I tu se stvari kompliciraju jer zapravo ne znamo kako izmjeriti sadržaj informacija.” Najbolje što se dosad može učiniti jest pronaći proxy koji je "dovoljno dobar za zadatak koji želimo".

Uzet ću konkretniji primjer. Jedan od algoritama s kojim smo se igrali, a o kojem sam govorio u članku, je ova stvar koja se zove VICReg, varijacija-invarijanca-kovarijanca regularizacija. To je u zasebnom radu koji je objavljen na ICLR-u, i stavljen je na arXiv otprilike godinu dana prije, 2021. Ideja je da se maksimiziraju informacije. A ideja je zapravo proizašla iz ranijeg rada moje grupe pod nazivom Blizanci Barlow. Maksimizirate informacijski sadržaj vektora koji izlazi iz neuronske mreže, u osnovi, pretpostavljajući da je jedina ovisnost između varijabli korelacija, linearna ovisnost. Dakle, ako pretpostavite da je jedina moguća ovisnost između parova varijabli, ili između varijabli u vašem sustavu, korelacija između parova vrijednosti, što je izuzetno gruba aproksimacija, tada možete maksimalno povećati sadržaj informacija koji izlazi iz vašeg sustava osiguravajući da sve varijable imaju varijancu različitu od nule — recimo, varijancu jedan, nije važno što je — i zatim ih povratno koreliramo, isti proces koji se zove izbjeljivanje, ni to nije novo. Problem s ovim je što vrlo lako možete imati izuzetno složene ovisnosti između grupa varijabli ili čak samo parova varijabli koje nisu linearne ovisnosti, i ne pojavljuju se u korelacijama. Dakle, na primjer, ako imate dvije varijable, i sve točke tih dviju varijabli poredane su u neku vrstu spirale, postoji vrlo jaka ovisnost između te dvije varijable, zar ne? Ali zapravo, ako izračunate korelaciju između te dvije varijable, one nisu u korelaciji. Dakle, evo primjera gdje je informacijski sadržaj ovih dviju varijabli zapravo vrlo mali, to je samo jedna količina jer je to vaš položaj u spirali. Oni su de-korelirani, tako da mislite da imate mnogo informacija koje proizlaze iz te dvije varijable, a zapravo nemate, imate samo, znate, možete predvidjeti jednu od varijabli iz druge, u biti. Dakle, to pokazuje da imamo samo vrlo približne načine za mjerenje sadržaja informacija.

ZDNet: I to je jedna od stvari na kojoj sada morate raditi s ovim? Ovo je veće pitanje kako znamo kada maksimiziramo ili minimiziramo sadržaj informacija?

YL:  Ili je li proxy koji za ovo koristimo dovoljno dobar za zadatak koji želimo. Zapravo, to radimo cijelo vrijeme u strojnom učenju. Troškovne funkcije koje minimiziramo nikada nisu one koje zapravo želimo minimizirati. Dakle, na primjer, želite napraviti klasifikaciju, u redu? Troškovna funkcija koju želite minimizirati kada obučavate klasifikatora je broj pogrešaka koje klasifikator čini. Ali to je nediferencijabilna, užasna troškovna funkcija koju ne možete minimizirati jer znate da ćete promijeniti težinu svoje neuronske mreže, ništa se neće promijeniti dok jedan od tih uzoraka ne promijeni svoju odluku, a onda skok u pogrešci, pozitivnoj ili negativnoj.

ZDNet: Dakle, imate zamjensku funkciju koja je objektivna funkcija za koju definitivno možete reći da definitivno možemo utvrditi gradijente toka ove stvari.

YL: Tako je. Dakle, ljudi koriste ovaj unakrsni entropijski gubitak, ili SOFTMAX, imate nekoliko naziva za to, ali to je ista stvar. I to je u osnovi glatka aproksimacija broja pogrešaka koje sustav napravi, gdje se izglađivanje vrši, u osnovi, uzimajući u obzir ocjenu koju sustav daje svakoj od kategorija.

ZDNet: Postoji li nešto što nismo pokrili, a želite pokriti?

YL: Vjerojatno naglašava glavne točke. Mislim da sustavi umjetne inteligencije moraju biti u stanju razmišljati, a proces za to koji zagovaram je minimiziranje nekog cilja u odnosu na neku latentnu varijablu. To sustavima omogućuje planiranje i razmišljanje. Mislim da bismo trebali napustiti probabilistički okvir jer je nepopustljiv kada želimo raditi stvari poput hvatanja ovisnosti između visokodimenzionalnih, kontinuiranih varijabli. I zalažem se za napuštanje generativnih modela jer će sustav morati posvetiti previše resursa predviđanju stvari koje je preteško predvidjeti i koje će možda trošiti previše resursa. I to je uglavnom to. To su glavne poruke, ako želite. A zatim i cjelokupna arhitektura. Zatim, tu su i one spekulacije o prirodi svijesti i ulozi konfiguratora, ali to su zapravo spekulacije.

ZDNet: Doći ćemo do toga sljedeći put. Htio sam te pitati, kako mjeriš ovu stvar? Ali pretpostavljam da ste sada malo dalje od benchmarkinga?

YL: Ne nužno tako daleko u, na neki način, pojednostavljenim verzijama. Možete učiniti ono što svi rade u kontrolnom učenju ili učenju s potkrepljenjem, što znači da uvježbate stvar da igra Atari igrice ili nešto slično ili neku drugu igru ​​koja ima malo nesigurnosti u sebi.

ZDNet: Hvala na vašem vremenu, Yann.

izvor