Meta AI-guru LeCun: enamik tänapäevaseid tehisintellekti lähenemisviise ei vii kunagi tõelise intelligentsuseni

yann-lecun-sept-2022-1

"Ma arvan, et tehisintellektisüsteemid peavad suutma arutleda," ütleb Yann LeCun, Meta peamine tehisintellekti teadlane. Tänapäeva populaarsetest tehisintellekti lähenemisviisidest, nagu Transformers, millest paljud tuginevad tema enda teedrajavale tööle selles valdkonnas, ei piisa. "Peate astuma sammu tagasi ja ütlema: okei, me ehitasime selle redeli, aga me tahame Kuule minna ja see redel meid sinna ei vii," ütleb LeCun.

Yann LeCun, AI peateadlane Facebooki, Instagrami ja WhatsAppi omanikust Meta Propertiesist märgib tõenäoliselt palju inimesi oma valdkonnas. 

Juunis avaldatud mõttetükiga serveris Open Review, LeCun pakkus laia ülevaate lähenemisviisist, mis tema arvates lubab saavutada masinates inimtasemel intelligentsust. 

Kui seda artiklis ei väljendata, siis väidetakse, et enamik tänapäeva suuri tehisintellekti projekte ei suuda kunagi seda inimtasandi eesmärki saavutada.

Sel kuul toimunud arutelul ZDNet Zoomi kaudu tegi LeCun selgeks, et ta suhtub suure skepsisega paljudesse praegu kõige edukamatesse süvaõppe uurimisviisidesse.

"Ma arvan, et need on vajalikud, kuid mitte piisavad," ütles Turingi auhinna võitja ZDNet tema eakaaslaste püüdlustest. 

Nende hulka kuuluvad suured keelemudelid, nagu transformeril põhinev GPT-3 ja sarnased. Nagu LeCun seda iseloomustab, usuvad Transformeri pühendunud: „Me märgistame kõike ja treenime hiiglaslikultmudelid, mis võimaldavad teha diskreetseid ennustusi, ja AI tuleb sellest kuidagi välja.

"Nad ei eksi," ütleb ta, "selles mõttes, et see võib olla tulevase intelligentse süsteemi komponent, kuid ma arvan, et sellel puuduvad olulised osad."

Ka: Meta AI valgusti LeCun uurib sügava õppimise energiapiiri

See on jahmatav kriitika selle kohta, mis näib töötavat, pärit teadlaselt, kes täiustas konvolutsiooniliste närvivõrkude kasutamist – praktilist tehnikat, mis on olnud sügavates õppeprogrammides uskumatult produktiivne. 

LeCun näeb puudusi ja piiranguid paljudes teistes väga edukates distsipliini valdkondades. 

Ka tugevdusõppest ei piisa kunagi, väidab ta. LeCun märgib, et sellised teadlased nagu David Silver DeepMindist, kes töötas välja programmi AlphaZero, mis valdas Chessi, Shogi ja Go, keskenduvad programmidele, mis on „väga tegevusepõhised,” märgib LeCun, kuid „enamiku õppimisest me seda ei tee. tehke seda tegelikult tegutsedes, me teeme seda jälgides. 

62-aastane Lecun väljendab aastakümnete pikkuste saavutuste vaatenurgast siiski tungivat vajadust astuda silmitsi tema arvates pimeteedega, mille poole paljud võivad tormata, ja püüda oma valdkonda meelitada selles suunas, kuhu asjad tema arvates peaksid minema. 

"Näeme palju väiteid selle kohta, mida peaksime tegema, et liikuda edasi inimtasemel tehisintellekti poole," ütleb ta. "Ja on ideid, mis on minu arvates valesti suunatud."

"Me ei ole veel nii kaugel, et meie intelligentsetel masinatel oleks nii palju tervet mõistust kui kassil," märgib Lecun. "Niisiis, miks me ei võiks sealt alustada?" 

Ta on loobunud oma varasemast usust generatiivsete võrkude kasutamisesse sellistes asjades nagu video järgmise kaadri ennustamine. "See on olnud täielik läbikukkumine," ütleb ta. 

LeCun taunib neid, keda ta nimetab "religioosseteks tõenäosusmeesteks", kes "arvavad, et tõenäosusteooria on ainus raamistik, mida saate masinõppe selgitamiseks kasutada." 

Puhtalt statistiline lähenemine on lahendamatu, ütleb ta. “On liiga palju nõuda, et maailmamudel oleks täiesti tõenäosuslik; me ei tea, kuidas seda teha."

LeCun väidab, et mitte ainult akadeemikud, vaid ka tööstuslik AI vajab põhjalikku ümbermõtlemist. Ta ütleb, et isejuhtivate autode publik, idufirmad nagu Wayve, on olnud "natuke liiga optimistlikud," ütleb ta, arvates, et nad võiksid "andmeid visata" suurtesse närvivõrkudesse "ja te võite õppida peaaegu kõike."

"Teate, ma arvan, et on täiesti võimalik, et meil on XNUMX. taseme autonoomsed autod ilma terve mõistuseta," ütleb ta, viidates "ADASile". täiustatud juhiabisüsteem isejuhtimise tingimused, "aga sa pead selle põrgu välja mõtlema."

Ta usub, et selline üleprojekteeritud isejuhtiv tehnoloogia on midagi sama krigisevat ja rabedat kui kõik arvutinägemisprogrammid, mis sügava õppimise tõttu aegunuks muutusid.

"Lõppkokkuvõttes on olemas rahuldavam ja võib-olla parem lahendus, mis hõlmab süsteeme, mis mõistavad paremini maailma toimimist."

Samal ajal pakub LeCun mõningaid närbuvaid seisukohti oma suurimatelt kriitikutelt, nagu NYU professor Gary Marcus – „ta pole kunagi tehisintellekti arendamisse midagi panustanud” – ja Jürgen Schmidhuber, Dalle Molle’i tehisintellekti uurimisinstituudi kaasdirektor – „see on väga lihtne liputada.

Lisaks kriitikatele on LeCuni olulisem punkt see, et kogu tehisintellektiga seisavad silmitsi teatud põhiprobleemid, eriti teabe mõõtmine.

"Peate astuma sammu tagasi ja ütlema: okei, me ehitasime selle redeli, aga me tahame Kuule minna ja see redel meid sinna ei vii," räägib LeCun oma soovist kutsuda esile ümbermõtlemine. põhimõistetest. "Põhimõtteliselt on see, mida ma siin kirjutan, see, et me peame ehitama rakette, ma ei saa teile anda üksikasju selle kohta, kuidas me rakette ehitame, kuid siin on põhiprintsiibid."

Paberit ja LeCuni mõtteid intervjuus saab paremini mõista, lugedes selle aasta alguses antud LeCuni intervjuud ZDNet milles ta pooldab energiapõhist enesejuhitavat õppimist kui sügava õppimise teed. Need mõtisklused annavad tunde, milline on põhiline lähenemine sellele, mida ta loodab ehitada alternatiivina asjadele, mis tema väitel finišisse ei jõua. 

Järgneb kergelt toimetatud intervjuu ärakiri.

ZDNet: Meie vestluse teemaks on see artikkel „Teekond autonoomse masina intelligentsuse poole”, mille versioon 0.9.2 on olemasolev versioon, jah?

Yann LeCun: Jah, ma pean seda omamoodi töödokumendiks. Seega postitasin selle Open Review'i, oodates, et inimesed annaksid kommentaare ja ettepanekuid, võib-olla täiendavaid viiteid, ja siis koostan muudetud versiooni. 

ZDNet: Ma näen, et Juergen Schmidhuber on Open Review'sse juba lisanud mõned kommentaarid.

YL: No jah, ta teeb seda alati. Tsiteerin üht tema paberit seal oma lehes. Ma arvan, et tema sotsiaalvõrgustikes esitatud argumendid, et ta mõtles selle kõik välja 1991. aastal, nagu ta on teinud ka muudel juhtudel, pole lihtsalt nii. See on väga lihtne tehalipu istutamine ja omamoodi idee kirjutamiseks ilma igasuguste eksperimentideta, ilma igasuguse teooriata, soovitage lihtsalt, et saaksite seda nii teha. Kuid teate, on suur vahe sellel, kas teil on lihtsalt idee ja seejärel panna see mänguasjaprobleemi kallale, ja siis saada see tõelise probleemi lahendamiseks ja seejärel teha teooria, mis näitab, miks see töötab, ja siis. selle kasutuselevõtt. Seal on terve kett ja tema idee teaduslikust krediitist on see, et see on kõige esimene inimene, kellel oli selline idee, et see peaks saama kogu tunnustuse. Ja see on naeruväärne. 

ZDNet: Ärge uskuge kõike, mida sotsiaalmeedias kuulete. 

YL: Ma mõtlen, et põhilehes, mida ta ütleb, et peaksin tsiteerima, ei ole ühtegi peamist ideed, millest ma selles lehes räägin. Ta on seda teinud ka GAN-ide ja muude asjadega, mis aga tõeks ei osutunud. Lippude istutamist on lihtne teha, palju raskem on oma panust anda. Ja muide, selles konkreetses artiklis ütlesin ma selgesõnaliselt, et see ei ole teaduslik artikkel selle mõiste tavapärases tähenduses. See on pigem seisukoht, kuhu see asi jõudma peaks. Ja seal on paar ideed, mis võivad olla uued, kuid enamik neist pole seda. Ma ei väida põhimõtteliselt mingit prioriteeti enamikule sellest, mida ma selles dokumendis kirjutasin.

yann-lecun-sept-2022-2

Tugevdamisest õppimisest ei piisa ka kunagi, väidab LeCun. LeCun märgib, et sellised teadlased nagu David Silver DeepMindist, kes töötas välja programmi AlphaZero, mis valdas male, Shogi ja Go, on „väga tegevusepõhised”, märgib LeCun, kuid „enamiku õppimisest ei tee me seda tegelikult õppides. toiminguid, teeme seda jälgides. 

ZDNet: Ja see on võib-olla hea koht alustamiseks, sest mind huvitab, miks te seda teed nüüd valisite? Mis pani teid selle peale mõtlema? Miks sa seda kirjutada tahtsid?

YL: Noh, ma olen mõelnud sellele väga pikka aega, teele inim- või loomatasandi intelligentsuse või õppimise ja võimete poole. Ja oma kõnedes olen olnud kogu selle asja kohta üsna häälekas, et nii juhendatud õpe kui ka tugevdatud õpe ei ole piisavad, et jäljendada sellist õppimist, mida loomadel ja inimestel täheldame. Olen seda teinud umbes seitse või kaheksa aastat. Niisiis, see pole hiljutine. Mul oli NeurIPSis palju aastaid tagasi põhiettekanne, kus ma selle sisuliselt välja tõin, ja erinevaid kõnesid, seal on salvestusi. Miks nüüd paberit kirjutada? Olen jõudnud asjani – [Google’i aju-uurija] Geoff Hinton oli midagi sarnast teinud – ma mõtlen, et tema on kindlasti rohkem kui mina, me näeme, et aeg hakkab otsa saama. Me ei ole noored.

ZDNet: Kuuskümmend on uus viiskümmend. 

YL: See on tõsi, kuid asi on selles, et me näeme palju väiteid selle kohta, mida peaksime tegema, et liikuda edasi inimtasemel tehisintellekti poole. Ja on ideid, mis on minu arvates valesti suunatud. Niisiis, üks idee on see, et me peaksime närvivõrkudele lihtsalt sümboolse arutluskäigu lisama. Ja ma ei tea, kuidas seda teha. Võib-olla võib see, mida ma artiklis selgitasin, üks lähenemisviis, mis teeks sama asja ilma selgesõnalise sümboliga manipuleerimiseta. See on selline traditsiooniliselt Gary Marcuses maailmas. Gary Marcus ei ole AI inimene, muide, ta on psühholoog. Ta pole kunagi tehisintellektile midagi panustanud. Ta on teinud eksperimentaalpsühholoogias väga head tööd, kuid ta pole kunagi kirjutanud tehisintellekti kohta eelretsenseeritud artiklit. Nii et seal on need inimesed. 

Maailmas on [DeepMindi põhimõtte uurija] David Silvers, kes ütleb, et tead, tasumisest piisab. Põhimõtteliselt on see kõik õppimise tugevdamises, me peame seda lihtsalt veidi tõhusamaks muutma, eks? Ja ma arvan, et nad ei eksi, kuid arvan, et vajalikud sammud tugevdava õppe tõhusamaks muutmiseks muudaksid tugevdamise õppimise omamoodi kirsiks tordil. Ja peamine puuduv osa on maailma toimimise õppimine, enamasti ilma tegevuseta vaatlemise teel. Tugevdusõpe on väga tegevusepõhine, maailma kohta õpid asju tegutsedes ja tulemusi nähes.

ZDNet: Ja see on tasule keskendunud.

YL: See on keskendunud tasule ja samuti tegevusele. Niisiis, sa pead maailmas tegutsema, et maailma kohta midagi õppida. Ja peamine väide, mille ma paberis enesejuhitava õppimise kohta esitan, on see, et enamiku õppimisest me ei tee seda tegelikult tegutsedes, vaid jälgides. Ja see on väga ebatavaline, eriti õppivate inimeste jaoks, aga ka paljude psühholoogide ja kognitiivteadlaste jaoks, kes arvavad, et tegevus on — ma ei ütle, et tegutsemine pole oluline, see on is hädavajalik. Kuid ma arvan, et suurem osa sellest, mida me õpime, puudutab peamiselt maailma ülesehitust ja hõlmab loomulikult suhtlemist, tegevust ja mängu ja selliseid asju, kuid suur osa sellest on vaatluslik.

ZDNet: Samuti õnnestub teil samal ajal linnuke ära teha Transformeri inimesed, keele-esimesed inimesed. Kuidas saate seda kõigepealt ilma keeleta üles ehitada? Võib-olla õnnestub teil palju inimesi ära märkida. 

YL: Jah, ma olen sellega harjunud. Nii, jah, seal on keele-esimesed inimesed, kes ütlevad, et tead, intelligentsus on seotud keelega, intelligentsuse substraat on keel, bla, bla, bla. Kuid see lükkab omamoodi loomade intelligentsuse kõrvale. Teate, me pole veel nii kaugel, et meie intelligentsetel masinatel oleks nii palju tervet mõistust kui kassil. Niisiis, miks me ei võiks sellest alustada? Mis on see, mis võimaldab kassil ümbritsevat maailma tabada, päris nutikaid asju teha, planeerida ja muud sellist ning koertel veelgi paremini? 

Siis on kõik inimesed, kes ütlevad: Oh, intelligentsus on sotsiaalne asi, eks? Oleme intelligentsed, sest räägime omavahel ja vahetame infot ja blaa, bla, bla. On igasuguseid mittesotsiaalseid liike, kes ei kohta kunagi oma väga nutikaid vanemaid, nagu kaheksajalad või orangutanid.Ma mõtlen, et nad [orangutanid] on kindlasti ema koolitatud, kuid nad pole sotsiaalsed loomad. 

Kuid teine ​​inimeste kategooria, kelle võiksin ära märkida, on inimesed, kes ütlevad, et skaleerimisest piisab. Põhimõtteliselt kasutame me lihtsalt hiiglaslikke transformereid, koolitame neid multimodaalsete andmetega, mis hõlmavad, teate, videot, teksti, blaa, blaa, blaa. Meie omamoodi kivistumekõike ja märgistada kõik ning seejärel treenida hiiglaslikultmudelid, mis võimaldavad põhimõtteliselt teha diskreetseid ennustusi, ja mingil moel tekib sellest tehisintellekt. Nad ei eksi selles mõttes, et see võib olla tulevase intelligentse süsteemi komponent. Kuid ma arvan, et sellel on olulised tükid puudu. 

On veel üks kategooria inimesi, kellele ma selle paberiga märgin. Ja need on tõenäosuslikud, usutõenäosustajad. Niisiis, inimesed, kes arvavad, et tõenäosusteooria on ainus raamistik, mida saate masinõppe selgitamiseks kasutada. Ja nagu ma tükis selgitada püüdsin, on põhimõtteliselt liiga palju nõuda, et maailmamudel oleks täiesti tõenäosuslik. Me ei tea, kuidas seda teha. Seal on arvutuslik lahendamatus. Seega teen ettepaneku kogu see idee kõrvale jätta. Ja muidugi, teate, see ei ole mitte ainult masinõppe, vaid kogu statistika tohutu tugisammas, mis väidab end olevat masinõppe tavaline formalism. 

Teine asi — 

ZDNet: Sa oled hoos…

YL: — nimetatakse generatiivseteks mudeliteks. Niisiis, idee, et saate õppida ennustama ja võib-olla saate ennustamise abil maailma kohta palju teada saada. Seega annan teile tüki videot ja palun süsteemil ennustada, mis videos järgmisena juhtub. Ja ma võin paluda teil ennustada tegelikke videokaadreid koos kõigi üksikasjadega. Aga see, mille üle ma lehes vaidlen, on see, et seda on tegelikult liiga palju küsida ja see on liiga keeruline. Ja see on asi, mille üle ma oma meelt muutsin. Kuni umbes kaks aastat tagasi olin ma nn latentse muutuja generatiivsete mudelite propageerija, mudelid, mis ennustavad, mis juhtub järgmisena või infot, mis puudub, võib-olla varjatud muutuja abil, kui ennustust ei saa deterministlik. Ja ma olen sellest loobunud. Ja põhjus, miks ma sellest loobusin, põhineb empiirilistel tulemustel, kus inimesed on püüdnud rakendada, omamoodi, ennustamisel või rekonstrueerimisel põhinevat koolitust, mida kasutatakse BERTis.ja suured keelemudelid, on nad püüdnud seda piltidele rakendada ja see on olnud täielik läbikukkumine. Ja põhjus, miks see täielikult ebaõnnestub, on jällegi tõenäosusmudelite piirangute tõttu, mille puhul on suhteliselt lihtne ennustada diskreetseid märke, näiteks sõnu, kuna saame arvutada tõenäosusjaotuse kõigi sõnaraamatu sõnade vahel. See on lihtne. Aga kui me palume süsteemil toota tõenäosusjaotuse kõigi võimalike videokaadrite vahel, pole meil aimugi, kuidas seda parameetristada, või on meil aimu, kuidas seda parameetriseerida, aga me ei tea, kuidas seda normaliseerida. See tabab lahendamatut matemaatilist probleemi, mida me ei tea, kuidas lahendada. 

yann-lecun-sept-2022-3

"Me ei ole veel nii kaugel, et meie intelligentsetel masinatel oleks nii palju tervet mõistust kui kassil," märgib Lecun. „Miks me siis ei alusta sealt? Mis on see, mis võimaldab kassil ümbritsevat maailma tabada, päris nutikaid asju teha, planeerida ja muud sellist ning koertel veelgi paremini?”

Seetõttu ma ütlengi, et loobugem tõenäosusteooriast või selliste asjade raamistikust, nõrgemast, energiapõhistest mudelitest. Olen seda pooldanud ka aastakümneid, nii et see pole uus asi. Kuid samas loobudes generatiivsete mudelite ideest, sest maailmas on palju asju, mis pole arusaadavad ega ennustatavad. Kui olete insener, nimetate seda müraks. Kui olete füüsik, nimetate seda soojuseks. Ja kui olete masinõppe inimene, siis nimetate seda ebaolulisteks üksikasjadeks või milleks iganes.

Niisiis, näide, mida ma lehes kasutasin või olen kõnelustel kasutanud, on see, et soovite maailma ennustamise süsteemi, mis aitaks isejuhtival autol, eks? See tahab ette näha kõigi teiste autode trajektoore, mis juhtub teiste objektidega, mis võivad liikuda, jalakäijate, jalgrataste, jalgpalli järel jooksva lapse ja muu sellisega. Niisiis, igasuguseid asju maailma kohta. Aga tee ääres võib olla puid ja täna on tuul, nii et lehed tuules liiguvad ja puude taga on tiik ja tiigis on lainetus. Ja need on sisuliselt suures osas ettearvamatud nähtused. Ja te ei soovi, et teie mudel kulutaks märkimisväärsel hulgal ressursse selliste asjade ennustamiseks, mida on nii raske ennustada kui ka ebaolulised. Seetõttu toetan ma ühismanustamisarhitektuuri, neid asju, kus muutujat, mida proovite modelleerida, te ei ürita seda ennustada, proovite seda modelleerida, kuid see jookseb läbi kodeerija ja see kodeerija võib kõrvaldada palju ebaolulisi või liiga keerukaid üksikasju sisendi kohta – põhimõtteliselt samaväärne müraga.

ZDNet: Arutasime selle aasta alguses energiapõhiseid mudeleid JEPA ja H-JEPA. Kui ma sinust õigesti aru saan, siis ma arvan, et leiad madala energiapunkti, kus need kaks ennustust X- ja Y-kinnituste kohta on kõige sarnasemad, mis tähendab, et kui ühes puus on tuvi ja puus on midagi. stseeni taustal, ei pruugi need olla olulised punktid, mis muudavad need kinnistused üksteisele lähedaseks.

YL: Õige. Niisiis, JEPA arhitektuur püüab tegelikult leida kompromissi, kompromissi esinduste eraldamise vahel, mis on sisendite kohta maksimaalselt informatiivsed, kuid ka üksteisest teatud täpsuse või usaldusväärsusega prognoositavad. See leiab kompromissi. Seega, kui tal on valida, kas kulutada tohutul hulgal ressursse, sealhulgas lehtede liikumise üksikasju, ja seejärel modelleerida dünaamikat, mis otsustab, kuidas lehed mõne sekundi pärast liiguvad, või visata see lihtsalt põrandale. Põhimõtteliselt Y-muutuja käivitamine ennustaja kaudu, mis kõrvaldab kõik need üksikasjad, tõenäoliselt see lihtsalt kõrvaldab, sest seda on lihtsalt liiga raske modelleerida ja tabada.

ZDNet: Üks asi, mis on üllatunud, on see, et olete olnud suurepärane pooldaja ütlust: "See töötab, me mõtleme hiljem välja termodünaamika teooria, et seda selgitada." Siin olete lähenenud järgmisele: "Ma ei tea, kuidas me seda tingimata lahendame, aga ma tahan esitada mõned ideed selle üle järelemõtlemiseks" ja võib-olla isegi lähenedes teooriale või hüpoteesile. vähemalt. See on huvitav, sest paljud inimesed kulutavad palju raha selle auto kallal, mis näevad jalakäijat olenemata sellest, kas autol on tervet mõistust. Ja ma kujutan ette, et mõnda neist inimestest ei märgitata, kuid nad ütlevad: "See on hea, meid ei huvita, kui sellel pole tervet mõistust, oleme loonud simulatsiooni, simulatsioon on hämmastav, ja me jätkame täiustamist, jätkame simulatsiooni skaleerimist. 

Ja seetõttu on huvitav, et saate nüüd öelda, et astume sammu tagasi ja mõelgem, mida me teeme. Ja tööstus ütleb, et me lihtsalt hakkame skaleerima, mastaapima, skaleerima, mastaapima, sest see vänt tõesti töötab. Ma mõtlen, et GPU-de pooljuhtvänt tõesti töötab.

YL: Seal on viis küsimust. Nii et ma mõtlen, et skaleerimine on vajalik. Ma ei kritiseeri tõsiasja, et peaksime skaleerima. Peaksime skaleerima. Need närvivõrgud lähevad suuremaks muutudes paremaks. Pole kahtlust, et peaksime skaleerima. Ja need, millel on teatud tase tervet mõistust, on suured. Sellest ei saa kuidagi mööda, ma arvan. Seega on skaleerimine hea, vajalik, kuid mitte piisav. See on minu mõte. See ei ole ainult skaleerimine. See on esimene punkt. 

Teine punkt, kas teooria on esikohal ja sellised asjad. Niisiis, ma arvan, et on kontseptsioonid, mis tulevad esikohale, et sa pead astuma sammu tagasi ja ütlema, okei, me ehitasime selle redeli, aga me tahame Kuule minna ja see redel ei vii meid kuidagi sinna. Põhimõtteliselt, mida ma siin kirjutan, on see, et me peame ehitama rakette. Ma ei saa teile anda üksikasju selle kohta, kuidas me rakette ehitame, kuid siin on põhiprintsiibid. Ja ma ei kirjuta selle jaoks teooriat ega midagi, vaid sellest saab rakett, eks? Või kosmoselift või mis iganes. Meil ei pruugi olla kogu tehnoloogia kõiki üksikasju. Püüame mõned neist asjadest toimima panna, nagu ma oleksin JEPA kallal töötanud. Ühismanustamine toimib piltide tuvastamisel väga hästi, kuid selle kasutamisega maailmamudeli koolitamiseks on raskusi. Me töötame selle kallal, loodame, et saame selle toimima soon, kuid me võime seal kohata mõningaid takistusi, millest me ilmselt ei saa üle. 

Seejärel on artiklis arutluskäigu põhiidee, kus kui tahame, et süsteemid saaksid planeerida, mida võib pidada lihtsaks arutlusviisiks, peavad neil olema varjatud muutujad. Teisisõnu, asjad, mida ei arvuta ükski närvivõrk, vaid asjad, mis on – mille väärtust järeldatakse nii, et minimeerida mõnda sihtfunktsiooni, mõnda kulufunktsiooni. Ja siis saate seda kulufunktsiooni kasutada süsteemi käitumise juhtimiseks. Ja see pole üldse uus idee, eks? See on väga klassikaline, optimaalne juhtimine, mille alus ulatub tagasi 50ndate lõppu, 60ndate algusesse. Seega ei pretendeeri siinkohal uudsusele. Aga see, mida ma ütlen, on see, et seda tüüpi järeldused peavad olema osa intelligentsest süsteemist, mis on võimeline planeerima ja mille käitumist saab täpsustada või kontrollida mitte juhtmega käitumise, mitte jäljendamise, vaid objektiivse funktsiooni abil, mis juhib käitumist — ei ajenda tingimata õppimist, aga see juhib käitumist. Teate, see on meie ajus olemas ja igal loomal on asjade sisemine hind või sisemine motivatsioon. See sunnib üheksakuuseid imikuid püsti tõusma. Püsti tõustes õnnelik olemise hind on kulufunktsiooni termin kõvasti ühendatud. Aga see, kuidas sa püsti seisad, ei ole, see on õppimine.

yann-lecun-sept-2022-4

"Skaleerimine on hea, see on vajalik, kuid mitte piisav," ütleb LeCun hiiglaslike keelemudelite kohta, nagu näiteks GPT-3 sordi Transformer-põhised programmid. Transformeri pühendunud usuvad: „Me märgistame kõike ja treenime hiiglaslikultmudelid, et teha diskreetseid ennustusi, ja AI tuleb sellest kuidagi välja, kuid ma arvan, et sellel on olulised tükid puudu.

ZDNet: Selle punkti lõpetuseks võib öelda, et suur osa süvaõppekogukonnast näib olevat hea, et ta jätkab millegagi, millel puudub terve mõistus. Tundub, et sa esitad siin üsna selge argumendi, et ühel hetkel muutub see ummikseisuks. Mõned inimesed ütlevad, et me ei vaja terve mõistusega autonoomset autot, sest skaleerimine teeb seda. Tundub, et te ütlete, et ei ole okei seda teed mööda minna?

YL: Tead, ma arvan, et on täiesti võimalik, et meil on XNUMX. taseme autonoomsed autod ilma terve mõistuseta. Kuid selle lähenemisviisi probleem on see, et see on ajutine, sest peate selle põrgu välja mõtlema. Nii et teate, kaardistage kogu maailm, ühendage kõikvõimalikud konkreetsed nurgajuhtumite käitumised, koguge piisavalt andmeid, et teil oleks kõik omamoodi kummalised olukorrad, mida võite teedel kohata, bla, bla, bla. Ja ma arvan, et piisava investeeringu ja ajaga saate sellest lihtsalt põrgu välja mõelda. Kuid lõpuks on olemas rahuldavam ja võib-olla parem lahendus, mis hõlmab süsteeme, mis saavad paremini aru, kuidas maailm toimib, ja millel on teatud tase, mida me nimetaksime terve mõistuse tasemele. See ei pea olema inimtasandil terve mõistus, vaid teatud tüüpi teadmised, mida süsteem saab omandada vaadates, kuid mitte vaadates, kuidas keegi sõidab, vaid lihtsalt vaadates asju, mis liiguvad ja maailmast palju aru saades, luues tausta vundamendi. teadmisi selle kohta, kuidas maailm toimib, millele lisaks saab õppida sõitma. 

Toon selle kohta ajaloolise näite. Klassikaline arvutinägemine põhines paljudel juhtmega konstrueeritud moodulitel, mille peal oleks nagu õhuke kiht õppimist. Niisiis, asjadel, mille AlexNet 2012. aastal võitis, oli põhimõtteliselt esimene etapp, omamoodi käsitsi valmistatud funktsioonide väljavõtted, nagu SIFT-id [Scale-Invariant Feature Transform (SIFT), klassikaline nägemistehnika pildil silmapaistvate objektide tuvastamiseks] ja HOG [Orienteeritud gradientide histogramm, teine ​​klassikaline tehnika] ja mitmesugused muud asjad. Ja siis teine ​​kiht, omamoodi, kesktaseme funktsioone, mis põhinevad funktsioonituumadel ja mis iganes, ja mingi järelevalveta meetod. Ja siis selle peale paned tugivektori masina või suhteliselt lihtsa klassifikaatori. Ja see oli omamoodi standardne konveier 2000. aastate keskpaigast 2012. aastani. Ja see asendati ots-otsa keerdvõrkudega, kus te ei ühenda seda kõike, teil on lihtsalt palju andmeid, ja treenite asja otsast lõpuni välja, mida ma olin juba pikka aega propageerinud, aga tead, kuni selle ajani polnud see suurte probleemide puhul otstarbekas. 

Sarnane lugu on olnud ka kõnetuvastuses, kus taas oli tohutult üksikasjalikult välja töötatud, kuidas te andmeid eeltöötlete, ekstraheerite massilise cepstrumi (signaalitöötluse kiire Fourier’ teisenduse pöördväärtus) ja seejärel. teil on varjatud Markovi mudelid, omamoodi eelseadistatud arhitektuuriga, bla, bla, bla, Gausside seguga. Ja nii, see on natuke sama arhitektuur kui visioon, kus teil on käsitsi valmistatud esiosa ja seejärel mõnevõrra järelevalveta, treenitud keskmine kiht ja seejärel järelevalvega kiht peal. Ja nüüd on otspunktidevahelised närvivõrgud selle põhimõtteliselt hävitanud. Nii et ma näen seal midagi sarnast, kui proovite kõike õppida, kuid teil peab olema õige eelnev, õige arhitektuur, õige struktuur.

yann-lecun-sept-2022-5

Ta ütleb, et isesõitvate autode publik, idufirmad nagu Waymo ja Wayve, on olnud "natuke liiga optimistlikud", arvab, et nad võiksid "sellele andmeid visata ja õppida peaaegu kõike." Isejuhtivad autod ADAS-i 5. tasemel on võimalikud, "aga te peate selle kuradima välja töötama" ja need on "haprad" nagu varased arvutinägemise mudelid.

ZDNet: Mida te ütlete, on see, et mõned inimesed püüavad süvaõppega seda, mis praegu ei tööta, rakendada, näiteks tööstuses, ja hakkavad looma midagi, mis on arvutinägemises vananenud?

YL: Õige. Ja osaliselt on see põhjus, miks autonoomse juhtimisega tegelevad inimesed on viimastel aastatel olnud liiga optimistlikud, sest teate, teil on sellised üldised asjad, nagu konvolutsioonivõrgud ja transformerid, mille abil saate andmeid visata. , ja see võib õppida peaaegu kõike. Nii et te ütlete: okei, mul on sellele probleemile lahendus. Esimese asjana koostate demo, kus auto sõidab ise mõne minuti ilma kellelegi haiget tegemata. Ja siis mõistate, et nurgajuhtumeid on palju ja proovite joonistada kõverat, kui palju paremaks mul läheb, kui ma kahekordistan treeningkomplekti, ja mõistate, et te ei jõua kunagi sinna, sest seal on igasuguseid nurgajuhtumeid. . Ja teil peab olema auto, mis põhjustab surmaga lõppenud õnnetuse vähem kui iga 200 miljoni kilomeetri järel, eks? Mida sa siis teed? Noh, sa kõnnid kahes suunas. 

Esimene suund on see, kuidas ma saan vähendada andmete hulka, mis on vajalikud minu süsteemi õppimiseks? Ja see on koht, kus tuleb sisse enda juhendatud õpe. Seega on paljud isejuhtivate autode rõivad väga huvitatud isejuhitavast õppimisest, sest see on viis, kuidas kasutada jäljendusõppeks endiselt hiiglaslikke juhendamisandmeid, kuid saavutada paremaid tulemusi. eelkoolitus sisuliselt. Ja see pole veel päris välja kukkunud, aga läheb. Ja siis on veel üks võimalus, mille on kasutusele võtnud enamik ettevõtteid, kes on praegusel hetkel rohkem arenenud. See on, okei, me saame läbi viia täieliku koolituse, kuid on palju nurgataguseid, mida saame teha. t hakkama, nii et me lihtsalt kavandame süsteeme, mis hoolitsevad nende nurgapealsete juhtumite eest, ja põhimõtteliselt käsitlevad neid erijuhtudena ja ühendavad juhtimise ning seejärel ühendame palju põhikäitumist eriolukordade lahendamiseks. Ja kui teil on piisavalt suur inseneride meeskond, võite selle hakkama saada. Kuid see võtab kaua aega ja lõpuks on see siiski pisut rabe, võib-olla piisavalt usaldusväärne, et saaksite kasutusele võtta, kuid teatud määral rabedusega, mis õppimispõhisema lähenemisviisi korral võib ilmneda Tulevikus autodel ei ole, sest neil võib olla teatud tase tervet mõistust ja arusaamist maailma toimimisest. 

Lühiajalises perspektiivis võidab omamoodi kavandatud lähenemisviis – see juba võidab. See on Waymo ja Cruise of the World ja Wayveja mis iganes, seda nad teevad. Siis on olemas enesejuhitav õppimisviis, mis tõenäoliselt aitab insenertehnilisel lähenemisviisil edusamme teha. Kuid pikemas perspektiivis, mis võib nende ettevõtete jaoks liiga kaua oodata, oleks tõenäoliselt integreeritum autonoomne intelligentne sõidusüsteem.

ZDNet: Me ütleme, et enamiku investorite investeerimishorisont jääb kaugemale.

YL: See on õige. Seega on küsimus selles, kas inimesed kaotavad kannatuse või saavad raha otsa enne, kui sooritus saavutab soovitud taseme.

ZDNet: Kas on midagi huvitavat öelda selle kohta, miks valisite mõned mudelis valitud elemendid? Kuna tsiteerite Kenneth Craik [1943,Selgituse olemus] ja tsiteerite Brysoni ja Ho [1969, Rakendatud optimaalne kontroll] ja mind huvitab, miks te nende mõjudega alustasite, kui uskusite eriti, et need inimesed on saavutanud selle nii kaugele, kui nad olid teinud. Miks sa seal alustasid?

YL: Noh, ma ei usu, kindlasti olid neil kõik detailid naelutatud. Niisiis, Bryson ja Ho, see on raamat, mille lugesin tagasi aastal 1987, kui olin Torontos Geoffrey Hintoni järeldoktor. Kuid teadsin sellest töösuunast juba varem, kui kirjutasin doktorikraadi, ja lõin sisuliselt ühenduse optimaalse juhtimise ja tagasitõuke vahel. Kui sa tõesti tahaksid olla teine ​​​​Schmidhuber, siis ütleksid, et tegelikud backpropi leiutajad olid tegelikult optimaalse juhtimise teoreetikud Henry J. Kelley, Arthur Bryson ja võib-olla isegi Lev Pontryagin, kes on optimaalse kontrolli tagamise vene teoreetik. 50ndate lõpus. 

Niisiis, nad mõtlesid selle välja ja tegelikult näete selle juure, selle all olevat matemaatikat, Lagrangi mehaanikat. Nii et võite tegelikult minna tagasi Euleri ja Lagrange'i juurde ja leida selle hõngu nende Lagrange'i klassikalise mehaanika definitsioonist. Nii et optimaalse juhtimise kontekstis huvitas neid tüüpe põhiliselt rakettide trajektooride arvutamine. Tead, see oli varajane kosmoseajastu. Ja kui teil on raketi mudel, ütleb see teile, et siin on raketi olek hetkel t, ja siin on tegevus, mida ma kavatsen teha, nii et erinevat tüüpi tõukejõu ja ajamid, siin on raketi olek ajahetkel t + 1.

ZDNet: Olek-tegevuse mudel, väärtusmudel.

YL: See on õige, kontrolli alus. Nüüd saate simuleerida oma raketi tulistamist, kujutades ette käskude jada, ja seejärel on teil mõni kulufunktsioon, milleks on raketi kaugus sihtmärgist, kosmosejaamast või millest iganes see on. Ja siis mingi gradiendi laskumise teel saate aru saada, kuidas ma saan oma tegevuste järjestust värskendada nii, et mu rakett jõuaks sihtmärgile võimalikult lähedale. Ja see peab tulema signaalide ajas tagasi levitamisega. Ja see on tagasi-levi, gradient-tagasi paljundamine. Neid signaale nimetatakse Lagrangi mehaanikas konjugeeritud muutujateks, kuid tegelikult on need gradiendid. Niisiis, nad leiutasid backpropi, kuid nad ei mõistnud, et seda põhimõtet saab kasutada mitmeastmelise süsteemi väljaõpetamiseks, mis suudab teha mustrituvastust või midagi sellist. Seda mõisteti tegelikult alles võib-olla 70ndate lõpus, 80ndate alguses ja siis seda rakendati ja pandi tööle alles 80ndate keskpaigas. Olgu, see on koht, kus backprop sai omamoodi alguse, sest inimesed näitasid, et siin on paar koodirida, mille abil saate treenida närvivõrku, otsast lõpuni, mitmekihilist. Ja see tõstab Perceptroni piirangud. Ja jah, seal on ühendused optimaalse juhtimisega, kuid see on okei.

ZDNet: Nii et see on pikk tee öelda, et need mõjud, millega alustasite, läksid tagasi backprop-i ja see oli teie jaoks oluline lähtepunktina?

YL: Jah, aga ma arvan, et see, mille inimesed veidi unustasid, oli selle kallal 90ndatel või isegi 80ndatel üsna palju tööd, sealhulgas sellised inimesed nagu Michael Jordan [MIT ajuosakond ja kognitiivsed teadused] ja sellised inimesed, kes ei tegele enam närvivõrkudega, vaid ideega, et saate kasutada närvivõrke juhtimiseks ja võite kasutada klassikalisi ideid optimaalsest juhtimisest. Niisiis, sellised asjad, mida nimetatakse mudeli ennustavaks juhtimiseks, mida nüüd nimetatakse mudeli ennustavaks juhtimiseks, see idee, et saate simuleerida või ette kujutada toimingute jada tulemust, kui teil on hea mudel süsteemist, mida proovite juhtida. ja keskkonda, milles see on. Ja siis gradiendi laskumise abil saate sisuliselt – see ei ole õppimine, see on järeldus – välja mõelda, milline on parim toimingute jada, mis minu eesmärki minimeerib. Niisiis, varjatud muutujaga kulufunktsiooni kasutamine järelduste tegemiseks on minu arvates midagi, mille praegused suuremahulised närvivõrgud on unustanud. Kuid see oli pikka aega väga klassikaline masinõppe komponent. Seega kasutas seda tüüpi järeldusi iga Bayesi võrgu või graafiline mudel või tõenäosuslik graafiline mudel. Teil on mudel, mis fikseerib sõltuvused paljude muutujate vahel, teile öeldakse mõne muutuja väärtused ja seejärel peate järeldama ülejäänud muutujate kõige tõenäolisema väärtuse. See on järelduste põhiprintsiip graafilistes mudelites ja Bayesi võrkudes ja muudes asjades. Ja ma arvan, et see on põhimõtteliselt see, mida arutlemine, arutlemine ja planeerimine, seisnebki.

ZDNet: Sa oled bayeslane.

YL: Olen mittetõenäosuslik bayeslane. Ma tegin seda nalja varem. Ma olin tegelikult NeurIPSis paar aastat tagasi, ma arvan, et see oli 2018. või 2019. aastal ja mind püüdis videole bayesilane, kes küsis, kas ma olen bayeslane, ja ma vastasin: jah, ma olen bayeslane, aga ma Ma olen mittetõenäosuslik bayeslane, omamoodi energiapõhine bayeslane, kui soovite. 

ZDNet: Mis kindlasti kõlab nagu midagi Star Trek. Te mainisite selle artikli lõpus, et teie ettekujutuse realiseerimiseks kulub aastaid tõeliselt rasket tööd. Rääkige mulle, millest osa see töö praegu koosneb.

YL: Niisiis, ma selgitan lehes, kuidas te JEPA-d treenite ja ehitate. Ja kriteerium, mida ma pooldan, on mingil viisil maksimeerida teabesisu, mis väljavõetud esitustel sisendi kohta on. Ja siis teine ​​on ennustusvea minimeerimine. Ja kui teil on ennustajas latentne muutuja, mis võimaldab ennustajal olla mittedeterministlik, peate ka selle varjatud muutuja seadustama, minimeerides selle teabesisaldust. Niisiis, teil on nüüd kaks probleemi: kuidas maksimeerida mõne närvivõrgu väljundi teabesisu, ja teine ​​​​küsimus, kuidas minimeerida mõne varjatud muutuja teabesisu? Ja kui te neid kahte asja ei tee, kukub süsteem kokku. See ei õpi midagi huvitavat. See ei anna kõigele energiat, midagi sellist, mis ei ole hea sõltuvuse mudel. See on kokkuvarisemise ennetamise probleem, mida ma mainin. 

Ja ma ütlen kõigi asjade kohta, mida inimesed on kunagi teinud, kokkuvarisemise vältimiseks on ainult kaks meetodite kategooriat. Üks on kontrastsed meetodid ja teine ​​​​reguleeritud meetodid. Niisiis, see idee maksimeerida kahe sisendi esituste teabesisu ja minimeerida varjatud muutuja teabesisu, mis kuulub seadustatud meetoditesse. Kuid suur osa nende ühismanustamisarhitektuuride tööst kasutab kontrastseid meetodeid. Tegelikult on need praegu ilmselt kõige populaarsemad. Seega on küsimus selles, kuidas täpselt mõõta teabesisu nii, et saaksite optimeerida või minimeerida? Ja see on koht, kus asjad muutuvad keeruliseks, sest me ei tea tegelikult, kuidas teabesisu mõõta. Me saame seda ligikaudselt hinnata, me saame selle ülemise piiri, me saame teha selliseid asju. Kuid nad ei mõõda tegelikult teabesisu, mis tegelikult pole mingil määral isegi täpselt määratletud.

ZDNet: Kas see pole Shannoni seadus? Kas see pole infoteooria? Teil on teatud entroopia, hea entroopia ja halb entroopia ning hea entroopia on sümbolsüsteem, mis töötab, halb entroopia on müra. Kas seda kõike ei lahendanud Shannon?

YL: Sul on õigus, aga selle taga on suur viga. Teil on õigus selles mõttes, et kui teile tulevad andmed ja saate need kuidagi diskreetseteks sümboliteks kvantifitseerida ja seejärel mõõta iga sümboli tõenäosust, siis on nende sümbolite poolt edastatava teabe maksimaalne hulk summa üle võimalikud sümbolid Pi log Pi, eks? Kus Pi on sümboli tõenäosus mina — see on Shannoni entroopia. [Shannoni seadust sõnastatakse tavaliselt järgmiselt: H = – ∑ pi log pi.]

Siin on aga probleem: mis on Pi? See on lihtne, kui sümbolite arv on väike ja sümbolid on joonistatud iseseisvalt. Kui sümboleid ja sõltuvusi on palju, on see väga raske. Seega, kui teil on bittide jada ja eeldate, et bitid on üksteisest sõltumatud ja tõenäosus on võrdne ühe ja nulli või mis iganes vahel, saate entroopiat lihtsalt mõõta, pole probleemi. Aga kui asjad, mis teieni jõuavad, on kõrgmõõtmelised vektorid, nagu teate, andmeraamid või midagi sellist, mis on Pi? Mis on jaotus? Kõigepealt peate kvantiseerima selle ruumi, mis on kõrgmõõtmeline pidev ruum. Teil pole aimugi, kuidas seda õigesti kvantifitseerida. Võite kasutada k-means jne. Seda teevad inimesed video ja pildi tihendamisel. Kuid see on vaid ligikaudne. Ja siis tuleb teha eeldusi iseseisvuse kohta. Seega on selge, et videos ei ole järjestikused kaadrid sõltumatud. On sõltuvusi ja see kaader võib sõltuda teisest kaadrist, mida nägite tund aega tagasi ja mis oli pilt samast asjast. Nii et teate, te ei saa mõõta Pi. Mõõta Pi, peab teil olema masinõppesüsteem, mis õpib ennustama. Ja nii oletegi tagasi eelmise probleemi juurde. Seega saate teabe suurust sisuliselt vaid ligikaudselt hinnata. 

yann-lecun-sept-2022-6

"Küsimus on selles, kuidas täpselt mõõta teabesisu nii, et saaksite optimeerida või minimeerida?" ütleb LeCun. "Ja see on koht, kus asjad muutuvad keeruliseks, kuna me ei tea tegelikult, kuidas teabesisu mõõta." Parim, mida seni teha saab, on leida puhverserver, mis on "piisavalt hea meie soovitud ülesande jaoks".

Toon konkreetsema näite. Üks algoritmidest, millega oleme mänginud ja millest olen tükis rääkinud, on see asi, mida nimetatakse VICReg, dispersioon-invariantsus-kovariantsi seadustamine. See on eraldi dokumendis, mis avaldati ICLR-is ja see pandi arXivile umbes aasta enne, 2021. Ja selle idee on teabe maksimeerimine. Ja see idee tuli tegelikult minu rühma varasemast artiklist Barlow kaksikud. Maksimeerite närvivõrgust väljuva vektori teabesisu põhimõtteliselt eeldades, et muutujate vaheline ainus sõltuvus on korrelatsioon, lineaarne sõltuvus. Seega, kui eeldate, et ainus sõltuvus, mis on võimalik muutujapaaride või teie süsteemi muutujate vahel, on korrelatsioonid väärisesemete paaride vahel, mis on äärmiselt umbkaudne lähenemine, saate maksimeerida oma süsteemist väljuvat teabesisu. veendudes, et kõigil muutujatel on nullist erinev dispersioon – oletame, et dispersioon üks, pole vahet, mis see on – ja seejärel korreleerides need tagasi, sama protsess, mida nimetatakse valgendamiseks, pole ka see uus. Selle probleemiks on see, et muutujarühmade või isegi muutujapaaride vahel võivad olla äärmiselt keerulised sõltuvused, mis ei ole lineaarsed sõltuvused ja mida korrelatsioonides ei kuvata. Näiteks kui teil on kaks muutujat ja nende kahe muutuja kõik punktid asetsevad mingis spiraalis, on nende kahe muutuja vahel väga tugev sõltuvus, eks? Kuid tegelikult, kui arvutate nende kahe muutuja vahelise korrelatsiooni, pole need omavahel seotud. Niisiis, siin on näide, kus nende kahe muutuja teabesisu on tegelikult väga väike, see on ainult üks suurus, sest see on teie positsioon spiraalis. Need on dekorreleeritud, nii et arvate, et teil on nendest kahest muutujast palju teavet, kuigi tegelikult te seda ei tee, teil on ainult, teate, saate ennustada ühte muutujatest teise põhjal. See näitab, et meil on teabe sisu mõõtmiseks vaid väga ligikaudsed viisid.

ZDNet: Ja see on üks asi, mille kallal peate praegu sellega tegelema? See on suurem küsimus, kuidas me teame, millal me teabesisu maksimeerime ja minimeerime?

YL:  Või kas selleks kasutatav puhverserver on soovitud ülesande jaoks piisavalt hea. Tegelikult teeme seda masinõppes kogu aeg. Kulufunktsioonid, mida me minimeerime, ei ole kunagi need, mida me tegelikult minimeerida tahame. Näiteks tahad sa klassifitseerida, eks? Kulufunktsioon, mida soovite klassifikaatori treenimisel minimeerida, on klassifikaatori tehtud vigade arv. Kuid see on eristamatu ja kohutav kulufunktsioon, mida te ei saa minimeerida, sest teate, et muudate oma närvivõrgu kaalu, midagi ei muutu enne, kui üks nendest näidistest oma otsuse ümber pöörab ja seejärel hüppab. veas, positiivne või negatiivne.

ZDNet: Nii et teil on puhverserver, mis on objektiivne funktsioon, mille kohta saate kindlasti öelda, et me saame kindlasti selle asja gradiente voogada.

YL: See on õige. Nii et inimesed kasutavad seda ristentroopia kadu või SOFTMAXi, teil on sellele mitu nime, kuid see on sama asi. Ja see on põhimõtteliselt sujuv ligikaudne hinnang süsteemi tehtavate vigade arvule, kus silumine toimub põhimõtteliselt, võttes arvesse süsteemi igale kategooriale antud punktisummat.

ZDNet: Kas on midagi, mida me pole kajastanud ja mida soovite kajastada?

YL: Tõenäoliselt rõhutab see põhipunkte. Ma arvan, et tehisintellekti süsteemid peavad suutma arutleda ja protsess, mida ma propageerin, on eesmärgi minimeerimine mõne varjatud muutuja suhtes. See võimaldab süsteemidel planeerida ja põhjendada. Ma arvan, et peaksime tõenäosuslikust raamistikust loobuma, sest see on raskesti lahendatav, kui tahame teha selliseid asju nagu suuremõõtmeliste pidevate muutujate vaheliste sõltuvuste tabamine. Ja ma propageerin generatiivsetest mudelitest loobumist, sest süsteem peab pühendama liiga palju ressursse asjade ennustamiseks, mida on liiga raske ennustada ja mis võib-olla tarbivad liiga palju ressursse. Ja see on peaaegu kõik. Need on peamised sõnumid, kui soovite. Ja siis üldine arhitektuur. Siis on need spekulatsioonid teadvuse olemuse ja konfiguraatori rolli kohta, kuid see on tõesti spekulatsioon.

ZDNet: Järgmine kord jõuame selleni. Tahtsin sinult küsida, kuidas sa seda asja võrdled? Aga arvan, et oled praegu võrdlusuuringust veidi kaugemal?

YL: Mitte tingimata nii kaugel, omamoodi lihtsustatud versioonid. Saate teha seda, mida kõik teevad kontrolli- või tugevdamisõppes, st treenite asja mängima Atari mänge või midagi sellist või mõnda muud mängu, milles on ebakindlust.

ZDNet: Täname aja eest, Yann.

allikas