„Meta“ AI guru LeCunas: dauguma šiuolaikinių dirbtinio intelekto metodų niekada neprives prie tikro intelekto

yann-lecun-sept-2022-1

„Manau, kad dirbtinio intelekto sistemos turi sugebėti mąstyti“, – sako Yann LeCun, „Meta“ vyriausiasis AI mokslininkas. Šiandien populiarių dirbtinio intelekto metodų, tokių kaip „Transformeriai“, kurių daugelis remiasi jo paties novatorišku darbu šioje srityje, nepakaks. „Turite žengti žingsnį atgal ir pasakyti: „Gerai, mes pastatėme šias kopėčias, bet norime nukeliauti į mėnulį, ir nėra jokios galimybės, kad šios kopėčios mus ten nuves“, – sako LeCunas.

Yann LeCun, vyriausiasis AI mokslininkas „Meta Properties“, „Facebook“, „Instagram“ ir „WhatsApp“ savininko, tikriausiai pažymės daugybę savo srities žmonių. 

Birželio mėnesį paskelbus minties kūrinį „Open Review“ serveryjeLeCunas pateikė plačią metodo, kuris, jo manymu, žada pasiekti žmogaus lygio mašinose, apžvalgą. 

Numanoma, jei dokumente neišsakyta, teiginys, kad dauguma šiandieninių didelių AI projektų niekada negalės pasiekti šio žmogaus lygio tikslo.

Šį mėnesį vykusioje diskusijoje su ZDNet per „Zoom“ LeCunas aiškiai pasakė, kad į daugelį šiuo metu sėkmingiausių gilaus mokymosi tyrimų būdų jis žiūri labai skeptiškai.

„Manau, kad jie reikalingi, bet nepakankami“, – sakė Turingo apdovanojimo laureatas ZDNet savo bendraamžių užsiėmimų. 

Tai apima didelius kalbų modelius, pvz., Transformatoriumi pagrįstą GPT-3 ir panašius. Kaip tai apibūdina LeCunas, „Transformerio“ bhaktai tiki: „Mes viską simbolizuojame ir treniruojame milžiniškusmodeliai, leidžiantys daryti atskiras prognozes, ir kaip nors iš to išeis AI.

„Jie neklysta, – sako jis, – ta prasme, kad tai gali būti būsimos intelektualios sistemos sudedamoji dalis, bet manau, kad joje trūksta esminių dalių.

Taip pat: Meta AI šviestuvas LeCun tiria gilaus mokymosi energijos ribą

Tai stulbinanti kritika to, kas, atrodo, veikia, kyla iš mokslininko, kuris ištobulino konvoliucinių neuroninių tinklų naudojimą – praktinę techniką, kuri buvo neįtikėtinai produktyvi gilaus mokymosi programose. 

LeCun mato trūkumus ir apribojimus daugelyje kitų labai sėkmingų disciplinos sričių. 

Pastiprinimo mokymosi taip pat niekada nepakaks, teigia jis. Tyrėjai, tokie kaip Davidas Silveris iš „DeepMind“, sukūręs „AlphaZero“ programą, įvaldžiusią šachmatus, „Shogi“ ir „Go“, daugiausia dėmesio skiria programoms, kurios yra „labai pagrįstos veiksmais“, – pastebi LeCun, bet „dauguma mokymosi, mes to nedarome. Darykite tai iš tikrųjų imdamiesi veiksmų, mes tai darome stebėdami. 

62 metų Lecunas, žvelgdamas į dešimtmečių pasiekimų perspektyvą, vis dėlto išreiškia skubą susidurti su, jo manymu, akligatviais, kurių link daugelis gali skubėti, ir pabandyti nukreipti savo sritį ta kryptimi, kuria, jo manymu, viskas turėtų eiti. 

„Matome daug pretenzijų, ką turėtume daryti, kad stumtume į žmogaus lygio AI“, – sako jis. „Ir yra idėjų, kurios, mano manymu, yra klaidingos.

„Nesame taip, kad mūsų išmaniosios mašinos turėtų tiek sveiko proto, kiek katė“, – pastebi Lecun. „Taigi, kodėl gi nepradėjus nuo to? 

Jis atsisakė savo ankstesnio tikėjimo naudoti generuojamuosius tinklus, pavyzdžiui, nuspėti kitą vaizdo įrašo kadrą. „Tai buvo visiška nesėkmė“, – sako jis. 

LeCunas smerkia tuos, kuriuos jis vadina „religiniais tikimybininkais“, kurie „mano, kad tikimybių teorija yra vienintelė sistema, kuria galite paaiškinti mašininį mokymąsi“. 

Jis sako, kad grynai statistinis metodas yra sudėtingas. „Per daug reikalauti, kad pasaulio modelis būtų visiškai tikimybinis; mes nežinome, kaip tai padaryti“.

Ne tik akademikams, bet ir pramoniniam AI reikia giliai permąstyti, teigia LeCun. Savarankiškai vairuojančių automobilių minia, tokie startuoliai kaip „Wayve“, buvo „šiek tiek per optimistiški“, – sako jis, manydami, kad gali „išmesti duomenis“ dideliuose neuroniniuose tinkluose, „ir jūs galite išmokti beveik bet ką“.

„Žinote, aš manau, kad visiškai įmanoma, kad turėsime penkto lygio autonominius automobilius be sveiko proto“, – sako jis, turėdamas omenyje „ADAS“. pažangi pagalbos vairuotojui sistema Savarankiško vairavimo terminai, „bet tau teks susikurti velnią“.

Jis tiki, kad tokia per daug suprojektuota savarankiško vairavimo technologija bus kažkas tokio pat girgždančio ir trapi, kaip ir visos kompiuterinės regos programos, kurios paseno dėl gilaus mokymosi.

„Galų gale, bus labiau patenkintas ir galbūt geresnis sprendimas, apimantis sistemas, kurios geriau supranta, kaip veikia pasaulis.

Be to, LeCunas pateikia keletą gėdingų savo didžiausių kritikų, tokių kaip NYU profesorius Gary Marcusas – „jis niekada niekuo neprisidėjo prie AI“ – ir Jürgenas Schmidhuberis, Dalle Molle dirbtinio intelekto tyrimų instituto direktorius – „tai yra labai lengva padaryti vėliavų pasodinimą.

Be kritikos, svarbesnis LeCun akcentas yra tas, kad tam tikros pagrindinės problemos susiduria su visu AI, ypač informacijos matavimu.

„Turite žengti žingsnį atgal ir pasakyti: „Gerai, mes pastatėme šias kopėčias, bet norime patekti į mėnulį, ir jokiu būdu šios kopėčios mus ten nuves“, – sako LeCun, norėdamas paskatinti permąstyti. pagrindinių sąvokų. „Iš esmės, tai, ką aš čia rašau, yra tai, kad mums reikia statyti raketas, negaliu pateikti išsamios informacijos apie tai, kaip mes statome raketas, bet čia yra pagrindiniai principai.

Straipsnį ir LeCuno mintis interviu galima geriau suprasti perskaičius LeCuno interviu šių metų pradžioje su ZDNet kuriame jis pasisako už energija pagrįstą savarankišką mokymąsi kaip kelią į gilų mokymąsi. Šie apmąstymai suteikia supratimą apie esminį požiūrį į tai, ką jis tikisi sukurti kaip alternatyvą dalykams, kurie, jo teigimu, nepasieks finišo. 

Toliau pateikiama lengvai suredaguota interviu stenograma.

ZDNet: Mūsų pokalbio tema yra šis straipsnis „Kelias į autonominį mašinų intelektą“, kurio 0.9.2 versija yra išlikusi, taip?

Yann LeCun: Taip, aš laikau tai savotišku darbiniu dokumentu. Taigi, paskelbiau jį Open Review, laukdamas, kol žmonės pateiks komentarų ir pasiūlymų, galbūt papildomų nuorodų, o tada sukursiu pataisytą versiją. 

ZDNet: Matau, kad Juergenas Schmidhuberis jau pridėjo keletą komentarų prie „Open Review“.

YL: Na, taip, jis visada tai daro. Cituoju vieną iš jo straipsnių savo laikraštyje. Manau, kad argumentai, kuriuos jis išsakė socialiniuose tinkluose, kad iš esmės visa tai sugalvojo 1991 m., kaip ir kitais atvejais, tiesiog nėra tiesa. Aš turiu galvoje, tai padaryti labai lengvavėliavėlių sodinimas ir, kaip, be jokių eksperimentų, be jokios teorijos parašyti idėją, tiesiog pasiūlykite, kad galėtumėte tai padaryti taip. Bet, žinote, yra didelis skirtumas tarp tiesiog turėti idėją, tada priversti ją išspręsti žaislo problemą, tada priversti ją išspręsti tikrą problemą, o tada sukurti teoriją, rodančią, kodėl ji veikia, ir tada. ją dislokuojant. Yra visa grandinė, ir jo mokslinio kredito idėja yra ta, kad tai pirmasis žmogus, kuris, kaip žinote, turėjo tokią mintį, turėtų gauti visą nuopelną. Ir tai juokinga. 

ZDNet: Netikėkite viskuo, ką girdite socialiniuose tinkluose. 

YL: Turiu galvoje, kad pagrindinis dokumentas, kurį, pasak jo, turėčiau cituoti, neturi jokių pagrindinių minčių, apie kurias aš kalbu. Jis taip pat padarė su GAN ir kitais dalykais, kurie nepasirodė tiesa. Lengva padaryti vėliavėlių sodinimą, daug sunkiau įnešti indėlį. Ir, beje, šiame konkrečiame darbe aš aiškiai sakiau, kad tai nėra mokslinis darbas įprastine šio termino prasme. Tai labiau pozicijos dokumentas apie tai, kur šis dalykas turėtų eiti. Yra keletas idėjų, kurios gali būti naujos, bet dauguma jų nėra. Iš esmės aš nepretenduoju į jokį prioritetą daugumai to, ką rašiau tame dokumente.

yann-lecun-sept-2022-2

„LeCun“ tvirtina, kad mokymosi sustiprinimo taip pat niekada nepakaks. Tyrėjai, tokie kaip Davidas Silveris iš „DeepMind“, sukūręs „AlphaZero“ programą, kuri įvaldė šachmatus, „Shogi“ ir „Go“, yra „labai pagrįsti veiksmais“, – pastebi LeCun, bet „dauguma mokymosi dalykų mes to nedarome iš tikrųjų mokydami. veiksmus, mes tai darome stebėdami“. 

ZDNet: Ir galbūt tai yra gera vieta pradėti, nes man įdomu, kodėl dabar pasirinkote šį kelią? Kas jus paskatino apie tai pagalvoti? Kodėl norėjai tai parašyti?

YL: Na, taip, aš apie tai galvojau labai ilgai, apie kelią link žmogaus ar gyvūno lygio intelekto arba mokymosi ir galimybių. Be to, kalbėdamas apie visą šį dalyką buvau gana garsus, kad tiek prižiūrimo mokymosi, tiek sustiprinto mokymosi nepakanka, kad būtų galima pamėgdžioti gyvūnų ir žmonių mokymąsi. Aš tai darau septynerius ar aštuonerius metus. Taigi, tai nėra neseniai. Prieš daugelį metų turėjau pagrindinį pranešimą NeurIPS, kur aš tai išreiškiau, iš esmės, ir įvairios diskusijos, yra įrašų. Kodėl dabar rašyti referatą? Aš priėjau prie reikalo – [Google Brain tyrinėtojas] Geoffas Hintonas padarė kažką panašaus – turiu galvoje, jis labiau nei aš, matome, kad laikas bėga. Mes nesame jauni.

ZDNet: Šešiasdešimt yra naujas penkiasdešimt. 

YL: Tai tiesa, bet esmė ta, kad matome daug pretenzijų, ką turėtume daryti, kad stumtume pirmyn link žmogaus lygio AI. Ir yra idėjų, kurios, mano manymu, yra klaidingos. Taigi, viena mintis yra tokia: o, turėtume tiesiog pridėti simbolinį samprotavimą prie neuroninių tinklų. Ir aš nežinau, kaip tai padaryti. Taigi, galbūt tai, ką paaiškinau darbe, gali būti vienas iš būdų, kuris padarytų tą patį be aiškaus simbolio manipuliavimo. Tai toks tradiciškai pasaulio Gary Marcusesas. Gary Marcusas nėra AI žmogus, beje, jis yra psichologas. Jis niekada nieko neprisidėjo prie AI. Jis atliko tikrai gerą darbą eksperimentinės psichologijos srityje, bet niekada neparašė recenzuojamo darbo apie AI. Taigi, yra tie žmonės. 

Yra [DeepMind principo tyrinėtojas] Davidas Silversas iš pasaulio, kuris sako, žinote, užtenka atlygio, iš esmės viskas susiję su mokymu, tik reikia padaryti jį šiek tiek veiksmingesnį, gerai? Ir aš manau, kad jie neklysta, bet aš manau, kad būtini žingsniai, siekiant sustiprinti mokymąsi veiksmingiau, iš esmės pastiprintų mokymąsi būtų tarsi vyšnia ant torto. O pagrindinė trūkstama dalis yra išmokti, kaip veikia pasaulis, dažniausiai stebint be veiksmų. Sustiprinimo mokymasis yra labai pagrįstas veiksmais, jūs sužinosite dalykų apie pasaulį imdamiesi veiksmų ir matydami rezultatus.

ZDNet: Ir tai orientuota į atlygį.

YL: Jis orientuotas į atlygį ir taip pat į veiksmą. Taigi, jūs turite veikti pasaulyje, kad galėtumėte ką nors sužinoti apie pasaulį. Ir pagrindinis teiginys, kurį pateikiau straipsnyje apie savarankišką mokymąsi, yra tai, kad didžiąją dalį mokymosi mes darome ne iš tikrųjų imdamiesi veiksmų, o tai darome stebėdami. Ir tai labai neįprasta, ypač besimokantiems žmonėms, bet ir daugeliui psichologų ir pažinimo mokslininkų, kurie mano, kad veiksmas yra – aš nesakau, kad veiksmas nėra būtinas. is esminis. Bet aš manau, kad didžioji dalis to, ko mes išmokstame, daugiausia yra apie pasaulio struktūrą ir, žinoma, apima sąveiką, veiksmą, žaidimą ir panašius dalykus, tačiau didžioji dalis to yra stebėjimo.

ZDNet: Taip pat tuo pat metu pavyks pažymėti Transformerių žmones, pirmiausia kalbas. Kaip galite tai sukurti be kalbos? Jums gali pavykti pažymėti daugybę žmonių. 

YL: Taip, aš prie to pripratau. Taigi, taip, yra kalbantys pirmieji žmonės, kurie sako, žinote, intelektas yra kalba, intelekto substratas yra kalba, bla, bla, bla. Tačiau tai savotiškai atmeta gyvūnų intelektą. Žinote, nesame tiek, kad mūsų išmaniosios mašinos turėtų tiek sveiko proto, kiek katė. Taigi, kodėl gi nepradėjus nuo to? Kas leidžia katei suvokti supantį pasaulį, daryti gana protingus dalykus, planuoti ir panašiai, o šunims – dar geriau? 

Tada yra visi žmonės, kurie sako: „O, intelektas yra socialinis dalykas, tiesa? Esame protingi, nes kalbamės vienas su kitu ir keičiamės informacija, ir bla, bla, bla. Yra visokių nesocialių rūšių, kurios niekada nesusitinka su savo labai protingais tėvais, pavyzdžiui, aštuonkojai ar orangutanai.Aš turiu galvoje, kad jie [orangutanai] tikrai yra mokomi savo motinos, bet jie nėra socialūs gyvūnai. 

Tačiau kita žmonių kategorija, kurią galėčiau pažymėti, yra žmonės, kurie sako, kad mastelio pakanka. Taigi, iš esmės, mes tiesiog naudojame milžiniškus transformatorius, mokome juos naudotis multimodaliniais duomenimis, kurie apima, žinote, vaizdo įrašą, tekstą, bla, bla, bla. Mes, savotiškai, suakmenėjameviskas, ir viską ženklinti, o tada treniruoti milžiniškąmodeliai, leidžiantys daryti atskiras prognozes, ir kažkaip iš to atsiras AI. Jie neklysta ta prasme, kad tai gali būti būsimos intelektualios sistemos sudedamoji dalis. Bet manau, kad trūksta esminių dalių. 

Yra dar viena žmonių kategorija, kurią pažymėsiu šiuo dokumentu. Ir tai tikimybininkai, religiniai tikimybininkai. Taigi žmonės, kurie mano, kad tikimybių teorija yra vienintelė sistema, kurią galite naudoti paaiškindami mašininį mokymąsi. Ir kaip bandžiau paaiškinti kūrinyje, iš esmės per daug reikalauti, kad pasaulio modelis būtų visiškai tikimybinis. Mes nežinome, kaip tai padaryti. Yra skaičiavimo sudėtingumas. Taigi siūlau atsisakyti visos šios minties. Ir, žinoma, žinote, tai yra didžiulis ne tik mašininio mokymosi, bet ir visos statistikos ramstis, kuris, kaip teigiama, yra įprastas mašininio mokymosi formalizmas. 

Kitas dalykas - 

ZDNet: Jūs esate ant ritinio…

YL: – yra tai, kas vadinama generatyviniais modeliais. Taigi, mintis, kad jūs galite išmokti nuspėti ir galbūt daug sužinoti apie pasaulį numatydami. Taigi, pateikiu jums vaizdo įrašo dalį ir prašau sistemos nuspėti, kas nutiks toliau vaizdo įraše. Ir galiu paprašyti jūsų nuspėti tikrus vaizdo kadrus su visomis detalėmis. Bet aš ginčijuosi dėl to, kad iš tikrųjų to per daug klausti ir per daug sudėtinga. Ir tai yra kažkas, dėl ko aš pakeičiau savo nuomonę. Maždaug prieš dvejus metus aš propagavau tai, ką aš vadinu latentinių kintamųjų generatyviniais modeliais, modeliais, kurie nuspėja, kas nutiks toliau, arba trūkstamą informaciją, galbūt pasitelkus latentinį kintamąjį, jei prognozės neįmanoma. deterministinis. Ir aš atsisakiau šito. Priežastis, dėl kurios aš to atsisakiau, yra pagrįsta empiriniais rezultatais, kai žmonės bandė taikyti, rūšiuoti, numatymu ar rekonstrukcija pagrįstą mokymą, tokio tipo, kuris naudojamas BERT.ir didelių kalbų modelių, jie bandė tai pritaikyti vaizdams, ir tai buvo visiška nesėkmė. Ir priežastis, kodėl tai visiškai nepavyko, vėlgi yra dėl tikimybių modelių apribojimų, kai gana lengva numatyti atskirus žetonus, pvz., žodžius, nes galime apskaičiuoti visų žodyno žodžių tikimybių pasiskirstymą. Tai lengva. Bet jei paprašytume sistemos sudaryti tikimybių pasiskirstymą visuose įmanomuose vaizdo kadruose, mes neįsivaizduojame, kaip jį parametruoti, arba turime idėją, kaip jį parametruoti, bet nežinome, kaip jį normalizuoti. Jis susiduria su sunkiai įveikiama matematinė problema, kurios mes nežinome, kaip išspręsti. 

yann-lecun-sept-2022-3

„Nesame taip, kad mūsų išmaniosios mašinos turėtų tiek sveiko proto, kiek katė“, – pastebi Lecun. „Taigi, kodėl gi nepradėjus nuo to? Kas leidžia katei suvokti aplinkinį pasaulį, daryti gana protingus dalykus, planuoti ir panašiai, o šunims dar geriau?

Taigi, todėl sakau, kad atsisakykime tikimybių teorijos arba tokių dalykų sistemos, silpnesnės, energija pagrįstų modelių. Aš taip pat pasisakiau už tai dešimtmečius, todėl tai nėra naujas dalykas. Tačiau tuo pat metu atsisakoma generatyvinių modelių idėjos, nes pasaulyje yra daug dalykų, kurie nėra suprantami ir nenuspėjami. Jei esate inžinierius, vadinate tai triukšmu. Jei esate fizikas, vadinate tai šiluma. Ir jei esate mašininio mokymosi žmogus, vadinate tai, žinote, nesvarbiomis detalėmis ar dar kaip.

Taigi, pavyzdys, kurį naudojau straipsnyje arba kalbėdamas, yra toks: jūs norite pasaulio nuspėjimo sistemos, kuri padėtų savarankiškai važiuojančiame automobilyje, tiesa? Jis nori iš anksto nuspėti visų kitų automobilių trajektorijas, kas nutiks kitiems objektams, kurie gali judėti, pėstiesiems, dviračiams, vaikučiui, bėgančiam paskui futbolo kamuolį, ir panašiai. Taigi, visokių dalykų apie pasaulį. Bet ribojasi su keliu, gali būti medžių, o šiandien pučia vėjas, todėl lapai slenka vėjyje, o už medžių yra tvenkinys, o tvenkinyje raibuliuoja. Ir tai iš esmės yra nenuspėjami reiškiniai. Ir jūs nenorite, kad jūsų modelis išleistų daug išteklių, numatydamas tuos dalykus, kuriuos sunku nuspėti ir kurie nėra svarbūs. Todėl aš pasisakau už bendrą įterpimo architektūrą, tuos dalykus, kai kintamasis, kurį bandote modeliuoti, nebando jo nuspėti, bandote jį modeliuoti, bet jis eina per kodavimo įrenginį ir šis koduotuvas gali pašalinti daug nereikšmingų arba pernelyg sudėtingų įvesties detalių – iš esmės lygiavertis triukšmui.

ZDNet: Anksčiau šiais metais aptarėme energija pagrįstus modelius JEPA ir H-JEPA. Jei teisingai suprantu, manau, kad jūs randate žemos energijos tašką, kuriame šios dvi prognozės apie X ir Y įterpimus yra labiausiai panašios, o tai reiškia, kad jei medyje yra balandis, o medyje yra kažkas. scenos fonas, tai gali būti ne esminiai taškai, dėl kurių šie įterpimai yra arti vienas kito.

YL: Teisingai. Taigi, JEPA architektūra iš tikrųjų bando rasti kompromisą, kompromisą tarp atvaizdų, kurie yra maksimaliai informatyvūs apie įvestis, bet taip pat nuspėjami vienas nuo kito su tam tikru tikslumo ar patikimumo lygiu, išgavimo. Jis randa kompromisą. Taigi, jei ji turi pasirinkimą: išleisti daug išteklių, įskaitant lapų judėjimo detales, ir tada modeliuoti dinamiką, kuri nuspręs, kaip po sekundės judės lapai, arba tiesiog numesti juos ant grindų Tiesiog iš esmės paleidus Y kintamąjį per prognozuotoją, kuris pašalina visas tas detales, tikriausiai jis tiesiog pašalins, nes jį tiesiog per sunku modeliuoti ir užfiksuoti.

ZDNet: Stebina vienas dalykas, kad jūs buvote puikus teiginio „Tai veikia, vėliau išsiaiškinsime termodinamikos teoriją, kad tai paaiškintume“. Čia jūs laikotės požiūrio: „Nežinau, kaip mes būtinai tai išspręsime, bet noriu pateikti keletą idėjų apie tai pagalvoti“, o galbūt net priartėjote prie teorijos ar hipotezės. mažiausiai. Tai įdomu, nes daug žmonių išleidžia daug pinigų dirbdami su automobiliu, kuris mato pėsčiąjį, nepaisant to, ar automobilis turi sveiko proto. Ir aš įsivaizduoju, kad kai kurie iš tų žmonių nebus pažymėti varnele, bet jie sakys: „Tai gerai, mums nerūpi, jei tai neturi sveiko proto, mes sukūrėme modeliavimą, modeliavimas yra nuostabus, ir toliau tobulėsime, toliau didinsime modeliavimo mastelį. 

Taigi įdomu, kad dabar galite pasakyti: žengkime žingsnį atgal ir pagalvokime, ką darome. Ir pramonė sako, kad mes tik didinsime mastelį, mastelį, mastelį, mastelį, nes tas švaistiklis tikrai veikia. Turiu omenyje, kad GPU puslaidininkinis švaistiklis tikrai veikia.

YL: Yra, pavyzdžiui, penki klausimai. Taigi, turiu galvoje, mastelio keitimas yra būtinas. Aš nekritikuoju to, kad turėtume didinti mastelį. Turėtume mastelį. Tie neuroniniai tinklai gerėja, kai didėja. Nėra jokių abejonių, kad turėtume padidinti. Ir tie, kurie turės tam tikrą sveiko proto lygį, bus dideli. Aš manau, kad to niekaip neapeiti. Taigi mastelio keitimas yra geras, būtinas, bet nepakankamas. Būtent tai aš ir sakau. Tai ne tik mastelio keitimas. Tai pirmas taškas. 

Antras dalykas, ar teorija pirmoje vietoje ir panašiai. Taigi, manau, kad yra sąvokų, kurios yra pirmiausia, kad reikia žengti žingsnį atgal ir pasakyti: gerai, mes pastatėme šias kopėčias, bet mes norime patekti į mėnulį ir jokiu būdu šios kopėčios mus ten nuves. Taigi, iš esmės, ką aš čia rašau, mums reikia statyti raketas. Negaliu pateikti išsamios informacijos apie tai, kaip statome raketas, bet čia yra pagrindiniai principai. Ir aš nerašau teorijos, bet tai bus raketa, gerai? Ar kosminis liftas ar dar kas. Galime neturėti visų technologijų detalių. Mes stengiamės, kad kai kurie iš tų dalykų veiktų, pavyzdžiui, aš dirbau su JEPA. Jungtinis įterpimas tikrai gerai veikia atpažįstant vaizdą, tačiau naudojant jį pasaulio modeliui išmokyti, kyla sunkumų. Dirbame ties tuo, tikimės, kad tai pavyks soon, tačiau ten galime susidurti su tam tikromis kliūtimis, kurių galbūt neįveiksime. 

Tada dokumente yra pagrindinė mintis apie samprotavimus: jei norime, kad sistemos galėtų planuoti, o tai galima įsivaizduoti kaip paprastą samprotavimo formą, jos turi turėti latentinius kintamuosius. Kitaip tariant, dalykai, kurių neapskaičiuoja joks neuroninis tinklas, bet dalykai, kurie yra – kurių vertė daroma išvada, kad būtų sumažinta kokia nors tikslinė funkcija, tam tikra išlaidų funkcija. Tada galite naudoti šią išlaidų funkciją, kad pakeistumėte sistemos elgesį. Ir tai visai ne nauja idėja, tiesa? Tai labai klasikinis, optimalus valdymas, kurio pagrindas siekia šeštojo dešimtmečio pabaigą, šeštojo dešimtmečio pradžią. Taigi, čia nepretenduojant į jokį naujumą. Tačiau aš sakau, kad tokio tipo išvados turi būti dalis išmaniosios sistemos, kuri gali planuoti ir kurios elgesys gali būti nurodytas ar kontroliuojamas ne fiksuotu elgesiu, ne imitacijos linkimu, o objektyvia funkcija, skatina elgesį – nebūtinai skatina mokytis, bet skatina elgesį. Žinote, mūsų smegenyse tai yra, ir kiekvienas gyvūnas turi vidinę kainą arba vidinę motyvaciją. Tai verčia devynių mėnesių kūdikius norėti atsistoti. Kaina būti laimingam atsistojus, šis sąnaudų funkcijos terminas yra susietas. Tačiau tai, kaip atsistoti, yra mokymasis.

yann-lecun-sept-2022-4

„Mastelio keitimas yra geras, būtinas, bet nepakankamas“, – sako LeCun apie milžiniškus kalbų modelius, tokius kaip GPT-3 veislės transformatoriumi pagrįstos programos. „Transformerio“ bhaktai tiki: „Mes viską ženkliname ir treniruojame milžiniškusmodeliai, leidžiantys daryti atskiras prognozes, ir kaip nors iš to išeis AI... bet manau, kad trūksta esminių dalių.

ZDNet: Norint užbaigti šį dalyką, didžioji dalis giliai besimokančios bendruomenės atrodo gerai, kad imasi to, kas neturi sveiko proto. Atrodo, kad jūs čia gana aiškiai argumentuojate, kad tam tikru momentu tai tampa aklaviete. Kai kurie žmonės sako, kad mums nereikia autonominio automobilio su sveiku protu, nes tai padarys mastelio keitimas. Atrodo, kad jūs sakote, kad nedera tiesiog eiti tuo keliu?

YL: Žinote, manau, kad visiškai įmanoma, kad turėsime penkto lygio autonominius automobilius be sveiko proto. Tačiau šio požiūrio problema, tai bus laikina, nes jums teks susikurti pragarą. Taigi, žinote, sudarykite viso pasaulio žemėlapius, susiekite įvairius konkrečius kampinius atvejus, surinkite pakankamai duomenų, kad turėtumėte visas keistas situacijas, su kuriomis galite susidurti keliuose, bla, bla, bla. Ir aš spėju, kad turėdami pakankamai investicijų ir laiko, galite tiesiog susitvarkyti. Tačiau galiausiai bus patenkintas ir galbūt geresnis sprendimas, apimantis sistemas, kurios geriau supranta, kaip veikia pasaulis, ir turi tam tikrą lygį, kurį vadiname sveiku protu. Tai nebūtinai turi būti žmogaus lygmens sveikas protas, o tam tikros rūšies žinios, kurias sistema gali įgyti stebėdama, bet ne stebėdama, kas vairuoja, tiesiog stebint daiktus, kurie juda ir daug supranta apie pasaulį, kurdama pagrindą. žinių apie tai, kaip veikia pasaulis, be to, galite išmokti vairuoti. 

Leiskite paimti istorinį to pavyzdį. Klasikinė kompiuterinė vizija buvo pagrįsta daugybe laidų, sukonstruotų modulių, ant kurių jūs turėtumėte savotiškai ploną mokymosi sluoksnį. Taigi 2012 m. „AlexNet“ nugalėjo medžiaga iš esmės turėjo pirmąjį etapą, savotiškus, rankų darbo funkcijų ištraukimus, pvz., SIFT [Scale-Invariant Feature Transform (SIFT), klasikinė regėjimo technika, skirta atpažinti svarbiausius objektus vaizde] ir HOG [Orientuotų gradientų histograma, kita klasikinė technika] ir įvairūs kiti dalykai. Ir tada antrasis, savotiškai, vidutinio lygio funkcijų sluoksnis, pagrįstas funkcijų branduoliais ir bet kuo, ir kažkoks neprižiūrimas metodas. Ir tada įdedate paramos vektorių mašiną arba gana paprastą klasifikatorių. Ir tai buvo, savotiškai, standartinis dujotiekis nuo 2000-ųjų vidurio iki 2012 m. Ir tai buvo pakeista nuo galo iki galo konvoliuciniais tinklais, kur nieko to nesujungiate, tiesiog turite daug duomenų, ir jūs mokote dalyką nuo galo iki galo, tai yra požiūris, kurį propagavau ilgą laiką, bet žinote, iki tol jis nebuvo praktiškas didelėms problemoms spręsti. 

Panaši istorija buvo kalbant apie kalbos atpažinimą, kai vėl buvo atlikta daug išsamios inžinerijos, kaip iš anksto apdoroti duomenis, išgauti masinio masto cepstrumą [atvirkštinė greitojo Furjė transformacijos signalo apdorojimo forma] ir tada. Jūs turite paslėptus Markovo modelius su tam tikra, iš anksto nustatyta architektūra, bla, bla, bla, su Gausų mišiniu. Taigi, tai šiek tiek panaši architektūra kaip vizija, kai turite rankomis sukurtą priekinę dalį, o tada šiek tiek neprižiūrimą, treniruojamą vidurinį sluoksnį, o tada prižiūrimą sluoksnį viršuje. Ir dabar tai iš esmės buvo sunaikinta nuo galo iki galo neuronų tinklų. Taigi aš matau kažką panašaus, kai bandau išmokti visko, bet jūs turite turėti tinkamą pirmenybę, tinkamą architektūrą, tinkamą struktūrą.

yann-lecun-sept-2022-5

Savarankiškai vairuojančių automobilių minia, tokie startuoliai kaip „Waymo“ ir „Wayve“, buvo „šiek tiek per optimistiškai nusiteikę“, – sako jis, manydami, kad jie gali „išmesti duomenis ir išmokti beveik bet ką“. Įmanomi 5 ADAS lygio savarankiškai važiuojantys automobiliai, „tačiau jums teks susikurti pragarą“ ir jie bus „trapūs“ kaip ankstyvieji kompiuterinio matymo modeliai.

ZDNet: Jūs sakote, kad kai kurie žmonės bandys pritaikyti tai, kas šiuo metu netinka giliam mokymuisi, pavyzdžiui, pramonėje, ir pradės kurti kažką, kas paseno kompiuterinėje vizijoje?

YL: Teisingai. Iš dalies dėl to, kad žmonės, dirbantys autonominio vairavimo srityje, per pastaruosius kelerius metus buvo per daug optimistiški, nes, žinote, jūs turite tokius bendrus dalykus, tokius kaip konvoliuciniai tinklai ir transformatoriai, todėl galite mesti duomenis. , ir jis gali išmokti beveik bet ką. Taigi, jūs sakote: „Gerai, aš turiu šios problemos sprendimą. Pirmiausia sukuriate demonstracinę versiją, kurioje automobilis kelias minutes važiuoja pats, niekam nepakenkdamas. Ir tada supranti, kad yra daug kampinių atvejų, ir bandai nubrėžti kreivę, kaip man geriau sekasi, kai padvigubinau treniruočių komplektą, ir supranti, kad niekada ten nepasieksi, nes yra visokių kampinių atvejų. . Ir jūs turite turėti automobilį, kuris sukeltų mirtiną avariją rečiau nei kas 200 milijonų kilometrų, tiesa? Tai ką darai? Na, tu eini dviem kryptimis. 

Pirma kryptis – kaip sumažinti duomenų, reikalingų mano sistemai mokytis, kiekį? Ir čia atsiranda savarankiškas mokymasis. Taigi daugelis savarankiškai vairuojančių automobilių drabužių labai domisi savarankiškai prižiūrimu mokymusi, nes tai būdas vis dar naudoti milžiniškus priežiūros duomenų kiekius imitaciniam mokymuisi, bet pagerinti našumą išankstinis mokymas, iš esmės. Ir tai dar ne visai išsisklaidė, bet pasiseks. Ir tada yra kitas variantas, kurį pasirinko dauguma šiuo metu labiau pažengusių įmonių, t. t tvarkyti, todėl mes tik suprojektuosime sistemas, kurios pasirūpins tais kampiniais atvejais ir, iš esmės, traktuos jas kaip specialius atvejus, sujungs valdymą, o tada sujungs daug pagrindinio elgesio specialiose situacijose. Ir jei turite pakankamai didelę inžinierių komandą, galite tai padaryti. Tačiau tai užtruks daug laiko ir galiausiai jis vis tiek bus šiek tiek trapus, galbūt pakankamai patikimas, kad galėtumėte jį panaudoti, tačiau su tam tikru trapumo lygiu, kuris, taikant labiau mokymusi pagrįstą požiūrį, gali atsirasti ateityje automobiliai neturės, nes gali turėti tam tikrą sveiko proto ir supratimo apie tai, kaip veikia pasaulis, lygį. 

Trumpuoju laikotarpiu nugalės savotiškas suprojektuotas požiūris – jis jau laimi. Tai „Waymo“ ir „Cruise of the world“ bei „Wayve“.ir kaip ten bebūtų, tai jie daro. Tada yra savarankiško mokymosi metodas, kuris tikriausiai padės inžineriniam metodui pasiekti pažangą. Tačiau ilgainiui, kurio toms įmonėms gali laukti per ilgai, tikriausiai būtų labiau integruota autonominė išmaniojo vairavimo sistema.

ZDNet: Sakome, už daugumos investuotojų investicijų horizonto.

YL: Teisingai. Taigi, kyla klausimas, ar žmonės praras kantrybę, ar pritrūks pinigų, kol pasirodymas nepasieks norimo lygio.

ZDNet: Ar galima ką nors įdomaus pasakyti apie tai, kodėl pasirinkote kai kuriuos modelio elementus? Kadangi jūs cituojate Kennethą Craiką [1943 m.Paaiškinimo prigimtis], o jūs cituojate Brysoną ir Ho [1969 m. Taikoma optimali kontrolė], ir man smalsu, kodėl tu pradėjai nuo šių įtakų, jei ypač tikėjai, kad šie žmonės tai padarė tiek, kiek jie padarė. Kodėl ten pradėjai?

YL: Na, tikrai nemanau, kad jie turėjo visas detales. Taigi, Bryson ir Ho, tai knyga, kurią perskaičiau dar 1987 m., kai Toronte dirbau su Geoffrey Hintonu. Bet aš žinojau apie šią darbo kryptį iš anksto, kai rašiau daktaro laipsnį, ir iš esmės susiejau optimalų valdymą ir atbulinį stovą. Jei tikrai norėtumėte būti, žinote, kitu Schmidhuberiu, sakytumėte, kad tikrieji backprop išradėjai iš tikrųjų buvo optimalaus valdymo teoretikai Henry J. Kelley, Arthuras Brysonas ir galbūt net Levas Pontryaginas, kuris yra rusų optimalios kontrolės teoretikas. šeštojo dešimtmečio pabaigoje. 

Taigi, jie tai išsiaiškino, ir iš tikrųjų jūs iš tikrųjų galite pamatyti to, po ja esančios matematikos, šaknį yra Lagranžo mechanika. Taigi, tiesą sakant, galite grįžti prie Eulerio ir Lagrange ir savotiškai rasti šio dvelksmo jų Lagrango klasikinės mechanikos apibrėžime. Taigi, optimalaus valdymo kontekste šie vaikinai iš esmės domėjosi raketų trajektorijų skaičiavimu. Žinote, tai buvo ankstyvasis kosmoso amžius. Ir jei turite raketos modelį, jis jums pasakys, kokia yra raketos būsena tuo metu t, o štai veiksmas, kurį ketinu imtis, taigi, įvairių rūšių trauka ir pavaros, štai kokia raketos būsena tuo metu t + 1.

ZDNet: Būsenos-veiksmo modelis, vertybinis modelis.

YL: Teisingai, kontrolės pagrindas. Taigi, dabar galite imituoti savo raketos šaudymą įsivaizduodami komandų seką, tada turėsite tam tikrą išlaidų funkciją, kuri yra raketos atstumas iki jos taikinio, kosminės stoties ar bet ko. Ir tada tam tikru gradiento nusileidimu galite išsiaiškinti, kaip galiu atnaujinti savo veiksmų seką, kad mano raketa iš tikrųjų priartėtų prie taikinio. Ir tai turi įvykti atgaline tvarka sklindančiais signalais atgal. Ir tai yra atgalinis sklidimas, gradientas atgal. Tie signalai Lagrango mechanikoje vadinami konjuguotais kintamaisiais, bet iš tikrųjų jie yra gradientai. Taigi, jie išrado backpropą, bet nesuvokė, kad šiuo principu galima išmokyti kelių pakopų sistemą, galinčią atpažinti šablonus ar panašiai. Tai buvo realiai suvokta tik gal aštuntojo dešimtmečio pabaigoje, devintojo dešimtmečio pradžioje, o tada iš tikrųjų nebuvo įgyvendinta ir pradėta veikti iki devintojo dešimtmečio vidurio. Gerai, tai yra ta vieta, kur backprop tikrai, savotiškai, išaugo, nes žmonės parodė, kad čia yra kelios kodo eilutės, kuriomis galite išmokyti neuroninį tinklą nuo galo iki galo, daugiasluoksnį. Ir tai panaikina Perceptron apribojimus. Taip, yra sąsajų su optimaliu valdymu, bet tai gerai.

ZDNet: Taigi, tai ilgas būdas pasakyti, kad ši įtaka, su kuria pradėjote, grįžo į backpropą, ir tai buvo svarbus atspirties taškas?

YL: Taip, bet aš manau, kad tai, ką žmonės šiek tiek pamiršo, buvo nemažai darbo su tuo, žinote, 90 ar net devintajame dešimtmetyje, įskaitant tokius žmones kaip Michaelas Jordanas [MIT Dept. of Brain ir pažinimo mokslai] ir tokie žmonės, kurie nebekuria neuroninių tinklų, o minties, kad valdymui galite naudoti neuroninius tinklus, o galite naudoti klasikines optimalaus valdymo idėjas. Taigi, tokie dalykai kaip tai, kas vadinama modelio nuspėjamuoju valdymu, kas dabar vadinama modelio nuspėjamuoju valdymu, ši idėja, kad galite imituoti arba įsivaizduoti veiksmų sekos rezultatą, jei turite gerą sistemos, kurią bandote valdyti, modelį. ir aplinką, kurioje jis yra. Ir tada, nusileidus gradientu, iš esmės – tai ne mokymasis, o išvados – galite išsiaiškinti, kokia yra geriausia veiksmų seka, kuri sumažins mano tikslą. Taigi, sąnaudų funkcijos su latentiniu kintamuoju naudojimas išvadoms daryti, manau, yra tai, ką dabartiniai didelio masto neuroniniai tinklai pamiršo. Tačiau ilgą laiką tai buvo labai klasikinis mašininio mokymosi komponentas. Taigi kiekvienas Bajeso tinklas arba grafinis modelis arba tikimybinis grafinis modelis naudojo tokio tipo išvadas. Turite modelį, kuris fiksuoja priklausomybes tarp daugybės kintamųjų, jums nurodoma kai kurių kintamųjų reikšmė, o tada turite nustatyti labiausiai tikėtiną likusių kintamųjų reikšmę. Tai yra pagrindinis išvados principas grafiniuose modeliuose ir Bajeso tinkluose ir panašiuose dalykuose. Ir aš manau, kad iš esmės tai turėtų būti samprotavimas, samprotavimas ir planavimas.

ZDNet: Jūs esate spinta Bayesian.

YL: Aš esu netikimybinis Bajesas. Aš tai juokavau anksčiau. Tiesą sakant, aš buvau NeurIPS prieš keletą metų, manau, tai buvo 2018 ar 2019 m., ir mane užfiksavo vaizdo įraše vienas Bajesas, kuris paklausė, ar aš esu Bajesas, ir aš atsakiau: Taip, aš esu Bajesas, bet aš Esu netikimybinis Bajesas, savotiškai energetinis Bajesas, jei norite. 

ZDNet: Kuris tikrai skamba kaip kažkas iš "star Trek". Šio dokumento pabaigoje minėjote, kad prireiks metų tikrai sunkaus darbo, kad įgyvendintumėte tai, ką įsivaizduojate. Papasakokite apie tai, iš ko šiuo metu susideda kai kurie darbai.

YL: Taigi, aš paaiškinu, kaip jūs mokote ir kuriate JEPA. Kriterijus, už kurį aš pasisakau, yra tam tikras būdas maksimaliai padidinti informacijos turinį, kurį išgaunami atvaizdai turi apie įvestį. Ir tada antrasis yra numatymo klaidos sumažinimas. Ir jei prognozuotoje turite latentinį kintamąjį, kuris leidžia prognozuotojui būti nedeterministiniam, turite sureguliuoti ir šį latentinį kintamąjį, sumažindami jo informacijos turinį. Taigi, dabar turite dvi problemas: kaip maksimaliai padidinti kai kurių neuroninio tinklo išvesties informacijos turinį, o kita – kaip sumažinti kai kurių latentinių kintamųjų informacijos turinį? Ir jei šių dviejų dalykų nepadarysite, sistema žlugs. Nieko įdomaus taip ir neišmoksi. Tai duos nulį energijos viskam, kažkas panašaus, o tai nėra geras priklausomybės modelis. Tai yra žlugimo prevencijos problema, kurią miniu. 

Ir aš sakau apie viską, ką žmonės kada nors padarė, yra tik dviejų kategorijų būdai, kaip išvengti žlugimo. Vienas iš jų yra kontrastiniai metodai, o kitas – tie sureguliuoti metodai. Taigi ši idėja maksimaliai padidinti dviejų įėjimų atvaizdų informacijos turinį ir sumažinti latentinio kintamojo informacijos turinį, kuri priklauso sureguliuotiems metodams. Tačiau daugelis darbų tose bendros įterpimo architektūrose naudoja kontrastinius metodus. Tiesą sakant, jie šiuo metu yra patys populiariausi. Taigi, kyla klausimas, kaip tiksliai išmatuojate informacijos turinį taip, kad galėtumėte jį optimizuoti arba sumažinti? Ir čia viskas tampa sudėtinga, nes iš tikrųjų nežinome, kaip išmatuoti informacijos turinį. Mes galime tai apytiksliai, galime nustatyti viršutinę ribą, galime daryti panašius dalykus. Tačiau jie iš tikrųjų nematuoja informacijos turinio, kuris iš tikrųjų tam tikru mastu net nėra tiksliai apibrėžtas.

ZDNet: Ar tai ne Šenono dėsnis? Ar tai ne informacijos teorija? Jūs turite tam tikrą entropijos kiekį, gerą entropiją ir blogą entropiją, o gera entropija yra simbolių sistema, kuri veikia, o bloga entropija yra triukšmas. Ar ne viską išsprendė Šenonas?

YL: Jūs teisus, bet už to slypi didelis trūkumas. Jūs teisus ta prasme, kad jei turite duomenų ir galite kažkaip kvantuoti duomenis į atskirus simbolius, o tada išmatuoti kiekvieno iš tų simbolių tikimybę, tada didžiausias informacijos kiekis, kurį perduoda tie simboliai, yra galimų simbolių suma Pi log Pi, tiesa? Kur Pi yra simbolio tikimybė aš - tai Šenono entropija. [Šenono dėsnis paprastai formuluojamas kaip H = – ∑ pi log pi.]

Tačiau čia yra problema: kas yra Pi? Tai lengva, kai simbolių skaičius yra mažas, o simboliai brėžiami atskirai. Kai yra daug simbolių ir priklausomybių, tai labai sunku. Taigi, jei turite bitų seką ir manote, kad bitai yra nepriklausomi vienas nuo kito, o tikimybė yra lygi nuo vieno iki nulio arba bet ko, tuomet galite lengvai išmatuoti entropiją, be problemų. Bet jei jums ateinantys dalykai yra didelės dimensijos vektoriai, pavyzdžiui, duomenų rėmeliai ar kažkas panašaus, kas yra Pi? Kas yra paskirstymas? Pirmiausia turite kiekybiškai įvertinti tą erdvę, kuri yra didelė, ištisinė erdvė. Jūs neįsivaizduojate, kaip tinkamai tai įvertinti. Galite naudoti k-means ir tt Tai yra tai, ką žmonės daro glaudindami vaizdo įrašus ir vaizdus. Bet tai tik apytikslis rodiklis. Ir tada jūs turite daryti nepriklausomybės prielaidas. Taigi aišku, kad vaizdo įraše vienas po kito einantys kadrai nėra nepriklausomi. Yra priklausomybių, ir tas kadras gali priklausyti nuo kito kadro, kurį matėte prieš valandą, o tai buvo to paties daikto nuotrauka. Taigi, žinote, jūs negalite išmatuoti Pi. Matuoti Pi, turite turėti mašininio mokymosi sistemą, kuri išmoktų numatyti. Taigi jūs grįžtate prie ankstesnės problemos. Taigi iš esmės galite tik apytiksliai įvertinti informacijos dydį. 

yann-lecun-sept-2022-6

„Klausimas, kaip tiksliai matuojate informacijos turinį taip, kad galėtumėte optimizuoti arba sumažinti? sako LeCunas. „Ir čia viskas tampa sudėtinga, nes iš tikrųjų nežinome, kaip išmatuoti informacijos turinį. Geriausia, ką iki šiol galima padaryti, yra rasti tarpinį serverį, kuris yra „pakankamai geras mūsų norimai užduočiai atlikti“.

Leiskite paimti konkretesnį pavyzdį. Vienas iš algoritmų, su kuriuo žaidėme, ir apie kurį kalbėjau kūrinyje, yra šis dalykas, vadinamas VICReg, dispersijos-invariancijos-kovariacijos reguliavimas. Tai yra atskirame dokumente, kuris buvo paskelbtas ICLR ir jis buvo įdėtas į arXiv maždaug prieš metus, 2021 m. Ir idėja yra maksimaliai padidinti informaciją. Ir ši idėja iš tikrųjų kilo iš ankstesnio mano grupės dokumento Barlow dvyniai. Jūs maksimaliai padidinate vektoriaus, išeinančio iš neuroninio tinklo, informacijos turinį, iš esmės darydami prielaidą, kad vienintelė priklausomybė tarp kintamųjų yra koreliacija, tiesinė priklausomybė. Taigi, jei darote prielaidą, kad vienintelė priklausomybė, kuri įmanoma tarp kintamųjų porų arba tarp kintamųjų jūsų sistemoje, yra koreliacijos tarp vertybių porų, o tai yra labai apytikslis apytikslis skaičiavimas, tuomet galite maksimaliai padidinti informacijos turinį, gaunamą iš jūsų sistemos. Įsitikinęs, kad visų kintamųjų dispersija yra ne nulinė – tarkime, dispersija vienas, nesvarbu, kas tai yra – ir tada juos koreliuojant atgal, tas pats procesas, vadinamas balinimu, tai taip pat nėra nauja. Problema ta, kad galite turėti labai sudėtingas priklausomybes tarp kintamųjų grupių arba net tik kintamųjų porų, kurios nėra tiesinės priklausomybės, ir jos neatsiranda koreliacijose. Taigi, pavyzdžiui, jei turite du kintamuosius, o visi tų dviejų kintamųjų taškai išsidėstę tam tikra spirale, tarp šių dviejų kintamųjų yra labai didelė priklausomybė, tiesa? Bet iš tikrųjų, jei apskaičiuojate koreliaciją tarp šių dviejų kintamųjų, jie nėra koreliuojami. Taigi, čia yra pavyzdys, kai šių dviejų kintamųjų informacijos turinys iš tikrųjų yra labai mažas, tai tik vienas dydis, nes tai yra jūsų padėtis spiralėje. Jie nėra koreliuojami, todėl manote, kad iš tų dviejų kintamųjų gaunama daug informacijos, o iš tikrųjų to neturite, jūs tik žinote, kad galite numatyti vieną iš kintamųjų iš kito. Taigi, tai rodo, kad informacijos turiniui įvertinti turime tik labai apytikslius būdus.

ZDNet: Ir tai yra vienas iš dalykų, su kuriuo dabar turite dirbti? Tai yra didesnis klausimas, kaip žinoti, kada maksimaliai padidiname arba sumažiname informacijos turinį?

YL:  Arba, ar tarpinis serveris, kurį tam naudojame, yra pakankamai geras norimai užduočiai atlikti. Tiesą sakant, mes nuolat tai darome mašininio mokymosi metu. Sąnaudų funkcijos, kurias sumažiname, niekada nėra tos, kurias iš tikrųjų norime sumažinti. Taigi, pavyzdžiui, norite atlikti klasifikaciją, gerai? Kainos funkcija, kurią norite sumažinti mokydami klasifikatorių, yra klasifikatoriaus daromų klaidų skaičius. Bet tai nediferencijuojama, siaubinga sąnaudų funkcija, kurios negalite sumažinti, nes žinote, kad pakeisite savo neuroninio tinklo svorį, niekas nepasikeis, kol vienas iš tų pavyzdžių nepakeis savo sprendimo, o tada šuolis. klaidoje, teigiama ar neigiama.

ZDNet: Taigi jūs turite tarpinį serverį, kuris yra objektyvi funkcija, kurią tikrai galite pasakyti, mes tikrai galime leisti šio dalyko gradientus.

YL: Teisingai. Taigi žmonės naudoja šį kryžminės entropijos praradimą arba SOFTMAX, jūs turite kelis pavadinimus, bet tai yra tas pats dalykas. Ir iš esmės tai yra sklandus sistemos daromų klaidų skaičiaus apytikslis įvertinimas, kai išlyginimas atliekamas iš esmės atsižvelgiant į balą, kurį sistema suteikia kiekvienai kategorijai.

ZDNet: Ar yra kažkas, ko neaptarėme, ką norėtumėte aprėpti?

YL: Tikriausiai tai pabrėžia pagrindinius dalykus. Manau, kad dirbtinio intelekto sistemos turi sugebėti samprotauti, o procesas, kurį aš propaguoju, sumažina tam tikrą tikslą, susijusį su kai kuriais latentiniais kintamaisiais. Tai leidžia sistemoms planuoti ir mąstyti. Manau, kad turėtume atsisakyti tikimybinės sistemos, nes ji yra sunkiai įveikiama, kai norime padaryti tokius dalykus, kaip užfiksuoti priklausomybes tarp didelės apimties nuolatinių kintamųjų. Ir aš pasisakau už generatyvinių modelių atsisakymą, nes sistema turės skirti per daug resursų per sunkiai nuspėjamiems dalykams nuspėti ir galbūt sunaudoja per daug išteklių. Ir tai beveik viskas. Tai yra pagrindinės žinutės, jei norite. Ir tada bendra architektūra. Tada yra tie spėliojimai apie sąmonės prigimtį ir konfigūratoriaus vaidmenį, bet tai iš tikrųjų yra spėlionės.

ZDNet: Kitą kartą tai pasieksime. Ketinau jūsų paklausti, kaip jūs vertinate šį dalyką? Bet manau, kad šiuo metu esate šiek tiek toliau nuo lyginamosios analizės?

YL: Nebūtinai taip toli, savotiškos, supaprastintos versijos. Galite daryti tai, ką daro visi, mokydamiesi valdyti arba sustiprinti, ty išmokyti daiktą žaisti „Atari“ žaidimus ar kažką panašaus, ar kokį kitą žaidimą, kuriame yra tam tikro neapibrėžtumo.

ZDNet: Ačiū už jūsų laiką, Yann.

Šaltinis