Meta AI guru Lekuns: Lielākā daļa mūsdienu AI pieeju nekad nenovedīs pie patiesa intelekta

Yann-lecun-sept-2022-1

"Es domāju, ka AI sistēmām ir jāspēj pamatot," saka Jans Lekuns, Meta galvenais AI zinātnieks. Nepietiks ar mūsdienu populārajām AI pieejām, piemēram, Transformeri, no kuriem daudzas balstās uz viņa paša novatorisko darbu šajā jomā. "Jums ir jāatkāpjas un jāsaka: Labi, mēs uzbūvējām šīs kāpnes, bet mēs vēlamies doties uz Mēnesi, un šīs kāpnes nekādā gadījumā nevarēs mūs tur nogādāt," saka Lekuns.

Jans Lekuns, galvenais AI zinātnieks Meta Properties, Facebook, Instagram un WhatsApp īpašnieks, visticamāk, atzīmēs daudzus cilvēkus savā jomā. 

Ar domraksta publicēšanu jūnijā serverī Open ReviewLeCun piedāvāja plašu pārskatu par pieeju, kas, viņaprāt, ir daudzsološa, lai mašīnās sasniegtu cilvēka līmeņa intelektu. 

Ja rakstā tas nav formulēts, tiek apgalvots, ka lielākā daļa mūsdienu lielo AI projektu nekad nespēs sasniegt šo cilvēka līmeņa mērķi.

Šomēnes diskusijā ar ZDNet Izmantojot Zoom, LeCun skaidri norādīja, ka viņš ar lielu skepsi raugās uz daudziem veiksmīgākajiem padziļinātās mācīšanās pētījumiem šobrīd.

"Es domāju, ka tie ir nepieciešami, bet nav pietiekami," sacīja Tjūringa balvas ieguvējs ZDNet viņa vienaudžu meklējumiem. 

Tie ietver lielus valodu modeļus, piemēram, uz transformatoru balstītu GPT-3 un tiem līdzīgus. Kā to raksturo Lekuns, Transformeru bhaktas uzskata: “Mēs visu apliecinām un trenējam gigantiskumodeļiem, lai veiktu diskrētas prognozes, un no tā kaut kā radīsies AI.

"Viņi nav nepareizi," viņš saka, "tādā ziņā, ka tā var būt nākotnes viedās sistēmas sastāvdaļa, bet es domāju, ka tajā trūkst būtisku daļu."

Arī: Meta AI gaismeklis LeCun pēta dziļas mācīšanās enerģijas robežas

Tā ir pārsteidzoša kritika par to, kas, šķiet, darbojas, ko sniedz zinātnieks, kurš pilnveidoja konvolucionālo neironu tīklu izmantošanu, praktisku paņēmienu, kas ir bijis neticami produktīvs dziļās mācīšanās programmās. 

LeCun saskata trūkumus un ierobežojumus daudzās citās ļoti veiksmīgās disciplīnas jomās. 

Viņš uzskata, ka ar pastiprināšanu arī nekad nepietiks. Pētnieki, piemēram, Deivids Silvers no DeepMind, kurš izstrādāja programmu AlphaZero, kurā tika apgūts šahs, Shogi un Go, koncentrējas uz programmām, kas ir “ļoti balstītas uz darbību”, norāda Lekuns, bet “lielāko daļu mācīšanās mēs to nedarām. dariet to, faktiski veicot darbības, mēs to darām, novērojot." 

62 gadus vecais Lekuns, raugoties no gadu desmitiem ilgo sasniegumu perspektīvas, tomēr pauž steidzamību stāties pretī, viņaprāt, aklajām ejām, uz kurām daudzi, iespējams, steidzas, un mēģināt pierunāt savu jomu tajā virzienā, kurā, viņaprāt, būtu jāvirzās. 

"Mēs redzam daudz apgalvojumu par to, kas mums jādara, lai virzītos uz cilvēka līmeņa AI," viņš saka. "Un ir idejas, kuras, manuprāt, ir nepareizi virzītas."

"Mēs neesam tik tālu, ka mūsu viedajām mašīnām būtu tik daudz veselā saprāta kā kaķim," norāda Lekuns. "Tātad, kāpēc mēs nesākam ar to?" 

Viņš ir atteicies no savas iepriekšējās ticības izmantot ģeneratīvos tīklus tādās lietās kā nākamā video kadra prognozēšana. "Tā ir bijusi pilnīga neveiksme," viņš saka. 

LeCun nosoda tos, kurus viņš sauc par "reliģiskiem varbūtējiem", kuri "domā, ka varbūtības teorija ir vienīgais ietvars, ko varat izmantot, lai izskaidrotu mašīnmācīšanos." 

Viņš saka, ka tīri statistiskā pieeja ir neatrisināma. “Ir pārāk daudz prasīt, lai pasaules modelis būtu pilnīgi varbūtisks; mēs nezinām, kā to izdarīt."

Ne tikai akadēmiķiem, bet arī rūpnieciskajam AI ir nepieciešams dziļi pārdomāt, apgalvo LeCun. Pašbraucošo automašīnu pūlis, tādi jaunuzņēmumi kā Wayve, ir bijuši "nedaudz pārāk optimistiski," viņš saka, domājot, ka viņi varētu "izmest datus" lieliem neironu tīkliem, "un jūs varat uzzināt gandrīz jebko."

"Ziniet, es domāju, ka ir pilnīgi iespējams, ka mums būs piektā līmeņa autonomas automašīnas bez veselā saprāta," viņš saka, atsaucoties uz "ADAS". uzlabota vadītāja palīdzības sistēma pašbraukšanas termini, "taču jums tas būs jāizstrādā."

Viņš uzskata, ka šāda pārlieku izstrādāta pašbraukšanas tehnoloģija būs kaut kas tikpat čīkstošs un trausls kā visas datorredzes programmas, kuras ir novecojušas dziļas mācīšanās rezultātā.

"Galu galā būs apmierinošāks un, iespējams, labāks risinājums, kas ietver sistēmas, kas veic labāku darbu, lai izprastu, kā pasaule darbojas."

Pa ceļam Lekuns piedāvā dažus vīstošus uzskatus par saviem lielākajiem kritiķiem, piemēram, Ņujorkas universitātes profesoru Geriju Markusu — “viņš nekad nav veicinājis mākslīgā intelekta attīstību” — un Jirgenu Šmidhuberu, Dalle Molle Mākslīgā intelekta pētniecības institūta līdzdirektoru — “tas ir ļoti viegli izdarāma karogu stādīšana.”

Papildus kritikai svarīgākais LeCun teiktais ir tas, ka visas AI saskaras ar dažām fundamentālām problēmām, jo ​​īpaši informācijas mērīšanai.

"Jums ir jāatkāpjas un jāsaka: Labi, mēs uzbūvējām šīs kāpnes, bet mēs vēlamies doties uz Mēnesi, un šīs kāpnes nekādā gadījumā mūs tur nogādās," saka Lekuns par savu vēlmi pārdomāt. pamatjēdzieniem. "Būtībā tas, ko es šeit rakstu, ir tāds, ka mums ir jābūvē raķetes, es nevaru jums sniegt sīkāku informāciju par to, kā mēs veidojam raķetes, bet šeit ir pamatprincipi."

Rakstu un Lekuna domas intervijā var labāk saprast, izlasot Lekuna interviju šī gada sākumā ar ZDNet kurā viņš argumentē uz enerģiju balstītu pašpārraudzītu mācīšanos kā ceļu uz priekšu dziļai mācībai. Šīs pārdomas sniedz priekšstatu par galveno pieeju tam, ko viņš cer uzbūvēt kā alternatīvu lietām, kuras viņš apgalvo, ka nesasniegs finiša līniju. 

Tālāk ir viegli rediģēts intervijas atšifrējums.

ZDNet: Mūsu tērzēšanas tēma ir šis raksts “Ceļš uz autonomu mašīnu inteliģenci”, kura versija 0.9.2 ir pašreizējā versija, vai ne?

Jans Lekuns: Jā, es to uzskatu par darba dokumentu. Tāpēc es to ievietoju vietnē Open Review, gaidot, kad cilvēki sniegs komentārus un ieteikumus, iespējams, papildu atsauces, un tad es izstrādāšu pārskatītu versiju. 

ZDNet: Es redzu, ka Jurgens Šmidhūbers jau ir pievienojis dažus komentārus Open Review.

YL: Nu jā, viņš to vienmēr dara. Es citēju vienu no viņa rakstiem savā avīzē. Es domāju, ka argumenti, ko viņš izteica sociālajos tīklos, ka viņš būtībā to visu izdomāja 1991. gadā, kā viņš ir darījis citos gadījumos, vienkārši nav tā. Es domāju, tas ir ļoti viegli izdarāmskarogu stādīšana un, kaut kā, uzrakstīt ideju bez eksperimentiem, bez teorijas, vienkārši iesakiet, ka jūs varētu to izdarīt šādi. Bet, ziniet, ir liela atšķirība starp to, vai vienkārši rodas ideja un pēc tam jāstrādā pie rotaļlietas problēmas, un pēc tam jāstrādā pie reālas problēmas, un tad izveido teoriju, kas parāda, kāpēc tā darbojas, un tad. izvietojot to. Ir vesela ķēde, un viņa ideja par zinātnisko kredītu ir tāda, ka tas ir pats pirmais cilvēks, kuram, kā ziniet, vienkārši bija tāda ideja, tam vajadzētu iegūt visu atzinību. Un tas ir smieklīgi. 

ZDNet: Neticiet visam, ko dzirdat sociālajos tīklos. 

YL: Es domāju, ka galvenajā dokumentā, uz kuru viņš saka, man vajadzētu citēt, nav nevienas no galvenajām idejām, par kurām es runāju avīzē. Viņš to ir darījis arī ar GAN un citām lietām, kas izrādījās patiesība. Ir viegli veikt karogu stādīšanu, daudz grūtāk ir dot ieguldījumu. Un, starp citu, šajā konkrētajā rakstā es skaidri teicu, ka tas nav zinātnisks raksts šī termina parastajā nozīmē. Tas vairāk ir nostājas dokuments par to, kur šai lietai vajadzētu virzīties. Un tur ir dažas idejas, kas varētu būt jaunas, bet lielākā daļa no tām nav. Būtībā es nepretendēju uz prioritāti lielākajai daļai no tā, ko rakstīju šajā dokumentā.

Yann-lecun-sept-2022-2

LeCun apgalvo, ka ar pastiprināšanu arī nekad nepietiks. Pētnieki, piemēram, Deivids Silvers no DeepMind, kurš izstrādāja programmu AlphaZero, kurā tika apgūts šahs, Shogi un Go, ir “ļoti balstīti uz darbībām,” norāda Lekuns, bet “lielāko daļu mācīšanās mēs to nedarām, faktiski mācoties. darbības, mēs to darām, novērojot. 

ZDNet: Un tā, iespējams, ir laba vieta, kur sākt, jo mani interesē, kāpēc jūs tagad izvēlējāties šo ceļu? Kas tevi lika aizdomāties par šo? Kāpēc tu gribēji to rakstīt?

YL: Nu, tā, es par to domāju ļoti ilgu laiku, par ceļu uz cilvēka vai dzīvnieka līmeņa inteliģenci vai mācīšanos un spējām. Un savās sarunās es esmu diezgan skaļš par visu šo lietu, ka gan uzraudzīta mācīšanās, gan pastiprināšana nav pietiekami, lai līdzinātos tāda veida mācībām, ko novērojam dzīvniekiem un cilvēkiem. Es to daru apmēram septiņus vai astoņus gadus. Tātad, tas nav nesen. Pirms daudziem gadiem man bija pamatruna NeurIPS, kur es to izteicu būtībā, un dažādas sarunas, ir ieraksti. Kāpēc tagad rakstīt darbu? Esmu nonācis pie lietas — [Google smadzeņu pētnieks] Džefs Hintons bija izdarījis kaut ko līdzīgu — es domāju, protams, viņš vairāk nekā es, mēs redzam, ka laiks beidzas. Mēs neesam jauni.

ZDNet: Sešdesmit ir jaunais piecdesmit. 

YL: Tā ir taisnība, taču būtība ir tāda, ka mēs redzam daudz apgalvojumu par to, kas mums jādara, lai virzītos uz cilvēka līmeni AI. Un ir idejas, kuras, manuprāt, ir nepareizi virzītas. Tātad, viena ideja ir tāda, ka mums vajadzētu tikai pievienot simbolisku argumentāciju virs neironu tīkliem. Un es nezinu, kā to izdarīt. Tātad, iespējams, tas, ko es paskaidroju rakstā, varētu būt viena pieeja, kas darītu to pašu bez skaidras simbolu manipulācijas. Tas ir tāds tradicionāli pasaules Gerijs Markuss. Gerijs Markuss nav AI cilvēks, starp citu, viņš ir psihologs. Viņš nekad nav veicinājis AI. Viņš ir paveicis patiešām labu darbu eksperimentālajā psiholoģijā, taču viņš nekad nav rakstījis recenzētu darbu par AI. Tātad, tur ir tie cilvēki. 

Pasaulē ir [DeepMind principa pētnieks] Deivids Silvers, kurš saka, ka ar atlīdzību pietiek, būtībā tas viss ir saistīts ar pastiprināšanu, mums tikai jāpadara tā nedaudz efektīvāka, labi? Un es domāju, ka viņi nav nepareizi, bet es domāju, ka nepieciešamie soļi, lai padarītu pastiprināšanas mācīšanos efektīvāku, būtībā novirzītu pastiprināšanas mācīšanos kā ķiršu uz kūkas. Un galvenā trūkstošā daļa ir uzzināt, kā pasaule darbojas, galvenokārt novērojot bez darbības. Pastiprināšanas mācīšanās ir ļoti balstīta uz darbību, jūs uzzināsit lietas par pasauli, veicot darbības un redzot rezultātus.

ZDNet: Un tas ir vērsts uz atlīdzību.

YL: Tas ir vērsts uz atalgojumu, un tas ir vērsts arī uz darbību. Tātad, jums ir jārīkojas pasaulē, lai varētu kaut ko uzzināt par pasauli. Un galvenais apgalvojums, ko es izvirzu rakstā par pašpārraudzītu mācīšanos, ir, ka lielāko daļu mācīšanās mēs veicam, mēs to nedarām, faktiski veicot darbības, mēs to darām, novērojot. Un tas ir ļoti neparasti gan cilvēkiem, kas mācās pastiprinājumā, gan arī daudziem psihologiem un kognitīviem zinātniekiem, kuri domā, ka, ziniet, darbība ir — es nesaku, ka darbība nav būtiska. is būtiski. Bet es domāju, ka lielākā daļa no tā, ko mēs mācāmies, galvenokārt ir par pasaules uzbūvi un, protams, ietver mijiedarbību, darbību un spēli, un tamlīdzīgas lietas, taču liela daļa no tā ir novērojumi.

ZDNet: Tajā pašā laikā jums izdosies atzīmēt arī Transformeru cilvēkus, valodu pirmos cilvēkus. Kā jūs varat to izveidot vispirms bez valodas? Jums var izdosies atzīmēt daudzus cilvēkus. 

YL: Jā, esmu pie tā pieradis. Tātad, jā, ir valodas pirmie cilvēki, kuri saka: ziniet, inteliģence ir valoda, intelekta substrāts ir valoda, bla, bla, bla. Bet tas savā ziņā noraida dzīvnieku inteliģenci. Ziniet, mēs neesam tik tālu, ka mūsu viedajām mašīnām būtu tik daudz veselā saprāta kā kaķim. Tātad, kāpēc mēs nesākam ar to? Kas ir tas, kas ļauj kaķim uztvert apkārtējo pasauli, darīt diezgan gudras lietas, plānot un tamlīdzīgi, un suņiem vēl labāk? 

Tad ir visi cilvēki, kas saka: Ak, inteliģence ir sociāla lieta, vai ne? Mēs esam inteliģenti, jo runājam viens ar otru un apmaināmies ar informāciju, un bla, bla, bla. Ir visu veidu nesociālas sugas, kas nekad nesatiek savus ļoti gudrus vecākus, piemēram, astoņkāji vai orangutāni.Es domāju, ka viņus [orangutānus] noteikti izglīto viņu māte, taču viņi nav sabiedriski dzīvnieki. 

Bet cita cilvēku kategorija, kuru es varētu atzīmēt, ir cilvēki, kuri saka, ka pietiek ar mērogošanu. Tātad būtībā mēs vienkārši izmantojam gigantiskos transformatorus, apmācām tos par multimodāliem datiem, kas ietver, ziniet, video, tekstu, bla, bla, bla. Mēs, sava veida, pārakmeņojamiesviss, un tokenize visu, un tad apmācīt gigantiskumodeļus, lai veiktu diskrētas prognozes, un kaut kādā veidā no tā parādīsies AI. Viņi nav nepareizi tādā nozīmē, ka tā var būt nākotnes viedās sistēmas sastāvdaļa. Bet es domāju, ka tajā trūkst būtisku daļu. 

Ir vēl viena cilvēku kategorija, ko es atzīmēšu ar šo rakstu. Un tie ir varbūtēji, reliģiskie varbūtēji. Tātad cilvēki, kuri domā, ka varbūtības teorija ir vienīgais ietvars, ko varat izmantot, lai izskaidrotu mašīnmācīšanos. Un, kā es mēģināju paskaidrot gabalā, būtībā ir pārāk daudz prasīt, lai pasaules modelis būtu pilnīgi varbūtējs. Mēs nezinām, kā to izdarīt. Tur ir skaitļošanas sarežģītība. Tāpēc es ierosinu atteikties no visas šīs idejas. Un, protams, jūs zināt, tas ir milzīgs pīlārs ne tikai mašīnmācībai, bet arī visai statistikai, kas tiek uzskatīta par normālu mašīnmācības formālismu. 

Otra lieta - 

ZDNet: Jūs esat spārnos…

YL: — to sauc par ģeneratīvajiem modeļiem. Tātad doma, ka jūs varat iemācīties prognozēt un, iespējams, varat uzzināt daudz par pasauli, paredzot. Tātad, es jums piedāvāju videoklipu un lūdzu sistēmu paredzēt, kas notiks tālāk šajā videoklipā. Un es varu lūgt jums paredzēt faktiskos video kadrus ar visām detaļām. Bet es strīdos par to, ka patiesībā tas ir pārāk daudz prasīts un pārāk sarežģīti. Un par to es mainīju savas domas. Apmēram pirms diviem gadiem es aizstāvēju tā sauktos latento mainīgo ģeneratīvos modeļus, modeļus, kas paredz, kas notiks tālāk, vai trūkstošās informācijas, iespējams, izmantojot latentu mainīgo, ja prognozes nevar būt deterministisks. Un es esmu atteicies no šī. Un iemesls, kāpēc es no tā atteicos, ir balstīts uz empīriskiem rezultātiem, kur cilvēki ir mēģinājuši piemērot, uz prognozēšanu vai rekonstrukciju balstītu apmācību, kas tiek izmantota BERT.un lieliem valodu modeļiem, viņi ir mēģinājuši to piemērot attēliem, un tā ir bijusi pilnīga neveiksme. Un iemesls, kāpēc tā ir pilnīga neveiksme, atkal ir varbūtības modeļu ierobežojumu dēļ, kur ir salīdzinoši viegli paredzēt diskrētus marķierus, piemēram, vārdus, jo mēs varam aprēķināt varbūtības sadalījumu visiem vārdnīcas vārdiem. Tas ir viegli. Bet, ja mēs prasām sistēmai izveidot varbūtības sadalījumu pa visiem iespējamiem video kadriem, mums nav ne jausmas, kā to parametrizēt, vai arī mums ir kāda ideja, kā to parametrizēt, bet mēs nezinām, kā to normalizēt. Tas skar neatrisināmu matemātisko problēmu, kuru mēs nezinām, kā atrisināt. 

Yann-lecun-sept-2022-3

"Mēs neesam tik tālu, ka mūsu viedajām mašīnām būtu tik daudz veselā saprāta kā kaķim," norāda Lekuns. "Tātad, kāpēc mēs nesākam ar to? Kas ir tas, kas ļauj kaķim uztvert apkārtējo pasauli, darīt diezgan gudras lietas, plānot un tamlīdzīgi, un suņiem vēl labāk?

Tāpēc es saku, ka atteiksim varbūtību teoriju vai tādu lietu ietvaru, vājāko, uz enerģiju balstītiem modeļiem. Es arī esmu par to iestājies jau gadu desmitiem, tāpēc tas nav nesens gadījums. Bet tajā pašā laikā atmetot ideju par ģeneratīvajiem modeļiem, jo ​​pasaulē ir daudz lietu, kas nav saprotamas un neparedzamas. Ja esat inženieris, jūs to saucat par troksni. Ja esat fiziķis, jūs to saucat par siltumu. Un, ja jūs esat mašīnmācības cilvēks, jūs to saucat par neatbilstošām detaļām vai kā citādi.

Tātad, piemērs, ko izmantoju rakstā vai esmu izmantojis sarunās, ir: jūs vēlaties pasaules prognozēšanas sistēmu, kas palīdzētu pašbraucošai automašīnai, vai ne? Tā vēlas iepriekš paredzēt visu pārējo automašīnu trajektorijas, kas notiks ar citiem objektiem, kas varētu pārvietoties, gājējiem, velosipēdiem, mazulim, kas skrien pēc futbola bumbas, un tamlīdzīgām lietām. Tātad, visādas lietas par pasauli. Bet, kas robežojas ar ceļu, var būt koki, un šodien ir vējš, tāpēc lapas kustas vējā, un aiz kokiem ir dīķis, un dīķī ir viļņi. Un tās būtībā ir lielā mērā neparedzamas parādības. Un jūs nevēlaties, lai jūsu modelis tērētu ievērojamu daudzumu resursu, prognozējot lietas, kuras ir gan grūti paredzēt, gan nebūtiskas. Tāpēc es iestājos par kopīgu iegulšanas arhitektūru, tām lietām, kur mainīgais, kuru mēģināt modelēt, jūs nemēģināt to paredzēt, jūs mēģināt to modelēt, bet tas iet caur kodētāju, un šis kodētājs var novērst daudz detaļu par ievadi, kas ir nebūtiskas vai pārāk sarežģītas — būtībā līdzvērtīgas troksnim.

ZDNet: Šī gada sākumā mēs apspriedām uz enerģiju balstītus modeļus JEPA un H-JEPA. Manuprāt, ja es jūs pareizi saprotu, jūs atrodat zemas enerģijas punktu, kur šīs divas X un Y iegulšanas prognozes ir vislīdzīgākās, kas nozīmē, ka, ja vienā kokā ir balodis un kokā ir kaut kas. ainas fons, tie var nebūt būtiskie punkti, kas padara šos iegulumus tuvu viens otram.

YL: Pa labi. Tātad JEPA arhitektūra faktiski mēģina atrast kompromisu, kompromisu starp tādu attēlojumu izgūšanu, kas ir maksimāli informatīvi par ievadi, bet arī paredzami viens no otra ar zināmu precizitātes vai uzticamības līmeni. Tas atrod kompromisu. Tātad, ja tai ir izvēle starp tērēt milzīgu daudzumu resursu, tostarp detalizētu informāciju par lapu kustību, un pēc tam modelēt dinamiku, kas izlems, kā lapas pārvietojas pēc brīža, vai vienkārši nomest to uz grīdas tikai būtībā palaižot Y mainīgo, izmantojot prognozētāju, kas novērš visas šīs detaļas, iespējams, tas vienkārši tiks novērsts, jo to ir pārāk grūti modelēt un uztvert.

ZDNet: Viena lieta, kas ir pārsteigta, ir tas, ka jūs esat bijis lielisks piekritējs, sakot: "Tas darbojas, mēs vēlāk izdomāsim termodinamikas teoriju, lai to izskaidrotu." Šeit jūs esat izmantojis pieeju: "Es nezinu, kā mēs to noteikti atrisināsim, bet es vēlos izvirzīt dažas idejas, lai par to padomātu" un, iespējams, pat tuvojoties teorijai vai hipotēzei, plkst. vismazāk. Tas ir interesanti, jo daudzi cilvēki tērē daudz naudas, strādājot pie automašīnas, kas var redzēt gājēju neatkarīgi no tā, vai automašīnai ir veselais saprāts. Un es domāju, ka daži no šiem cilvēkiem netiks atzīmēti, bet viņi teiks: "Tas ir labi, mums ir vienalga, ja tam nav veselā saprāta, mēs esam izveidojuši simulāciju, simulācija ir pārsteidzoša, un mēs turpināsim pilnveidoties, mēs turpināsim palielināt simulāciju. 

Un tāpēc ir interesanti, ka tagad varat teikt: spersim soli atpakaļ un padomāsim par to, ko darām. Un nozare saka, ka mēs tikai mērogosim, mērogosim, mērogosim, mērogosim, jo ​​šis kloķis patiešām darbojas. Es domāju, ka GPU pusvadītāju kloķis patiešām darbojas.

YL: Tur ir, piemēram, pieci jautājumi. Tātad, es domāju, mērogošana ir nepieciešama. Es nekritizēju to, ka mums vajadzētu mērogot. Mums vajadzētu mērogot. Šie neironu tīkli kļūst labāki, jo tie kļūst lielāki. Nav šaubu, ka mums vajadzētu mērogot. Un tie, kuriem būs kaut kāds veselā saprāta līmenis, būs lieli. Es domāju, ka to nevar apiet. Tāpēc mērogošana ir laba, tā ir nepieciešama, bet nepietiekama. Tas ir tas, ko es izsaku. Tā nav tikai mērogošana. Tas ir pirmais punkts. 

Otrais punkts, vai teorija ir pirmajā vietā un tamlīdzīgas lietas. Tāpēc es domāju, ka ir jēdzieni, kas ir pirmajā vietā, proti, jums ir jāatkāpjas un jāsaka: labi, mēs uzcēlām šīs kāpnes, bet mēs vēlamies doties uz Mēnesi, un šīs kāpnes mūs tur nenovedīs. Tātad būtībā tas, ko es šeit rakstu, mums ir jābūvē raķetes. Es nevaru sniegt sīkāku informāciju par to, kā mēs veidojam raķetes, bet šeit ir pamatprincipi. Un es nerakstu teoriju par to vai kaut ko citu, bet tā būs raķete, labi? Vai kosmosa lifts vai kas cits. Iespējams, mums nav visu tehnoloģiju informācija. Mēs cenšamies panākt, lai dažas no šīm lietām darbotos, piemēram, es strādāju pie JEPA. Kopīga iegulšana ļoti labi darbojas attēlu atpazīšanai, taču, lai to izmantotu pasaules modeļa apmācīšanai, rodas grūtības. Mēs pie tā strādājam, ceram, ka izdosies to īstenot soon, taču mēs tur varētu saskarties ar dažiem šķēršļiem, kurus, iespējams, nevarēsim pārvarēt. 

Pēc tam dokumentā ir galvenā doma par argumentāciju: ja mēs vēlamies, lai sistēmas varētu plānot, ko jūs varat uzskatīt par vienkāršu argumentācijas veidu, tām ir jābūt latentiem mainīgajiem. Citiem vārdiem sakot, lietas, kuras neaprēķina neviens neironu tīkls, bet lietas, kas ir — kuru vērtība tiek izsecināta, lai samazinātu kādu mērķa funkciju, kādu izmaksu funkciju. Un tad jūs varat izmantot šo izmaksu funkciju, lai vadītu sistēmas darbību. Un tā nemaz nav jauna ideja, vai ne? Šī ir ļoti klasiska, optimāla vadība, kuras pamatā ir 50. gadu beigas, 60. gadu sākums. Tātad, šeit nepretendējot uz novitāti. Bet tas, ko es saku, ir tāds, ka šāda veida secinājumiem ir jābūt daļai no inteliģentas sistēmas, kas spēj plānot un kuras uzvedību var precizēt vai kontrolēt nevis ar vadu uzvedību, nevis ar imitāciju, bet gan ar objektīvu funkciju, kas. virza uzvedību — noteikti neveicina mācīšanos, bet gan uzvedību. Jūs zināt, tas ir mūsu smadzenēs, un katram dzīvniekam ir raksturīgas izmaksas vai iekšējā motivācija. Tas liek deviņus mēnešus veciem mazuļiem vēlēties piecelties. Izmaksas par to, lai būtu laimīgs, kad jūs piecelties, šis izmaksu funkcijas termins ir fiksēts. Bet kā tu piecelies, tā nav, tā ir mācīšanās.

Yann-lecun-sept-2022-4

"Mērogošana ir laba, tā ir nepieciešama, bet ar to nepietiek," saka LeCun par milzīgiem valodu modeļiem, piemēram, uz transformatoriem balstītām GPT-3 programmām. Transformeru bhaktas uzskata: “Mēs visu apliecinām un trenējam gigantiskumodeļi, lai veiktu atsevišķas prognozes, un kaut kādā veidā no tā iznāks AI, bet es domāju, ka trūkst būtisku daļu.

ZDNet: Lai nobeigtu šo punktu, šķiet, ka lielai daļai padziļinātas mācīšanās kopienas ir labi iet uz priekšu ar kaut ko, kam nav veselā saprāta. Šķiet, ka jūs šeit diezgan skaidri argumentējat, ka kādā brīdī tas kļūst par strupceļu. Daži cilvēki saka, ka mums nav vajadzīga autonoma automašīna ar veselo saprātu, jo mērogošana to darīs. Izklausās, ka jūs sakāt, ka nav pareizi turpināt iet pa šo ceļu?

YL: Ziniet, es domāju, ka ir pilnīgi iespējams, ka mums būs piektā līmeņa autonomas automašīnas bez veselā saprāta. Taču šīs pieejas problēma ir tā, ka tā būs īslaicīga, jo jums būs jāizveido elle. Tātad, jūs zināt, kartējiet visu pasauli, izveidojiet visu veidu specifiskus stūra gadījumus, savāciet pietiekami daudz datu, lai jums būtu visas dīvainās situācijas, ar kurām jūs varat saskarties uz ceļiem, bla, bla, bla. Un es domāju, ka ar pietiekamiem ieguldījumiem un laiku jūs varat vienkārši izveidot elli. Bet galu galā būs apmierinošāks un, iespējams, labāks risinājums, kas ietver sistēmas, kas labāk izprot pasaules darbību, un kurām ir zināms līmenis, ko mēs sauktu par veselo saprātu. Tam nav jābūt cilvēka līmeņa veselajam saprātam, bet gan zināmām zināšanām, ko sistēma var iegūt, vērojot, bet neskatoties, kā kāds brauc, tikai vērojot lietas, kas pārvietojas un daudz ko saprotot par pasauli, veidojot fona pamatu. zināšanas par to, kā pasaule darbojas, turklāt jūs varat iemācīties braukt. 

Ļaujiet man ņemt šim vēsturisku piemēru. Klasiskā datorvīzija balstījās uz daudziem vadu, izstrādātiem moduļiem, kuriem virsū jums būtu sava veida plāns mācīšanās slānis. Tātad lietas, ko AlexNet pārspēja 2012. gadā, pamatā bija pirmā stadija, sava veida, ar rokām darināta funkciju izvilkšana, piemēram, SIFT [Scale-Invariant Feature Transform (SIFT), klasiska redzes tehnika, kas ļauj identificēt attēlā redzamos objektus] un HOG [Histogram of Oriented Gradients, vēl viena klasiska tehnika] un dažādas citas lietas. Un tad otrais, sava veida, vidēja līmeņa funkciju slānis, kas balstīts uz funkciju kodoliem un jebko citu, un kaut kāda neuzraudzīta metode. Un tad papildus tam jūs ievietojat atbalsta vektoru mašīnu vai salīdzinoši vienkāršu klasifikatoru. Un tas savā ziņā bija standarta konveijers no 2000. gadu vidus līdz 2012. gadam. Un tas tika aizstāts ar visaptverošiem konvolucionāriem tīkliem, kur jūs neko no tā nepievienojat, bet jums ir tikai daudz datu, un jūs apmācāt šo lietu no gala līdz galam, un tā ir pieeja, kuru es aizstāvēju jau ilgu laiku, bet ziniet, līdz tam nebija praktiska lielām problēmām. 

Ir bijis līdzīgs stāsts runas atpazīšanas jomā, kur atkal bija milzīgs daudzums detalizētas inženierijas, kā jūs iepriekš apstrādājat datus, iegūstat masveida cepstrumu [ātrās Furjē transformācijas apgrieztā vērtība signāla apstrādei] un pēc tam. jums ir slēptie Markova modeļi ar sava veida, iepriekš iestatītu arhitektūru, bla, bla, bla, ar Gausa maisījumu. Tātad, tā ir mazliet tāda pati arhitektūra kā vīzija, kur jums ir ar rokām izveidota priekšpuse un pēc tam nedaudz neuzraudzīts, apmācīts vidējais slānis un pēc tam uzraudzīts slānis virsū. Un tagad to būtībā ir iznīcinājuši pilnīgi neironu tīkli. Tāpēc es tur redzu kaut ko līdzīgu, mēģinot apgūt visu, bet jums ir jābūt pareizai prioritātei, pareizai arhitektūrai, pareizai struktūrai.

Yann-lecun-sept-2022-5

Viņš saka, ka pašbraucošo automašīnu pūlis, tādi jaunuzņēmumi kā Waymo un Wayve, ir bijuši "nedaudz pārāk optimistiski", domājot, ka viņi varētu "izmest datus, un jūs varat uzzināt gandrīz jebko". Pašpiedziņas automašīnas ADAS 5. līmenī ir iespējamas, “bet jums būs jākonstruē elle”, un tās būs “trauslas” kā agrīnie datorredzes modeļi.

ZDNet: Tas, ko jūs sakāt, ir tāds, ka daži cilvēki mēģinās izstrādāt to, kas pašlaik nedarbojas ar dziļu mācīšanos, lai to varētu izmantot, teiksim, rūpniecībā, un viņi sāks radīt kaut ko tādu, kas datorredzē ir novecojis?

YL: Pa labi. Daļēji tas ir iemesls, kāpēc cilvēki, kas strādā ar autonomu braukšanu, pēdējos gados ir bijuši pārāk optimistiski, jo, ziniet, jums ir tādas vispārīgas lietas, piemēram, konvolucionālie tīkli un transformatori, ar kuriem jūs varat izmantot datus. , un tas var iemācīties gandrīz jebko. Tātad, jūs sakāt: Labi, man ir šīs problēmas risinājums. Pirmā lieta, ko darāt, ir izveidot demonstrāciju, kurā automašīna dažas minūtes brauc pati, nevienam nenodarot pāri. Un tad tu saproti, ka ir daudz stūra gadījumu, un tu mēģini zīmēt līkni, cik daudz labāk es kļūstu, jo es dubultoju treniņu komplektu, un tu saproti, ka nekad tur nenokļūsi, jo ir visādi stūra gadījumi. . Un jums ir jābūt automašīnai, kas izraisīs letālu avāriju mazāk nekā katriem 200 miljoniem kilometru, vai ne? Tad ko tu dari? Nu, tu ej divos virzienos. 

Pirmais virziens ir, kā es varu samazināt datu apjomu, kas ir nepieciešams, lai mana sistēma varētu mācīties? Un šeit parādās pašuzraudzīta mācīšanās. Tātad daudzus pašvadošu automašīnu tērpus ļoti interesē pašpārraudzīta apmācība, jo tas ir veids, kā joprojām izmantot milzīgus uzraudzības datu apjomus imitācijas mācībām, bet uzlabojot veiktspēju, izmantojot būtībā iepriekšēja apmācība. Un tas vēl nav pilnībā izgājis, bet tas būs. Un tad ir vēl viena iespēja, ko ir pieņēmusi lielākā daļa uzņēmumu, kas šobrīd ir progresīvāki, proti, mēs varam veikt visaptverošu apmācību, taču ir daudz stūra gadījumu, ko mēs varam. t rīkoties, tāpēc mēs tikai izstrādāsim sistēmas, kas parūpēsies par šiem stūra gadījumiem un, būtībā, uzskatīs tos par īpašiem gadījumiem, kā arī pieslēgs vadību, un pēc tam pieslēgs daudzas pamata darbības, lai tiktu galā ar īpašām situācijām. Un, ja jums ir pietiekami liela inženieru komanda, jūs varētu to izdarīt. Bet tas prasīs ilgu laiku, un galu galā tas joprojām būs nedaudz trausls, iespējams, pietiekami uzticams, lai to varētu izmantot, taču ar zināmu trausluma līmeni, kas, izmantojot vairāk uz mācīšanos balstītu pieeju, kas varētu parādīties Nākotnē automašīnām nebūs, jo tai varētu būt veselais saprāts un izpratne par to, kā pasaule darbojas. 

Īstermiņā uzvarēs sava veida inženierijas pieeja — tā jau uzvar. Tas ir Waymo un Cruise of the world un Wayveun vienalga, tā viņi dara. Pēc tam ir pašpārraudzīta mācību pieeja, kas, iespējams, palīdzēs inženierijas pieejai gūt panākumus. Bet tad ilgtermiņā, kas varētu būt pārāk ilgi, lai šie uzņēmumi gaidītu, visticamāk, būtu integrētāka autonoma viedā braukšanas sistēma.

ZDNet: Mēs sakām, ka tas pārsniedz vairuma investoru ieguldījumu horizontu.

YL: Pareizi. Tātad, jautājums ir, vai cilvēki zaudēs pacietību vai beigsies nauda, ​​pirms sniegums sasniegs vēlamo līmeni.

ZDNet: Vai ir kas interesants sakāms par to, kāpēc izvēlējāties dažus no modelī izvēlētajiem elementiem? Tā kā jūs citējat Kenetu Kreiku [1943,Paskaidrojuma būtība], un jūs citējat Braisonu un Ho [1969, Piemērota optimālā kontrole], un mani interesē, kāpēc jūs sākāt ar šīm ietekmēm, ja īpaši ticējāt, ka šiem cilvēkiem tas ir izdevies līdz tam, ko viņi bija darījuši. Kāpēc tu tur sāki?

YL: Nu, es nedomāju, ka viņiem bija visas detaļas. Tātad, Braisons un Ho, šī ir grāmata, kuru izlasīju 1987. gadā, kad biju pēcdoktorantūra pie Džefrija Hintona Toronto. Bet es zināju par šo darba virzienu jau iepriekš, rakstot savu doktora grādu, un būtībā izveidoju savienojumu starp optimālo vadību un aizmugurējo balstu. Ja jūs patiešām vēlētos būt vēl viens Šmidhūbers, jūs teiktu, ka īstie backprop izgudrotāji patiesībā bija optimālās vadības teorētiķi Henrijs J. Kellijs, Arturs Braisons un, iespējams, pat Ļevs Pontrjagins, kurš ir krievu optimālās kontroles teorētiķis. 50. gadu beigās. 

Tātad, viņi to izdomāja, un patiesībā jūs varat redzēt sakni tam, matemātiku zem tā, ir Lagranža mehānika. Tātad jūs varat atgriezties pie Eilera un Lagrenža un kaut kā no tā atrast kādu odziņu viņu Lagranža klasiskās mehānikas definīcijā. Tātad optimālas kontroles kontekstā šie puiši interesēja būtībā raķešu trajektoriju aprēķināšanu. Jūs zināt, tas bija agrīnais kosmosa laikmets. Un, ja jums ir raķetes modelis, tas jums norāda, kāds ir raķetes stāvoklis attiecīgajā laikā t, un šī ir darbība, ko es gatavojos veikt, tāpēc, dažāda veida vilces un izpildmehānismi, šeit ir raķetes stāvoklis attiecīgajā laikā t + 1.

ZDNet: Stāvokļa-darbības modelis, vērtību modelis.

YL: Tieši tā, kontroles pamats. Tātad, tagad jūs varat simulēt savas raķetes šaušanu, iztēlojoties komandu secību, un tad jums ir kāda izmaksu funkcija, kas ir raķetes attālums līdz mērķim, kosmosa stacijai vai jebkuram citam. Un tad, nolaižoties pa gradientu, jūs varat izdomāt, kā es varu atjaunināt savu darbību secību, lai mana raķete patiešām nonāktu pēc iespējas tuvāk mērķim. Un tam ir jānotiek, izplatot signālus atpakaļ laikā. Un tā ir pavairošana atpakaļ, gradienta atpakaļ pavairošana. Šos signālus Lagranža mehānikā sauc par konjugētajiem mainīgajiem, bet patiesībā tie ir gradienti. Tātad, viņi izgudroja backprop, bet viņi nesaprata, ka šo principu var izmantot, lai apmācītu daudzpakāpju sistēmu, kas var veikt modeļa atpazīšanu vai kaut ko tamlīdzīgu. Tas tika īsti realizēts tikai varbūt 70. gadu beigās, 80. gadu sākumā, un pēc tam faktiski netika ieviests un likts darboties līdz 80. gadu vidum. Labi, šeit backprop patiešām pacēlās, jo cilvēki parādīja, ka šeit ir dažas koda rindiņas, ar kurām var apmācīt neironu tīklu, no gala līdz galam, daudzslāņu. Un tas atceļ Perceptron ierobežojumus. Un, jā, ir savienojumi ar optimālu vadību, bet tas ir labi.

ZDNet: Tātad, tas ir garš veids, kā teikt, ka šīs ietekmes, ar kurām jūs sākāt, atgriezās backprop, un tas jums bija svarīgs kā sākuma punkts?

YL: Jā, bet es domāju, ka tas, par ko cilvēki ir mazliet aizmirsuši, pie tā bija diezgan daudz darba, ziniet, 90. vai pat 80. gados, tostarp tādi cilvēki kā Maikls Džordans [MIT Brain departaments. un Kognitīvās zinātnes] un tādiem cilvēkiem, kuri vairs neveic neironu tīklus, bet gan domu, ka jūs varat izmantot neironu tīklus kontrolei, un jūs varat izmantot klasiskās idejas par optimālu kontroli. Tātad tādas lietas kā tā sauktā modeļa prognozēšanas vadība, ko tagad sauc par modeļa prognozējošo vadību, šī ideja, ka varat simulēt vai iedomāties darbību secības iznākumu, ja jums ir labs tās sistēmas modelis, kuru mēģināt kontrolēt. un vide, kurā tas atrodas. Un pēc tam ar slīpuma nolaišanos būtībā — tā nav mācīšanās, tas ir secinājums — jūs varat izdomāt, kura ir labākā darbību secība, kas samazina manu mērķi. Tātad izmaksu funkcijas ar latentu mainīgo izmantošana secinājumu izdarīšanai, manuprāt, ir kaut kas tāds, par ko pašreizējie liela mēroga neironu tīkli ir aizmirsuši. Bet tā ilgu laiku bija ļoti klasiska mašīnmācības sastāvdaļa. Tātad katrs Bajesa tīkls vai grafiskais modelis vai varbūtības grafiskais modelis izmantoja šāda veida secinājumus. Jums ir modelis, kas tver atkarības starp mainīgo lielumu kopumu, jums tiek norādīta dažu mainīgo vērtība, un pēc tam jums ir jāizsecina pārējo mainīgo visticamākā vērtība. Tas ir secinājumu pamatprincips grafiskajos modeļos un Bayesian Nets un tamlīdzīgās lietās. Un es domāju, ka pamatā tam vajadzētu būt spriešanai, spriešanai un plānošanai.

ZDNet: Tu esi skapis Beijess.

YL: Es esmu bezvarbūtības baijesietis. Es jau agrāk izteicu šo joku. Es tiešām biju NeurIPS pirms dažiem gadiem, man šķiet, ka tas bija 2018. vai 2019. gadā, un mani video noķēra Bajesietis, kurš man jautāja, vai es esmu Beijess, un es atbildēju: Jā, es esmu beijesietis, bet es Ja vēlaties, es esmu nevarbūtisks Bajesietis, sava veida, uz enerģiju balstīts Bajesietis. 

ZDNet: Kas noteikti izklausās pēc kaut kā no Star Trek. Jūs minējāt šī raksta beigās, lai realizētu to, ko jūs iztēlojaties, būs vajadzīgi gadi patiešām smaga darba. Pastāstiet man par to, no kā sastāv daži no šī brīža darbiem.

YL: Tātad, es paskaidroju, kā jūs apmācāt un veidojat JEPA. Un kritērijs, par kuru es atbalstu, ir veids, kā maksimāli palielināt informācijas saturu, kas iegūtajiem attēlojumiem ir par ievadi. Un tad otrais ir prognozēšanas kļūdas samazināšana. Un, ja jums ir latentais mainīgais prognozētā, kas ļauj prognozētājam būt nedeterministiskam, jums ir jāregulē arī šis latentais mainīgais, samazinot tā informācijas saturu. Tātad, tagad jums ir divas problēmas, proti, kā jūs maksimāli palielinat kāda neironu tīkla izvades informācijas saturu, un otrs ir par to, kā samazināt kāda latenta mainīgā informācijas saturu? Un, ja jūs nedarīsit šīs divas lietas, sistēma sabruks. Tā neko interesantu neuzzinās. Tas visam dos nulles enerģiju, kaut kas tamlīdzīgs, kas nav labs atkarības modelis. Tā ir sabrukšanas novēršanas problēma, ko es pieminēju. 

Un es saku par visām lietām, ko cilvēki jebkad ir darījuši, ir tikai divas metožu kategorijas, lai novērstu sabrukumu. Viena no tām ir kontrastējošās metodes, bet otrs – tās regularizētās metodes. Tātad šī ideja par divu ievades attēlojumu informācijas satura maksimizāciju un latentā mainīgā informācijas satura minimizēšanu, kas pieder pie legalizētajām metodēm. Taču liela daļa darba šajās kopīgajās iegulšanas arhitektūrās tiek izmantotas kontrastējošas metodes. Patiesībā tie, iespējams, šobrīd ir vispopulārākie. Tātad, jautājums ir tieši par to, kā izmērīt informācijas saturu tā, lai to varētu optimizēt vai samazināt? Un šeit lietas kļūst sarežģītas, jo mēs faktiski nezinām, kā izmērīt informācijas saturu. Mēs varam to tuvināt, mēs varam noteikt augšējo robežu, mēs varam darīt tādas lietas. Bet tie faktiski nemēra informācijas saturu, kas patiesībā zināmā mērā pat nav precīzi definēts.

ZDNet: Vai tas nav Šenona likums? Tā nav informācijas teorija? Jums ir noteikta entropija, laba entropija un slikta entropija, un labā entropija ir simbolu sistēma, kas darbojas, slikta entropija ir troksnis. Vai to visu neatrisina Šenons?

YL: Jums ir taisnība, bet aiz tā slēpjas liels trūkums. Jums ir taisnība tādā ziņā, ka, ja jums ir pieejami dati un jūs varat kaut kādā veidā kvantificēt datus atsevišķos simbolos un pēc tam izmērīt katra no šiem simboliem iespējamību, tad maksimālais informācijas apjoms, ko šie simboli pārvadā, ir summa pār iespējamiem simboliem Pi log Pi, pa labi? Kur Pi ir simbola varbūtība es — tā ir Šenonas entropija. [Šenona likums parasti tiek formulēts kā H = – ∑ pi log pi.]

Tomēr šeit ir problēma: kas ir Pi? Tas ir vienkārši, ja simbolu skaits ir mazs un simboli tiek zīmēti neatkarīgi. Ja ir daudz simbolu un atkarību, tas ir ļoti grūti. Tātad, ja jums ir bitu secība un jūs pieņemat, ka biti ir neatkarīgi viens no otra un varbūtība ir vienāda starp vienu un nulli vai neatkarīgi no tā, tad jūs varat viegli izmērīt entropiju, bez problēmām. Bet, ja lietas, kas jums nonāk, ir augstas dimensijas vektori, piemēram, datu rāmji vai kaut kas līdzīgs šim, kas ir Pi? Kāds ir sadalījums? Vispirms jums ir jānosaka šī telpa, kas ir augstas dimensijas nepārtraukta telpa. Jums nav ne jausmas, kā to pareizi kvantificēt. Varat izmantot k-means utt. To dara cilvēki, veicot video un attēlu saspiešanu. Bet tas ir tikai aptuvens rādītājs. Un tad ir jāizdara pieņēmumi par neatkarību. Tātad ir skaidrs, ka videoklipā secīgie kadri nav neatkarīgi. Pastāv atkarības, un šis rāmis var būt atkarīgs no cita kadra, ko redzējāt pirms stundas un kas bija attēls ar to pašu. Tātad, jūs zināt, jūs nevarat izmērīt Pi. Mērīt Pi, jums ir jābūt mašīnmācīšanās sistēmai, kas mācās paredzēt. Un tā jūs atgriezīsities pie iepriekšējās problēmas. Tātad būtībā jūs varat tikai tuvināt informācijas mēru. 

Yann-lecun-sept-2022-6

"Jautājums ir par to, kā tieši jūs izmērāt informācijas saturu tā, lai to varētu optimizēt vai samazināt?" saka Lekuns. "Un šeit lietas kļūst sarežģītas, jo mēs faktiski nezinām, kā izmērīt informācijas saturu." Labākais, ko līdz šim var izdarīt, ir atrast starpniekserveri, kas ir “pietiekami labs mūsu vēlamajam uzdevumam”.

Ļaujiet man ņemt konkrētu piemēru. Viens no algoritmiem, ar kuru mēs spēlējāmies, un par kuru es runāju šajā skaņdarbā, ir šī lieta, ko sauc par VICReg, dispersijas-invariances-kovariācijas regularizāciju. Tas ir atsevišķā dokumentā, kas tika publicēts ICLR un tas tika ievietots arXiv apmēram gadu pirms 2021. gada. Un doma ir maksimāli palielināt informāciju. Un ideja patiesībā radās no manas grupas agrāk publicētā dokumentā Bārlova dvīņi. Jūs maksimāli palielinat no neironu tīkla iznākoša vektora informācijas saturu, būtībā pieņemot, ka vienīgā atkarība starp mainīgajiem ir korelācija, lineārā atkarība. Tātad, ja pieņemat, ka vienīgā atkarība, kas ir iespējama starp mainīgo pāriem vai starp mainīgajiem jūsu sistēmā, ir korelācijas starp vērtību pāriem, kas ir ārkārtīgi aptuvens tuvinājums, tad jūs varat maksimāli palielināt informācijas saturu, kas nāk no jūsu sistēmas. pārliecinoties, ka visiem mainīgajiem ir novirze, kas atšķiras no nulles — teiksim, dispersija viens, nav svarīgi, kas tas ir, un pēc tam tos korelējot, tas pats process, ko sauc par balināšanu, arī tas nav jauns. Problēma ir tāda, ka ļoti labi var būt ārkārtīgi sarežģītas atkarības starp mainīgo grupām vai pat tikai mainīgo pāriem, kas nav lineāras atkarības, un tās neparādās korelācijās. Tātad, piemēram, ja jums ir divi mainīgie un visi šo divu mainīgo punkti atrodas kaut kādā spirālē, starp šiem diviem mainīgajiem ir ļoti spēcīga atkarība, vai ne? Bet patiesībā, ja jūs aprēķināt korelāciju starp šiem diviem mainīgajiem, tie nav savstarpēji saistīti. Tātad, šeit ir piemērs, kur šo divu mainīgo informācijas saturs patiesībā ir ļoti mazs, tas ir tikai viens daudzums, jo tā ir jūsu pozīcija spirālē. Tie ir dekorelēti, tāpēc jūs domājat, ka jums ir daudz informācijas, kas nāk no šiem diviem mainīgajiem, lai gan patiesībā jums tā nav, jums ir tikai, jūs zināt, jūs varat paredzēt vienu no mainīgajiem pēc būtības. Tātad tas parāda, ka mums ir tikai ļoti aptuveni veidi, kā izmērīt informācijas saturu.

ZDNet: Un tā ir viena no lietām, pie kuras jums tagad ir jāstrādā? Šis ir lielākais jautājums par to, kā mēs zinām, kad mēs palielinām un samazinam informācijas saturu?

YL:  Vai arī starpniekserveris, ko mēs izmantojam šim nolūkam, ir pietiekami labs vēlamajam uzdevumam. Patiesībā mēs to darām visu laiku mašīnmācībā. Izmaksu funkcijas, kuras mēs samazinām, nekad nav tās, kuras mēs patiesībā vēlamies samazināt. Tātad, piemēram, jūs vēlaties veikt klasifikāciju, labi? Izmaksu funkcija, kuru vēlaties samazināt, apmācot klasifikatoru, ir klasifikatora pieļauto kļūdu skaits. Bet tā ir nediferencējama, briesmīga izmaksu funkcija, kuru nevar samazināt, jo zināt, ka mainīsit sava neironu tīkla svaru, nekas nemainīsies, kamēr kāds no šiem paraugiem nepamainīs savu lēmumu, un tad lēciens. kļūdā, pozitīvā vai negatīvā.

ZDNet: Tātad jums ir starpniekserveris, kas ir objektīva funkcija, par kuru jūs noteikti varat teikt, ka mēs noteikti varam plūst šīs lietas gradientus.

YL: Pareizi. Tātad cilvēki izmanto šo krustentropijas zudumu jeb SOFTMAX, jums ir vairāki nosaukumi, taču tas ir viens un tas pats. Un būtībā tā ir vienmērīga sistēmas pieļauto kļūdu skaita tuvināšana, kur izlīdzināšana tiek veikta, pamatā ņemot vērā punktu skaitu, ko sistēma piešķir katrai no kategorijām.

ZDNet: Vai ir kaut kas, ko mēs neesam apskatījuši un ko jūs vēlētos aptvert?

YL: Tas, iespējams, uzsver galvenos punktus. Es domāju, ka mākslīgā intelekta sistēmām ir jāspēj argumentēt, un process, ko es atbalstu, samazina kādu mērķi attiecībā uz kādu latentu mainīgo. Tas ļauj sistēmām plānot un pamatot. Es domāju, ka mums vajadzētu atteikties no varbūtības sistēmas, jo tas ir grūti atrisināms, ja mēs vēlamies veikt tādas darbības kā atkarības starp augstas dimensijas nepārtrauktiem mainīgajiem. Un es iestājos par atteikšanos no ģeneratīvajiem modeļiem, jo ​​sistēmai būs jāvelta pārāk daudz resursu, lai prognozētu lietas, kuras ir pārāk grūti paredzēt un kuras, iespējams, patērē pārāk daudz resursu. Un tas ir gandrīz viss. Ja vēlaties, tie ir galvenie ziņojumi. Un tad kopējā arhitektūra. Tad ir tādas spekulācijas par apziņas būtību un konfigurētāja lomu, bet tās tiešām ir spekulācijas.

ZDNet: Pie tā tiksim nākamreiz. Es gribēju jums jautāt, kā jūs novērtējat šo lietu? Bet es domāju, ka jūs šobrīd esat nedaudz tālāk no etalonuzdevuma?

YL: Ne vienmēr tik tālu, sava veida, vienkāršotas versijas. Jūs varat darīt to, ko visi dara kontroles vai pastiprināšanas mācībās, tas ir, jūs apmācāt lietu spēlēt Atari spēles vai kaut ko līdzīgu, vai kādu citu spēli, kurā ir zināma nenoteiktība.

ZDNet: Paldies par jūsu laiku, Yann.

avots