Ang AI guru ng Meta na si LeCun: Karamihan sa mga diskarte sa AI ngayon ay hindi kailanman hahantong sa tunay na katalinuhan

yann-lecun-sept-2022-1

"Sa palagay ko, ang mga AI system ay kailangang makapag-reason," sabi ni Yann LeCun, ang punong AI scientist ng Meta. Ang mga sikat na diskarte sa AI ngayon tulad ng Transformers, na marami sa mga ito ay batay sa kanyang sariling pangunguna sa larangan, ay hindi magiging sapat. "Kailangan mong gumawa ng isang hakbang pabalik at sabihin, Okay, ginawa namin ang hagdan na ito, ngunit gusto naming pumunta sa buwan, at walang paraan na ang hagdan na ito ay pupunta sa amin doon," sabi ni LeCun.

Yann LeCun, punong AI scientist ng Meta Properties, may-ari ng Facebook, Instagram, at WhatsApp, ay malamang na tiktikan ang maraming tao sa kanyang larangan. 

Sa pag-post noong Hunyo ng isang think piece sa Open Review server, nag-alok si LeCun ng malawak na pangkalahatang-ideya ng isang diskarte na sa tingin niya ay may pangako para sa pagkamit ng katalinuhan sa antas ng tao sa mga makina. 

Ang ipinahiwatig kung hindi ipinahayag sa papel ay ang pagtatalo na ang karamihan sa mga malalaking proyekto ngayon sa AI ay hindi kailanman makakamit ang layunin sa antas ng tao.

Sa isang talakayan ngayong buwan kasama ang ZDNet sa pamamagitan ng Zoom, nilinaw ni LeCun na tinitingnan niya nang may malaking pag-aalinlangan ang marami sa pinakamatagumpay na paraan ng pananaliksik sa malalim na pag-aaral sa ngayon.

"Sa tingin ko kailangan ang mga ito ngunit hindi sapat," sabi ng nagwagi ng Turing Award ZDNet sa mga hinahangad ng kanyang mga kasamahan. 

Kasama sa mga iyon ang malalaking modelo ng wika tulad ng Transformer-based GPT-3 at ang kanilang mga katulad. Tulad ng paglalarawan dito ng LeCun, naniniwala ang mga deboto ng Transformer, "Ginatoken namin ang lahat, at nagsasanay ng napakalakingmga modelo upang gumawa ng mga hiwalay na hula, at kahit papaano ay lalabas ang AI dito."

"Hindi sila mali," sabi niya, "sa diwa na maaaring bahagi iyon ng isang hinaharap na intelligent na sistema, ngunit sa palagay ko ito ay nawawala ang mahahalagang piraso."

Ito: Sinasaliksik ng AI luminary na LeCun ng Meta ang energy frontier ng malalim na pag-aaral

Ito ay isang nakagugulat na pagpuna sa kung ano ang tila gumagana na nagmumula sa iskolar na nagperpekto sa paggamit ng mga convolutional neural network, isang praktikal na pamamaraan na hindi kapani-paniwalang produktibo sa mga deep learning program. 

Nakikita ng LeCun ang mga kapintasan at limitasyon sa maraming iba pang lubos na matagumpay na mga bahagi ng disiplina. 

Ang pag-aaral ng reinforcement ay hindi rin magiging sapat, pinananatili niya. Ang mga mananaliksik gaya ni David Silver ng DeepMind, na bumuo ng programang AlphaZero na pinagkadalubhasaan ang Chess, Shogi at Go, ay tumutuon sa mga programang "napaka-base sa aksyon," ang sabi ng LeCun, ngunit "karamihan sa mga pag-aaral na ginagawa namin, hindi namin ginagawa. gawin ito sa pamamagitan ng aktwal na paggawa ng mga aksyon, ginagawa namin ito sa pamamagitan ng pagmamasid." 

Si Lecun, 62, mula sa isang pananaw ng mga dekada ng tagumpay, gayunpaman ay nagpapahayag ng pangangailangang harapin ang sa tingin niya ay ang mga bulag na eskinita na maaaring dinadaanan ng marami, at subukang hikayatin ang kanyang larangan sa direksyon na sa tingin niya ay dapat pumunta. 

"Nakikita namin ang maraming claim kung ano ang dapat naming gawin upang itulak ang AI sa antas ng tao," sabi niya. "At may mga ideya na sa tingin ko ay mali ang direksyon."

“Wala pa tayo sa punto kung saan ang ating mga matatalinong makina ay may common sense na gaya ng isang pusa,” ang sabi ni Lecun. "So, bakit hindi natin simulan doon?" 

Inabandona niya ang kanyang dating pananampalataya sa paggamit ng mga generative network sa mga bagay tulad ng paghula sa susunod na frame sa isang video. "Ito ay isang ganap na kabiguan," sabi niya. 

Tinutuligsa ni LeCun ang mga tinatawag niyang "mga relihiyosong probabilist," na "sa tingin ng teorya ng posibilidad ay ang tanging balangkas na maaari mong gamitin upang ipaliwanag ang pag-aaral ng makina." 

Ang purong istatistikal na diskarte ay hindi maiiwasan, sabi niya. “Napakaraming hilingin na maging ganap na probabilistiko ang isang modelo ng mundo; hindi namin alam kung paano gagawin."

Hindi lamang ang mga akademya, ngunit ang pang-industriya na AI ay nangangailangan ng isang malalim na muling pag-iisip, argues LeCun. Ang karamihan ng mga nagtutulak sa sarili na kotse, ang mga startup tulad ng Wayve, ay "medyo masyadong maasahin sa mabuti," sabi niya, sa pamamagitan ng pag-iisip na maaari silang "magtapon ng data sa" malalaking neural network "at marami kang matututunan."

"Alam mo, sa palagay ko ay lubos na posible na magkaroon tayo ng antas-limang autonomous na mga kotse na walang sentido komun," sabi niya, na tumutukoy sa "ADAS," advanced na sistema ng tulong sa pagmamaneho mga tuntunin para sa self-driving, "ngunit kailangan mong i-engineer ang impiyerno mula dito."

Ang nasabing over-engineered na self-driving tech ay magiging isang bagay na kasing langitngit at malutong gaya ng lahat ng mga programa sa computer vision na ginawang lipas na sa pamamagitan ng malalim na pag-aaral, naniniwala siya.

"Sa huli, magkakaroon ng mas kasiya-siya at posibleng mas mahusay na solusyon na kinasasangkutan ng mga system na gumagawa ng mas mahusay na trabaho sa pag-unawa sa paraan ng paggana ng mundo."

Kasabay nito, nag-aalok si LeCun ng ilang nalalanta na mga pananaw sa kanyang pinakamalalaking kritiko, tulad ng propesor ng NYU na si Gary Marcus — “hindi siya kailanman nag-ambag ng anuman sa AI” — at Jürgen Schmidhuber, co-director ng Dalle Molle Institute for Artificial Intelligence Research — “ito ay napakadaling gawin ang flag-planting.”

Higit pa sa mga kritika, ang mas mahalagang punto na ginawa ng LeCun ay ang ilang mga pangunahing problema ay kinakaharap ang lahat ng AI, lalo na, kung paano sukatin ang impormasyon.

"Kailangan mong umatras ng isang hakbang at sabihin, Okay, ginawa namin ang hagdan na ito, ngunit gusto naming pumunta sa buwan, at walang paraan na ang hagdan na ito ay pupunta sa amin doon," sabi ni LeCun ng kanyang pagnanais na mag-udyok ng muling pag-iisip ng mga batayang konsepto. "Basically, ang sinusulat ko dito, kailangan nating gumawa ng mga rocket, hindi ko maibigay sa iyo ang mga detalye kung paano tayo gumagawa ng mga rocket, ngunit narito ang mga pangunahing prinsipyo."

Ang papel, at ang mga iniisip ni LeCun sa panayam, ay mas mauunawaan sa pamamagitan ng pagbabasa ng panayam ni LeCun mas maaga sa taong ito kasama ang ZDNet kung saan pinagtatalunan niya ang pag-aaral na self-supervised na nakabatay sa enerhiya bilang isang landas para sa malalim na pag-aaral. Ang mga pagmumuni-muni na iyon ay nagbibigay ng kahulugan ng pangunahing diskarte sa kung ano ang inaasahan niyang mabuo bilang isang kahalili sa mga bagay na inaangkin niyang hindi makakarating sa linya ng pagtatapos. 

Ang sumusunod ay isang bahagyang na-edit na transcript ng panayam.

ZDNet: Ang paksa ng aming chat ay ang papel na ito, "Isang landas patungo sa autonomous machine intelligence," kung aling bersyon 0.9.2 ang umiiral na bersyon, oo?

Yann LeCun: Oo, itinuturing ko ito, uri-ng, isang gumaganang dokumento. Kaya, nai-post ko ito sa Open Review, naghihintay para sa mga tao na gumawa ng mga komento at mungkahi, marahil ay karagdagang mga sanggunian, at pagkatapos ay gagawa ako ng isang binagong bersyon. 

ZDNet: Nakikita ko na nagdagdag na si Juergen Schmidhuber ng ilang komento sa Open Review.

YL: Well, yeah, lagi niyang ginagawa. I cite one of his papers doon sa papel ko. Sa palagay ko ang mga argumento na ginawa niya sa mga social network na karaniwang inimbento niya ang lahat ng ito noong 1991, tulad ng ginawa niya sa ibang mga kaso, ay hindi totoo. I mean, napakadaling gawinpagtatanim ng bandila, at, uri-ng, magsulat ng isang ideya nang walang anumang mga eksperimento, nang walang anumang teorya, imungkahi lamang na magagawa mo ito sa ganitong paraan. Ngunit, alam mo, may malaking pagkakaiba sa pagitan ng pagkakaroon lamang ng ideya, at pagkatapos ay gawin ito sa isang problema sa laruan, at pagkatapos ay gawin ito sa isang tunay na problema, at pagkatapos ay gumawa ng isang teorya na nagpapakita kung bakit ito gumagana, at pagkatapos pagpapakalat nito. Mayroong isang buong kadena, at ang kanyang ideya ng pang-agham na kredito ay ito ang pinakaunang tao na, uri-ng, alam mo, nagkaroon ng ideya niyan, na dapat makakuha ng lahat ng kredito. At iyon ay katawa-tawa. 

ZDNet: Huwag maniwala sa lahat ng naririnig mo sa social media. 

YL: Ibig kong sabihin, ang pangunahing papel na sinasabi niyang dapat kong banggitin ay walang alinman sa mga pangunahing ideya na pinag-uusapan ko sa papel. Nagawa na rin niya ito sa mga GAN at iba pang bagay, na hindi naging totoo. Madaling mag-flag-planting, mas mahirap mag-ambag. At, sa pamamagitan ng paraan, sa partikular na papel na ito, tahasan kong sinabi na hindi ito isang siyentipikong papel sa karaniwang kahulugan ng termino. Ito ay higit pa sa isang posisyong papel tungkol sa kung saan dapat pumunta ang bagay na ito. At mayroong ilang mga ideya doon na maaaring bago, ngunit karamihan sa mga ito ay hindi. I'm not claiming any priority on most of what I wrote in that paper, essentially.

yann-lecun-sept-2022-2

Hindi rin magiging sapat ang reinforcement learning, ayon sa LeCun. Ang mga mananaliksik tulad ni David Silver ng DeepMind, na bumuo ng programang AlphaZero na pinagkadalubhasaan ang Chess, Shogi at Go, ay "napaka-action-based," obserbasyon ng LeCun, ngunit "karamihan sa mga pag-aaral na ginagawa namin, hindi namin ginagawa ito sa pamamagitan ng aktwal na pagkuha mga aksyon, ginagawa natin ito sa pamamagitan ng pagmamasid. 

ZDNet: At iyon ay marahil isang magandang lugar upang magsimula, dahil nagtataka ako kung bakit mo itinuloy ang landas na ito ngayon? Ano ang naisip mo tungkol dito? Bakit mo gustong isulat ito?

YL: Kaya naman, matagal ko na itong pinag-iisipan, tungkol sa isang landas patungo sa antas ng tao o antas ng hayop na uri ng katalinuhan o pagkatuto at mga kakayahan. At, sa aking mga pag-uusap ay naging malinaw ako tungkol sa buong bagay na ito na ang parehong pinangangasiwaang pag-aaral at pag-aaral ng pampalakas ay hindi sapat upang tularan ang uri ng pag-aaral na nakikita natin sa mga hayop at tao. Ginagawa ko ito sa loob ng pito o walong taon. Kaya, hindi ito kamakailan. Mayroon akong pangunahing tono sa NeurIPS maraming taon na ang nakalilipas kung saan sinabi ko ang puntong iyon, mahalagang, at iba't ibang mga pag-uusap, mayroong mga pag-record. Ngayon, bakit sumulat ng papel ngayon? Dumating na ako sa punto — [Google Brain researcher] Geoff Hinton had done something similar — I mean, certainly, him more than me, we see time running out. Hindi tayo bata.

ZDNet: Sixty ay ang bagong limampu. 

YL: Totoo iyon, ngunit ang punto ay, nakikita natin ang maraming pag-aangkin kung ano ang dapat nating gawin upang itulak ang antas ng tao ng AI. At may mga ideya na sa tingin ko ay mali ang direksyon. Kaya, ang isang ideya ay, Oh, dapat lamang nating idagdag ang simbolikong pangangatwiran sa ibabaw ng neural nets. At hindi ko alam kung paano ito gagawin. Kaya, marahil ang ipinaliwanag ko sa papel ay maaaring isang diskarte na gagawin ang parehong bagay nang walang tahasang pagmamanipula ng simbolo. Ito ang uri ng tradisyonal na Gary Marcuses ng mundo. Si Gary Marcus ay hindi isang taong AI, siya nga pala ay isang psychologist. Wala siyang naiambag kahit ano sa AI. Nakagawa siya ng napakahusay na trabaho sa pang-eksperimentong sikolohiya ngunit hindi siya kailanman nagsulat ng isang peer-reviewed na papel sa AI. So, nandiyan yung mga tao. 

Nandiyan ang [DeepMind principle research scientist] na si David Silvers ng mundo na nagsasabing, alam mo, sapat na ang reward, basically, ito ay tungkol sa reinforcement learning, kailangan lang nating gawin itong mas mahusay, okay? At, sa palagay ko, hindi sila mali, ngunit sa palagay ko ang mga kinakailangang hakbang tungo sa paggawa ng reinforcement na pag-aaral na mas episyente, karaniwang, ay mag-relegate ng reinforcement na pag-aaral upang mag-uri-uriin ang isang cherry sa cake. At ang pangunahing nawawalang bahagi ay ang pag-aaral kung paano gumagana ang mundo, karamihan sa pamamagitan ng pagmamasid nang walang aksyon. Ang pag-aaral ng reinforcement ay nakabatay sa aksyon, natututo ka ng mga bagay tungkol sa mundo sa pamamagitan ng paggawa ng mga aksyon at pagtingin sa mga resulta.

ZDNet: At ito ay nakatuon sa gantimpala.

YL: Nakatuon ito sa gantimpala, at nakatutok din sa aksyon. Kaya, kailangan mong kumilos sa mundo para may matutunan ka tungkol sa mundo. At ang pangunahing sinasabi ko sa papel tungkol sa self-supervised learning ay, karamihan sa mga pag-aaral na ginagawa namin, hindi namin ito ginagawa sa pamamagitan ng aktwal na paggawa ng mga aksyon, ginagawa namin ito sa pamamagitan ng pagmamasid. At ito ay napaka-unorthodox, kapwa para sa reinforcement na pag-aaral ng mga tao, lalo na, ngunit para din sa maraming psychologist at cognitive scientist na nag-iisip na, alam mo, ang aksyon ay — hindi ko sinasabing ang aksyon ay hindi mahalaga, ito is mahalaga. Ngunit sa palagay ko ang karamihan sa natutunan natin ay halos tungkol sa istruktura ng mundo, at nagsasangkot, siyempre, pakikipag-ugnayan at pagkilos at paglalaro, at mga bagay na katulad niyan, ngunit marami sa mga ito ay pagmamasid.

ZDNet: Magagawa mo ring tiktikan ang mga taong Transformer, ang mga taong unang-wika, nang sabay-sabay. Paano mo ito mabubuo nang walang wika muna? Maaari mong tiktikan ang maraming tao. 

YL: Oo, sanay na ako sa ganyan. Kaya, oo, mayroong mga taong unang-wika, na nagsasabing, alam mo, ang katalinuhan ay tungkol sa wika, ang substrate ng katalinuhan ay wika, blah, blah, blah. Ngunit iyon, uri-ng, ay nagpapawalang-bisa sa katalinuhan ng hayop. Alam mo, wala pa tayo sa puntong ang ating mga matatalinong makina ay may common sense na gaya ng pusa. Kaya, bakit hindi tayo magsimula doon? Ano ang nagbibigay-daan sa isang pusa na maunawaan ang nakapaligid na mundo, gumawa ng medyo matalinong mga bagay, at magplano at mga bagay na tulad niyan, at mas mahusay pa ang mga aso? 

Tapos ang lahat ng mga tao na nagsasabi, Oh, ang katalinuhan ay isang bagay na panlipunan, tama ba? We're intelligent kasi we talk to each other and we exchange information, and blah, blah, blah. Mayroong lahat ng uri ng mga nonsocial na species na hindi nakakakilala sa kanilang mga magulang na napakatalino, tulad ng octopus o orangutan.Ibig kong sabihin, sila [orangutans] ay tiyak na tinuturuan ng kanilang ina, ngunit hindi sila mga hayop sa lipunan. 

Ngunit ang iba pang kategorya ng mga tao na maaari kong tiktikan ay ang mga taong nagsasabing sapat na ang pag-scale. So, basically, we just use gigantic Transformers, we train them on multimodal data that involves, you know, video, text, blah, blah, blah. Kami, uri-ng, petrifylahat, at tokenize ang lahat, at pagkatapos ay magsanay ng napakalakingmga modelo upang gumawa ng mga hiwalay na hula, sa pangkalahatan, at kahit papaano ay lalabas dito ang AI. Hindi sila mali, sa diwa na maaaring bahagi iyon ng isang intelligent na sistema sa hinaharap. Ngunit sa tingin ko ito ay nawawala ang mahahalagang piraso. 

May isa pang kategorya ng mga taong pipiliin ko sa papel na ito. At ito ay ang mga probabilist, ang mga relihiyosong probabilist. Kaya, ang mga taong nag-iisip na ang teorya ng posibilidad ay ang tanging balangkas na maaari mong gamitin upang ipaliwanag ang machine learning. At bilang sinubukan kong ipaliwanag sa piraso, ito ay karaniwang masyadong maraming upang humingi ng isang modelo ng mundo upang maging ganap na probabilistic. Hindi namin alam kung paano ito gagawin. Nariyan ang computational intractability. Kaya ipinapanukala kong i-drop ang buong ideyang ito. At siyempre, alam mo, ito ay isang napakalaking haligi ng hindi lamang machine learning, ngunit lahat ng mga istatistika, na sinasabing ang normal na pormalismo para sa machine learning. 

Ang iba pang bagay - 

ZDNet: Ikaw ay nasa isang roll…

YL: — ang tinatawag na generative models. Kaya, ang ideya na maaari kang matutong manghula, at maaari kang matuto ng marami tungkol sa mundo sa pamamagitan ng hula. Kaya, binibigyan kita ng isang piraso ng video at hinihiling ko sa system na hulaan kung ano ang susunod na mangyayari sa video. At maaari kong hilingin sa iyo na hulaan ang mga aktwal na video frame kasama ang lahat ng mga detalye. Ngunit ang pinagtatalunan ko sa papel ay iyon ay talagang napakaraming itanong at masyadong kumplikado. At ito ay isang bagay na binago ko ang aking isip. Hanggang sa humigit-kumulang dalawang taon na ang nakalipas, dati akong tagapagtaguyod ng tinatawag kong latent variable generative models, mga modelong hinuhulaan kung ano ang susunod na mangyayari o ang impormasyong nawawala, posibleng sa tulong ng latent variable, kung ang hula ay hindi. deterministiko. At sumuko na ako dito. At ang dahilan kung bakit ako sumuko dito ay batay sa mga empirical na resulta, kung saan sinubukan ng mga tao na mag-apply, uri-uri, hula o reconstruction-based na pagsasanay ng uri na ginagamit sa BERTat malalaking modelo ng wika, sinubukan nilang ilapat ito sa mga larawan, at ito ay isang kumpletong kabiguan. At ang dahilan kung bakit ito ay isang kumpletong pagkabigo ay, muli, dahil sa mga hadlang ng mga probabilistikong modelo kung saan medyo madaling hulaan ang mga discrete na token tulad ng mga salita dahil maaari nating kalkulahin ang pamamahagi ng posibilidad sa lahat ng mga salita sa diksyunaryo. madali lang yan. Ngunit kung hihilingin namin sa system na gumawa ng probability distribution sa lahat ng posibleng video frame, wala kaming ideya kung paano ito i-parameter, o mayroon kaming ideya kung paano ito i-parameter, ngunit hindi namin alam kung paano ito i-normalize. Ito ay tumama sa isang mahirap na problema sa matematika na hindi natin alam kung paano lutasin. 

yann-lecun-sept-2022-3

“Wala pa tayo sa punto kung saan ang ating mga matatalinong makina ay may common sense na gaya ng isang pusa,” ang sabi ni Lecun. “So, bakit hindi natin simulan doon? Ano ang nagbibigay-daan sa isang pusa na maunawaan ang nakapaligid na mundo, gumawa ng mga matalinong bagay, at magplano at mga bagay na tulad niyan, at mas mahusay pa ang mga aso?"

Kaya, iyon ang dahilan kung bakit sinasabi kong abandunahin natin ang probability theory o ang balangkas para sa mga bagay na ganoon, ang mas mahina, ang mga modelong nakabatay sa enerhiya. I've been advocating for this, also, for decades, so this is not a recent thing. Ngunit kasabay nito, ang pag-abandona sa ideya ng mga generative na modelo dahil maraming mga bagay sa mundo na hindi maintindihan at hindi mahuhulaan. Kung engineer ka, ingay ang tawag mo dito. Kung ikaw ay isang physicist, tinatawag mo itong init. At kung ikaw ay isang machine learning na tao, tinatawag mo ito, alam mo, walang kaugnayang mga detalye o kung ano pa man.

Kaya, ang halimbawang ginamit ko sa papel, o ginamit ko sa mga pag-uusap, ay, gusto mo ng isang sistema ng paghuhula sa mundo na makakatulong sa isang self-driving na kotse, tama ba? Gusto nitong mahulaan, nang maaga, ang mga trajectory ng lahat ng iba pang mga sasakyan, kung ano ang mangyayari sa iba pang mga bagay na maaaring gumalaw, mga pedestrian, mga bisikleta, isang bata na tumatakbo pagkatapos ng soccer ball, mga bagay na tulad niyan. Kaya, lahat ng uri ng mga bagay tungkol sa mundo. Ngunit sa hangganan ng kalsada, maaaring may mga puno, at may hangin ngayon, kaya ang mga dahon ay gumagalaw sa hangin, at sa likod ng mga puno ay may lawa, at may mga alon sa lawa. At iyon ay, mahalagang, higit sa lahat hindi nahuhulaang phenomena. At, hindi mo gustong gumastos ang iyong modelo ng malaking halaga ng mga mapagkukunan sa paghula sa mga bagay na parehong mahirap hulaan at walang kaugnayan. Kaya iyan ang dahilan kung bakit ako nagsusulong para sa pinagsamang arkitektura ng pag-embed, ang mga bagay kung saan ang variable na sinusubukan mong i-modelo, hindi mo sinusubukang hulaan ito, sinusubukan mong i-modelo ito, ngunit ito ay tumatakbo sa isang encoder, at maaaring alisin ng encoder na iyon ang maraming detalye tungkol sa input na hindi nauugnay o masyadong kumplikado — karaniwang katumbas ng ingay.

ZDNet: Tinalakay namin mas maaga sa taong ito ang mga modelong nakabatay sa enerhiya, ang JEPA at H-JEPA. Ang pakiramdam ko, kung naiintindihan kita nang tama, hinahanap mo ba ang punto ng mababang enerhiya kung saan ang dalawang hulang ito ng X at Y embeddings ay halos magkapareho, ibig sabihin, kung mayroong kalapati sa isang puno sa isa, at mayroong isang bagay sa background ng isang eksena, maaaring hindi iyon ang mga mahahalagang punto na nagpapalapit sa mga pagkaka-embed na ito sa isa't isa.

YL: Tama. Kaya, ang arkitektura ng JEPA ay talagang sumusubok na makahanap ng isang tradeoff, isang kompromiso, sa pagitan ng pagkuha ng mga representasyon na pinakamaraming impormasyon tungkol sa mga input ngunit mahuhulaan din mula sa isa't isa na may ilang antas ng katumpakan o pagiging maaasahan. Nakahanap ito ng isang tradeoff. Kaya, kung ito ay may pagpipilian sa pagitan ng paggastos ng isang malaking halaga ng mga mapagkukunan kabilang ang mga detalye ng paggalaw ng mga dahon, at pagkatapos ay pagmomodelo sa mga dinamika na magpapasya kung paano ang mga dahon ay gumagalaw ng isang segundo mula ngayon, o ihuhulog lamang iyon sa sahig sa pamamagitan ng karaniwang pinapatakbo lang ang variable na Y sa pamamagitan ng isang predictor na nag-aalis ng lahat ng mga detalyeng iyon, malamang na aalisin lang ito dahil napakahirap imodelo at makuha.

ZDNet: Ang isang bagay na nagulat ay naging isang mahusay na tagapagtaguyod ng pagsasabi na "Gumagana ito, malalaman natin mamaya ang teorya ng thermodynamics upang ipaliwanag ito." Dito ay gumawa ka ng isang diskarte ng, "Hindi ko alam kung paano natin ito lulutasin, ngunit gusto kong maglagay ng ilang mga ideya upang pag-isipan ito," at marahil ay lumalapit sa isang teorya o isang hypothesis, sa hindi bababa sa. Iyan ay kawili-wili dahil maraming mga tao ang gumagastos ng maraming pera sa pagtatrabaho sa kotse na maaaring makita ang pedestrian hindi alintana kung ang kotse ay may sentido komun. At naisip ko na ang ilan sa mga taong iyon ay, hindi nakikiliti, ngunit sasabihin nila, "Mabuti naman, wala kaming pakialam kung wala itong sentido komun, gumawa kami ng simulation, kamangha-mangha ang simulation, at patuloy kaming magpapabuti, patuloy naming i-scale ang simulation.” 

At kaya nakakatuwang nasa posisyon ka na ngayon na sabihin, bumalik tayo ng isang hakbang at pag-isipan kung ano ang ginagawa natin. At sinasabi ng industriya na i-scale, scale, scale, scale lang, dahil gumagana talaga ang crank na iyon. Ibig kong sabihin, gumagana talaga ang semiconductor crank ng mga GPU.

YL: Mayroong, tulad ng, limang tanong doon. So, I mean, kailangan ang scaling. Hindi ko pinupuna ang katotohanan na dapat nating sukatin. Dapat nating sukatin. Ang mga neural net na iyon ay nagiging mas mahusay habang sila ay lumalaki. Walang tanong na dapat nating sukatin. At ang mga magkakaroon ng ilang antas ng sentido komun ay magiging malaki. Walang paraan sa paligid na, sa tingin ko. Kaya't ang pag-scale ay mabuti, ito ay kinakailangan, ngunit hindi sapat. Iyan ang puntong ginagawa ko. Ito ay hindi lamang scaling. Iyon ang unang punto. 

Pangalawang punto, kung ang teorya ang mauna at ang mga bagay na katulad nito. Kaya, sa palagay ko, may mga konsepto na mauna na, kailangan mong umatras at sabihin, okay, itinayo namin ang hagdan na ito, ngunit gusto naming pumunta sa buwan at walang paraan na ang hagdan na ito ay pupunta sa amin doon. So, basically, ang isinusulat ko dito, kailangan nating gumawa ng mga rockets. Hindi ko maibibigay sa iyo ang mga detalye kung paano tayo gumagawa ng mga rocket, ngunit narito ang mga pangunahing prinsipyo. At hindi ako sumusulat ng isang teorya para dito o anumang bagay, ngunit, ito ay magiging isang rocket, okay? O isang space elevator o kung ano pa man. Maaaring wala sa amin ang lahat ng detalye ng lahat ng teknolohiya. Sinusubukan naming gawin ang ilan sa mga bagay na iyon, tulad ng ginagawa ko sa JEPA. Gumagana talaga ang pinagsamang pag-embed para sa pagkilala ng larawan, ngunit upang magamit ito upang sanayin ang isang modelo sa mundo, may mga kahirapan. Ginagawa namin ito, umaasa kaming gagawin namin ito soon, ngunit maaari tayong makatagpo ng ilang mga hadlang doon na hindi natin malalampasan, marahil. 

Pagkatapos ay mayroong isang pangunahing ideya sa papel tungkol sa pangangatwiran kung saan kung gusto natin ang mga system na makapagplano, na maaari mong isipin bilang isang simpleng paraan ng pangangatwiran, kailangan nilang magkaroon ng mga nakatagong variable. Sa madaling salita, ang mga bagay na hindi kinukuwenta ng anumang neural net ngunit mga bagay na — na ang halaga ay hinuhulaan upang mabawasan ang ilang layunin na pag-andar, ilang pag-andar ng gastos. At pagkatapos ay maaari mong gamitin ang function ng gastos na ito upang himukin ang pag-uugali ng system. At ito ay hindi isang bagong ideya sa lahat, tama? Ito ay napaka klasikal, pinakamainam na kontrol kung saan ang batayan nito ay bumalik sa huling bahagi ng '50s, unang bahagi ng '60s. Kaya, hindi nag-aangkin ng anumang bagong bagay dito. Ngunit ang sinasabi ko ay ang ganitong uri ng hinuha ay kailangang maging bahagi ng isang matalinong sistema na may kakayahang magplano, at kung saan ang pag-uugali ay maaaring tukuyin o kontrolin hindi ng isang hardwired na pag-uugali, hindi sa pamamagitan ng imitasyon na nakahilig, ngunit sa pamamagitan ng isang layunin na function na nagtutulak ng pag-uugali — hindi nagtutulak ng pag-aaral, kinakailangan, ngunit nagtutulak ito ng pag-uugali. Alam mo, nasa utak natin yan, at bawat hayop ay may intrinsic cost o intrinsic motivations para sa mga bagay-bagay. Na nagtutulak sa mga siyam na buwang gulang na sanggol na gustong tumayo. Ang halaga ng pagiging masaya kapag tumayo ka, ang terminong iyon sa function ng gastos ay hardwired. Ngunit kung paano ka tumayo ay hindi, iyon ay pag-aaral.

yann-lecun-sept-2022-4

"Maganda ang pag-scale, kailangan ito, ngunit hindi sapat," sabi ng LeCun ng mga higanteng modelo ng wika tulad ng mga programang nakabatay sa Transformer ng iba't ibang GPT-3. Naniniwala ang mga deboto ng Transformer, “Gina-tokenize namin ang lahat, at nagsasanay ng napakalakimga modelo upang gumawa ng mga hiwalay na hula, at kahit papaano ay lalabas dito ang AI ... ngunit sa palagay ko ay nawawala ang mahahalagang piraso."

ZDNet: Para lang makumpleto ang puntong iyon, ang karamihan sa komunidad ng malalim na pag-aaral ay mukhang mahusay na magpatuloy sa isang bagay na walang sentido komun. Mukhang gumagawa ka ng isang medyo malinaw na argumento dito na sa isang punto ay nagiging isang hindi pagkakasundo. Ang ilang mga tao ay nagsasabi na hindi namin kailangan ng isang autonomous na kotse na may sentido komun dahil ang pag-scale ay gagawa nito. Parang sinasabi mo na hindi okay na ituloy mo lang ang landas na iyon?

YL: Alam mo, sa tingin ko lubos na posible na magkaroon tayo ng mga antas-limang autonomous na sasakyan na walang sentido komun. Ngunit ang problema sa diskarteng ito, ito ay magiging pansamantala, dahil kailangan mong i-engineer ang impiyerno mula dito. Kaya, alam mo, i-map ang buong mundo, i-hard-wire ang lahat ng uri ng partikular na pag-uugali sa sulok, mangolekta ng sapat na data na mayroon ka ng lahat, uri, kakaibang mga sitwasyon na maaari mong makaharap sa mga kalsada, blah, blah, blah. At ang aking hula ay na may sapat na puhunan at oras, maaari mo lamang i-engineer ang impiyerno mula dito. Ngunit sa huli, magkakaroon ng mas kasiya-siya at posibleng mas mahusay na solusyon na nagsasangkot ng mga system na gumagawa ng mas mahusay na trabaho sa pag-unawa sa paraan ng paggana ng mundo, at mayroon, alam mo, ang ilang antas ng tinatawag nating common sense. Hindi ito kailangang maging common sense sa antas ng tao, ngunit ilang uri ng kaalaman na maaaring makuha ng system sa pamamagitan ng panonood, ngunit hindi pagmamasid sa isang tao na nagmamaneho, pagmamasid lamang ng mga bagay na gumagalaw at pag-unawa ng marami tungkol sa mundo, pagbuo ng pundasyon ng background kaalaman tungkol sa kung paano gumagana ang mundo, kung saan maaari kang matutong magmaneho. 

Hayaan akong kumuha ng isang makasaysayang halimbawa nito. Ang classical na computer vision ay nakabatay sa maraming hardwired, engineered na mga module, sa ibabaw nito ay magkakaroon ka, uri-ng, isang manipis na layer ng pag-aaral. Kaya, ang mga bagay na natalo ng AlexNet noong 2012, ay karaniwang may unang yugto, uri ng, handcrafted na feature extraction, tulad ng SIFTs [Scale-Invariant Feature Transform (SIFT), isang classic vision technique para matukoy ang mga kapansin-pansing bagay sa isang imahe] at HOG [Histogram of Oriented Gradients, another classic technique] at iba't ibang bagay. At pagkatapos ay ang pangalawang layer ng, sort-of, middle-level na mga feature batay sa feature kernels at anuman, at ilang uri ng unsupervised method. At sa ibabaw nito, naglalagay ka ng support vector machine, o kung hindi ay medyo simpleng classifier. At iyon ay, uri-ng, ang karaniwang pipeline mula sa kalagitnaan ng 2000s hanggang 2012. At iyon ay pinalitan ng end-to-end convolutional nets, kung saan hindi mo i-hardwire ang alinman sa mga ito, mayroon ka lang maraming data, at sinasanay mo ang bagay mula sa dulo hanggang sa dulo, na siyang diskarte na matagal ko nang itinataguyod, ngunit alam mo, hanggang noon, ay hindi praktikal para sa malalaking problema. 

Nagkaroon ng katulad na kuwento sa speech recognition kung saan, muli, nagkaroon ng malaking halaga ng detalyadong engineering para sa kung paano mo paunang pinoproseso ang data, kinukuha mo ang mass-scale cepstrum [isang kabaligtaran ng Fast Fourier Transform para sa pagpoproseso ng signal], at pagkatapos mayroon kang Hidden Markov Models, na may sort-of, pre-set na arkitektura, blah, blah, blah, na may Mixture of Gaussians. At kaya, ito ay medyo kapareho ng arkitektura ng vision kung saan mayroon kang handcrafted na front-end, at pagkatapos ay isang medyo hindi pinangangasiwaan, sinanay, gitnang layer, at pagkatapos ay isang pinangangasiwaang layer sa itaas. At ngayon iyon ay, karaniwang, nabura ng end-to-end neural nets. Kaya medyo nakikita ko ang isang bagay na katulad doon sa pagsisikap na matutunan ang lahat, ngunit kailangan mong magkaroon ng tamang nauna, ang tamang arkitektura, ang tamang istraktura.

yann-lecun-sept-2022-5

Ang karamihan ng mga nagtutulak sa sarili na kotse, ang mga startup tulad ng Waymo at Wayve, ay "medyo masyadong maasahin sa mabuti," sabi niya, sa pamamagitan ng pag-iisip na maaari nilang "ihagis ang data dito, at marami kang matututunan." Ang mga self-driving na kotse sa Level 5 ng ADAS ay posible, "Ngunit kailangan mong i-engineer ang impiyerno mula dito" at magiging "malutong" tulad ng mga unang modelo ng computer vision.

ZDNet: Ang sinasabi mo ay, susubukan ng ilang tao na i-engineer kung ano ang kasalukuyang hindi gumagana sa malalim na pag-aaral para sa applicability, halimbawa, sa industriya, at magsisimula silang lumikha ng isang bagay na naging lipas na sa computer vision?

YL: Tama. At ito ay bahagyang kung bakit ang mga taong nagtatrabaho sa autonomous na pagmamaneho ay medyo masyadong optimistiko sa nakalipas na ilang taon, ay dahil, alam mo, mayroon kang mga ito, uri-uri, mga generic na bagay tulad ng convolutional nets at Transformers, na maaari mong itapon ang data dito , at marami itong matututunan. Kaya, sasabihin mo, Okay, mayroon akong solusyon sa problemang iyon. Ang unang bagay na gagawin mo ay bumuo ka ng isang demo kung saan ang kotse ay nagmamaneho mismo sa loob ng ilang minuto nang hindi nakakasakit ng sinuman. At pagkatapos ay napagtanto mo na mayroong maraming mga sulok na kaso, at sinusubukan mong i-plot ang kurba kung gaano ako kahusay habang doble ko ang set ng pagsasanay, at napagtanto mong hindi ka na makakarating doon dahil mayroong lahat ng uri ng mga sulok na kaso . At kailangan mong magkaroon ng kotse na magdudulot ng isang nakamamatay na aksidente nang wala pang 200 milyong kilometro, tama ba? So, anong gagawin mo? Aba, maglalakad ka sa dalawang direksyon. 

Ang unang direksyon ay, paano ko mababawasan ang dami ng data na kailangan para matutunan ng aking system? At doon pumapasok ang self-supervised learning. Kaya, maraming mga self-driving car outfit ang interesadong interesado sa self-supervised na pag-aaral dahil iyon ay isang paraan ng paggamit pa rin ng napakalaking dami ng supervisory data para sa imitation learning, ngunit ang pagkuha ng mas mahusay na performance sa pamamagitan ng pre-training, mahalagang. At ito ay hindi pa ganap na panned out, ngunit ito ay. At pagkatapos ay mayroong iba pang opsyon, na pinagtibay ng karamihan sa mga kumpanya na mas advanced sa puntong ito, na, okay, maaari nating gawin ang end-to-end na pagsasanay, ngunit maraming mga sulok na kaso na magagawa natin' t hawakan, kaya mag-i-engineer lang kami ng mga system na mag-aasikaso sa mga sulok na kaso, at, karaniwang, ituring ang mga ito bilang mga espesyal na kaso, at i-hardwire ang kontrol, at pagkatapos ay gagawa ng maraming pangunahing pag-uugali upang mahawakan ang mga espesyal na sitwasyon. At kung mayroon kang sapat na malaking pangkat ng mga inhinyero, maaari mo itong gawin. Ngunit magtatagal ito, at sa huli, magiging malutong pa rin ito, marahil sapat na maaasahan na maaari mong i-deploy, ngunit may ilang antas ng brittleness, na, na may higit na nakabatay sa pag-aaral na diskarte na maaaring lumitaw sa hinaharap, hindi magkakaroon ng mga kotse dahil maaaring mayroon itong ilang antas ng sentido komun at pag-unawa tungkol sa kung paano gumagana ang mundo. 

Sa maikling panahon, ang, sort-of, engineered approach ay mananalo — ito ay mananalo na. Iyan ang Waymo at Cruise ng mundo at Wayveat kung ano man, iyon ang ginagawa nila. Pagkatapos ay mayroong self-supervised learning approach, na marahil ay makakatulong sa engineered approach para umunlad. Ngunit pagkatapos, sa katagalan, na maaaring masyadong mahaba para sa mga kumpanyang iyon na hintayin, ay malamang na, uri-ng, isang mas pinagsamang autonomous na intelligent na sistema sa pagmamaneho.

ZDNet: Sinasabi namin na lampas sa abot-tanaw ng pamumuhunan ng karamihan sa mga mamumuhunan.

YL: Tama iyan. Kaya, ang tanong, mawawalan ba ng pasensya ang mga tao o mauubusan ng pera bago maabot ang pagganap sa nais na antas.

ZDNet: Mayroon bang anumang kawili-wiling sabihin tungkol sa kung bakit pinili mo ang ilan sa mga elementong pinili mo sa modelo? Dahil binanggit mo si Kenneth Craik [1943,Ang Kalikasan ng Paliwanag], at binanggit mo sina Bryson at Ho [1969, Inilapat ang pinakamainam na kontrol], at nagtataka ako kung bakit ka nagsimula sa mga impluwensyang ito, kung naniniwala ka lalo na na ang mga taong ito ay napako ito hanggang sa kung ano ang kanilang ginawa. Bakit ka nagsimula dyan?

YL: Well, hindi ko iniisip, tiyak, nakuha nila ang lahat ng mga detalye. Kaya, Bryson at Ho, ito ay isang aklat na nabasa ko noong 1987 noong ako ay postdoc kasama si Geoffrey Hinton sa Toronto. Ngunit alam ko ang tungkol sa linyang ito ng trabaho bago pa man noong isinusulat ko ang aking PhD, at ginawa ang koneksyon sa pagitan ng pinakamainam na kontrol at backprop, mahalagang. Kung gusto mo talagang maging, alam mo, isa pang Schmidhuber, sasabihin mo na ang mga tunay na imbentor ng backprop ay talagang pinakamainam na control theorists na sina Henry J. Kelley, Arthur Bryson, at marahil kahit na si Lev Pontryagin, na isang Russian theorist of optimal control back. sa huling bahagi ng '50s. 

Kaya, naisip nila ito, at sa katunayan, makikita mo talaga ang ugat nito, ang matematika sa ilalim nito, ay Lagrangian mechanics. Kaya maaari kang bumalik sa Euler at Lagrange, sa katunayan, at uri ng makahanap ng isang simoy ng ito sa kanilang kahulugan ng Lagrangian classical mechanics, talaga. Kaya, sa konteksto ng pinakamainam na kontrol, kung ano ang interesado sa mga taong ito ay karaniwang pag-compute ng mga rocket trajectory. Alam mo, ito ang maagang panahon ng kalawakan. At kung mayroon kang modelo ng rocket, sinasabi nito sa iyo na narito ang estado ng rocket sa oras t, at narito ang aksyon na gagawin ko, kaya, thrust at actuators ng iba't ibang uri, narito ang estado ng rocket sa oras t + 1.

ZDNet: Isang state-action model, isang value model.

YL: Tama, ang batayan ng kontrol. Kaya, ngayon ay maaari mong gayahin ang pagbaril ng iyong rocket sa pamamagitan ng pag-iisip ng isang sequence ng mga command, at pagkatapos ay mayroon kang ilang cost function, na ang distansya ng rocket sa target nito, isang space station o anuman ito. At pagkatapos ay sa pamamagitan ng isang uri ng gradient descent, maaari mong malaman, kung paano ko mai-update ang aking pagkakasunud-sunod ng pagkilos upang ang aking rocket ay talagang mas malapit hangga't maaari sa target. At iyon ay dapat na dumating sa pamamagitan ng back-propagating signal pabalik sa oras. At iyon ang back-propagation, gradient back-propagation. Ang mga signal na iyon, ang mga ito ay tinatawag na conjugate variable sa Lagrangian mechanics, ngunit sa katunayan, ang mga ito ay mga gradient. Kaya, nag-imbento sila ng backprop, ngunit hindi nila napagtanto na ang prinsipyong ito ay maaaring gamitin upang sanayin ang isang multi-stage system na maaaring gumawa ng pattern recognition o isang katulad nito. Hindi talaga ito napagtanto hanggang sa huling bahagi ng '70s, unang bahagi ng '80s, at pagkatapos ay hindi aktwal na ipinatupad at ginawang gumana hanggang sa kalagitnaan ng '80s. Okay, kaya, dito talaga nag-take off ang backprop dahil ipinakita ng mga tao dito ang ilang linya ng code na maaari mong sanayin ang isang neural net, dulo hanggang dulo, multilayer. At itinataas nito ang mga limitasyon ng Perceptron. At, oo, may mga koneksyon na may pinakamainam na kontrol, ngunit okay lang.

ZDNet: Kaya, matagal na iyon para sabihin na ang mga impluwensyang ito na sinimulan mo ay babalik sa backprop, at iyon ay mahalaga bilang panimulang punto para sa iyo?

YL: Oo, ngunit sa palagay ko kung ano ang nakalimutan ng mga tao nang kaunti tungkol sa, medyo may trabaho tungkol dito, alam mo, noong '90s, o kahit na '80s, kasama ng mga taong tulad ni Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] at mga taong katulad niyan na hindi na gumagawa ng neural nets, ngunit ang ideya na maaari mong gamitin ang neural nets para sa kontrol, at maaari mong gamitin ang mga klasikal na ideya ng pinakamainam na kontrol. Kaya, ang mga bagay tulad ng tinatawag na model-predictive control, ang tinatawag ngayong model-predictive control, ang ideyang ito na maaari mong gayahin o isipin ang kinalabasan ng isang sequence ng mga aksyon kung mayroon kang magandang modelo ng system na sinusubukan mong kontrolin. at ang kapaligiran na kinaroroonan nito. At pagkatapos ay sa pamamagitan ng gradient descent, mahalagang — hindi ito pag-aaral, ito ay hinuha — maaari mong malaman kung ano ang pinakamahusay na pagkakasunud-sunod ng mga aksyon na magpapaliit sa aking layunin. Kaya, ang paggamit ng isang function ng gastos na may isang nakatagong variable para sa hinuha ay, sa palagay ko, isang bagay na nakalimutan ng kasalukuyang mga pananim ng malalaking neural nets. Ngunit ito ay isang napaka-klasikal na bahagi ng machine learning sa mahabang panahon. Kaya, bawat Bayesian Net o graphical na modelo o probabilistic graphical na modelo ay gumamit ng ganitong uri ng inference. Mayroon kang isang modelo na kumukuha ng mga dependency sa pagitan ng isang grupo ng mga variable, sasabihin sa iyo ang halaga ng ilan sa mga variable, at pagkatapos ay kailangan mong ipahiwatig ang pinaka-malamang na halaga ng iba pang mga variable. Iyan ang pangunahing prinsipyo ng hinuha sa mga graphical na modelo at Bayesian Nets, at mga bagay na katulad niyan. At sa tingin ko, iyon talaga ang dapat maging dahilan ng pangangatwiran, pangangatwiran at pagpaplano.

ZDNet: Isa kang closet Bayesian.

YL: Isa akong non-probabilistic Bayesian. Ginawa ko yung joke kanina. Ako talaga ay nasa NeurIPS ilang taon na ang nakakaraan, sa palagay ko ay noong 2018 o 2019, at nahuli ako ng video ng isang Bayesian na nagtanong sa akin kung ako ay isang Bayesian, at sinabi ko, Oo, ako ay isang Bayesian, ngunit ako Ako ay isang di-probabilistikong Bayesian, uri-ng, isang enerhiya-based na Bayesian, kung gusto mo. 

ZDNet: Na tiyak na parang isang bagay mula sa Star mangibang-bayan. Nabanggit mo sa dulo ng papel na ito, aabutin ng maraming taon ng pagsusumikap upang mapagtanto kung ano ang iyong naiisip. Sabihin sa akin kung ano ang binubuo ng ilan sa gawaing iyon sa kasalukuyan.

YL: Kaya, ipinapaliwanag ko kung paano mo sinasanay at binuo ang JEPA sa papel. At ang criterion na aking itinataguyod ay ang pagkakaroon ng ilang paraan ng pag-maximize ng nilalaman ng impormasyon na mayroon ang mga representasyong nakuha tungkol sa input. At pagkatapos ay ang pangalawa ay pinaliit ang error sa hula. At kung mayroon kang latent variable sa predictor na nagpapahintulot sa predictor na maging non deterministic, kailangan mong gawing regular din ang latent variable na ito sa pamamagitan ng pagliit ng nilalaman ng impormasyon nito. Kaya, mayroon kang dalawang isyu ngayon, na kung saan ay kung paano mo i-maximize ang nilalaman ng impormasyon ng output ng ilang neural net, at ang isa pa ay kung paano mo i-minimize ang nilalaman ng impormasyon ng ilang latent variable? At kung hindi mo gagawin ang dalawang bagay na iyon, babagsak ang sistema. Hindi ito matututo ng anumang bagay na kawili-wili. Ito ay magbibigay ng zero na enerhiya sa lahat, isang bagay na tulad nito, na hindi isang magandang modelo ng dependency. Ito ang problema sa pag-iwas sa pagbagsak na binanggit ko. 

At sinasabi ko sa lahat ng mga bagay na nagawa ng mga tao, mayroon lamang dalawang kategorya ng mga pamamaraan upang maiwasan ang pagbagsak. Ang isa ay contrastive na pamamaraan, at ang isa pa ay ang mga regular na pamamaraan. Kaya, ang ideyang ito ng pag-maximize ng nilalaman ng impormasyon ng mga representasyon ng dalawang input at pagliit ng nilalaman ng impormasyon ng latent variable, na kabilang sa mga regular na pamamaraan. Ngunit marami sa mga gawain sa mga pinagsamang arkitektura ng pag-embed ay gumagamit ng mga contrastive na pamamaraan. Sa katunayan, marahil sila ang pinakasikat sa ngayon. Kaya, ang tanong ay eksakto kung paano mo sinusukat ang nilalaman ng impormasyon sa isang paraan na maaari mong i-optimize o i-minimize? At doon nagiging kumplikado ang mga bagay dahil hindi natin talaga alam kung paano sukatin ang nilalaman ng impormasyon. We can approximate it, we can upper-bound it, we can do things like that. Ngunit hindi nila talaga sinusukat ang nilalaman ng impormasyon, na, sa totoo lang, sa ilang lawak ay hindi rin natukoy nang mabuti.

ZDNet: Hindi ba Shannon's Law? Hindi ito teorya ng impormasyon? Mayroon kang tiyak na halaga ng entropy, magandang entropy at masamang entropy, at ang magandang entropy ay isang sistema ng simbolo na gumagana, ang masamang entropy ay ingay. Hindi ba't nalutas na ni Shannon ang lahat?

YL: Tama ka, ngunit may malaking depekto sa likod nito. Tama ka sa kahulugan na kung mayroon kang data na dumarating sa iyo at kahit papaano ay masusukat mo ang data sa mga discrete na simbolo, at pagkatapos ay susukatin mo ang posibilidad ng bawat isa sa mga simbolo na iyon, kung gayon ang pinakamataas na dami ng impormasyong dala ng mga simbolo na iyon ay ang kabuuan ng mga posibleng simbolo ng Pi log Pi, tama ba? saan Pi ay ang posibilidad ng simbolo ako— yan ang Shannon entropy. [Ang Batas ni Shannon ay karaniwang binubuo bilang H = – ∑ pi log pi.]

Narito ang problema, bagaman: Ano ang Pi? Ito ay madali kapag ang bilang ng mga simbolo ay maliit at ang mga simbolo ay iginuhit nang nakapag-iisa. Kapag maraming simbolo, at dependencies, napakahirap. Kaya, kung mayroon kang isang pagkakasunud-sunod ng mga bit at ipinapalagay mo na ang mga bit ay independyente sa isa't isa at ang posibilidad ay pantay sa pagitan ng isa at zero o anuman, kung gayon madali mong masusukat ang entropy, walang problema. Ngunit kung ang mga bagay na dumarating sa iyo ay mga high-dimensional na vector, tulad ng, alam mo, mga frame ng data, o isang katulad nito, ano ang Pi? Ano ang pamamahagi? Una kailangan mong i-quantize ang espasyong iyon, na isang high-dimensional, tuluy-tuloy na espasyo. Wala kang ideya kung paano i-quantize ito nang maayos. Maaari kang gumamit ng k-means, atbp. Ito ang ginagawa ng mga tao kapag gumagawa sila ng video compression at image compression. Ngunit ito ay isang pagtatantya lamang. At pagkatapos ay kailangan mong gumawa ng mga pagpapalagay ng kalayaan. Kaya, malinaw na sa isang video, ang mga sunud-sunod na frame ay hindi independyente. May mga dependency, at ang frame na iyon ay maaaring depende sa isa pang frame na nakita mo isang oras na ang nakalipas, na isang larawan ng parehong bagay. Kaya, alam mo, hindi mo maaaring sukatin Pi. Upang masukat Pi, kailangan mong magkaroon ng machine learning system na natututong manghula. At kaya bumalik ka sa dating problema. Kaya, maaari mo lamang tantiyahin ang sukat ng impormasyon, mahalagang. 

yann-lecun-sept-2022-6

"Ang tanong ay eksakto kung paano mo sinusukat ang nilalaman ng impormasyon sa isang paraan na maaari mong i-optimize o i-minimize?" sabi ni LeCun. "At doon nagiging kumplikado ang mga bagay dahil hindi namin alam kung paano talaga sukatin ang nilalaman ng impormasyon." Ang pinakamahusay na magagawa sa ngayon ay ang maghanap ng proxy na "sapat na mabuti para sa gawain na gusto namin."

Hayaan akong kumuha ng mas konkretong halimbawa. Isa sa mga algorithm na pinaglalaruan namin, at napag-usapan ko na sa piraso, ang bagay na ito ay tinatawag na VICReg, variance-invariance-covariance regularization. Ito ay nasa isang hiwalay na papel na nai-publish sa ICLR, at ito ay inilagay sa arXiv mga isang taon bago, 2021. At ang ideya doon ay upang i-maximize ang impormasyon. At ang ideya ay talagang lumabas sa isang naunang papel ng aking grupo na tinatawag Barlow Twins. I-maximize mo ang nilalaman ng impormasyon ng isang vector na lumalabas sa isang neural net sa pamamagitan ng, karaniwang, sa pag-aakala na ang tanging dependency sa pagitan ng mga variable ay ugnayan, linear dependency. Kaya, kung ipagpalagay mo na ang tanging dependency na posible sa pagitan ng mga pares ng mga variable, o sa pagitan ng mga variable sa iyong system, ay ang mga ugnayan sa pagitan ng mga pares ng mga mahahalagang bagay, na kung saan ay ang napakahirap na pagtatantya, maaari mong i-maximize ang nilalaman ng impormasyon na lumalabas sa iyong system by making sure all the variables have non-zero variance — let's say, variance one, it doesn't matter what it is — and then back-correlated them, same process na tinatawag na whitening, hindi na rin bago. Ang problema dito ay maaari kang magkaroon ng sobrang kumplikadong mga dependency sa pagitan ng alinman sa mga grupo ng mga variable o kahit na mga pares lamang ng mga variable na hindi linear dependencies, at hindi sila nagpapakita ng mga ugnayan. Kaya, halimbawa, kung mayroon kang dalawang variable, at ang lahat ng mga punto ng dalawang variable na iyon ay nakahanay sa isang uri ng spiral, mayroong isang napakalakas na dependency sa pagitan ng dalawang variable na iyon, tama ba? Ngunit sa katunayan, kung kalkulahin mo ang ugnayan sa pagitan ng dalawang variable na iyon, hindi sila magkakaugnay. Kaya, narito ang isang halimbawa kung saan ang nilalaman ng impormasyon ng dalawang variable na ito ay talagang napakaliit, ito ay isang dami lamang dahil ito ang iyong posisyon sa spiral. Ang mga ito ay de-correlated, kaya sa tingin mo ay mayroon kang maraming impormasyon na lumalabas sa dalawang mga variable na iyon kapag sa katunayan ay hindi, mayroon ka lamang, alam mo, maaari mong hulaan ang isa sa mga variable mula sa isa, mahalagang. Kaya, iyan ay nagpapakita na mayroon lamang kaming mga tinatayang paraan upang sukatin ang nilalaman ng impormasyon.

ZDNet: At kaya iyon ang isa sa mga bagay na kailangan mong pagsikapan ngayon gamit ito? Ito ang mas malaking tanong kung paano natin malalaman kung pina-maximize at pinapaliit natin ang nilalaman ng impormasyon?

YL:  O kung ang proxy na ginagamit namin para dito ay sapat na mabuti para sa gawain na gusto namin. Sa katunayan, ginagawa namin ito sa lahat ng oras sa machine learning. Ang mga function ng gastos na binabawasan natin ay hindi kailanman ang talagang gusto nating bawasan. Kaya, halimbawa, gusto mong gawin ang pag-uuri, okay? Ang function ng gastos na gusto mong bawasan kapag nagsasanay ka ng classifier ay ang bilang ng mga pagkakamali na ginagawa ng classifier. Ngunit iyon ay isang hindi nakikilala, kakila-kilabot na pag-andar ng gastos na hindi mo mababawasan dahil alam mong babaguhin mo ang mga timbang ng iyong neural net, walang magbabago hanggang ang isa sa mga sample na iyon ay binaligtad ang desisyon nito, at pagkatapos ay tumalon sa pagkakamali, positibo o negatibo.

ZDNet: Kaya mayroon kang isang proxy na isang layunin na pag-andar na tiyak na masasabi mo, tiyak na madaloy namin ang mga gradient ng bagay na ito.

YL: Tama iyan. Kaya ginagamit ng mga tao ang cross-entropy loss na ito, o SOFTMAX, mayroon kang ilang pangalan para dito, ngunit pareho lang ito. At ito ay karaniwang isang maayos na pagtatantya ng bilang ng mga error na ginagawa ng system, kung saan ang pagpapakinis ay ginagawa ng, karaniwang, isinasaalang-alang ang marka na ibinibigay ng system sa bawat isa sa mga kategorya.

ZDNet: Mayroon bang anumang bagay na hindi namin nasasakupan na gusto mong takpan?

YL: Malamang na binibigyang-diin nito ang mga pangunahing punto. Sa tingin ko ang mga AI system ay kailangang makapagpaliwanag, at ang proseso para dito na aking itinataguyod ay ang pagliit ng ilang layunin kaugnay ng ilang nakatagong variable. Na nagpapahintulot sa mga sistema na magplano at mangatuwiran. Sa tingin ko, dapat nating talikuran ang probabilistic framework dahil mahirap itong gawin kapag gusto nating gumawa ng mga bagay tulad ng pagkuha ng mga dependency sa pagitan ng mga high-dimensional, tuluy-tuloy na variable. At iminumungkahi kong iwanan ang mga generative na modelo dahil ang system ay kailangang maglaan ng masyadong maraming mapagkukunan sa paghula ng mga bagay na napakahirap hulaan at maaaring kumonsumo ng masyadong maraming mapagkukunan. At iyon ay halos ito. Iyan ang mga pangunahing mensahe, kung gusto mo. At pagkatapos ay ang pangkalahatang arkitektura. Pagkatapos ay mayroong mga haka-haka tungkol sa kalikasan ng kamalayan at ang papel ng configurator, ngunit ito ay talagang haka-haka.

ZDNet: Aabangan natin yan next time. Tatanungin sana kita, paano mo i-benchmark ang bagay na ito? Ngunit sa palagay ko ay mas malayo ka sa pag-benchmark ngayon?

YL: Hindi kinakailangan na malayo sa, uri-ng, pinasimple na mga bersyon. Magagawa mo kung ano ang ginagawa ng lahat sa kontrol o pagpapatibay ng pag-aaral, ibig sabihin, sanayin mo ang bagay na maglaro ng mga larong Atari o isang bagay na katulad niyan o iba pang laro na may kaunting kawalan ng katiyakan.

ZDNet: Salamat sa iyong oras, Yann.

pinagmulan