AI guru z Meta LeCun: Většina dnešních přístupů AI nikdy nepovede ke skutečné inteligenci

yann-lecun-sept-2022-1

„Myslím, že systémy umělé inteligence musí být schopny uvažovat,“ říká Yann LeCun, hlavní vědec společnosti Meta. Dnešní populární přístupy umělé inteligence, jako jsou Transformers, z nichž mnohé staví na jeho vlastní průkopnické práci v této oblasti, nebudou dostatečné. „Musíte udělat krok zpět a říct: Dobře, postavili jsme tento žebřík, ale chceme se dostat na Měsíc a neexistuje způsob, jak by nás tam tento žebřík dostal,“ říká LeCun.

Yann LeCun, hlavní vědec AI z Meta Properties, vlastníka Facebooku, Instagramu a WhatsAppu, si pravděpodobně odškrtne spoustu lidí ve svém oboru. 

S červnovým zveřejněním myšlenky na serveru Open ReviewLeCun nabídl široký přehled přístupu, o kterém si myslí, že je příslibem pro dosažení inteligence na lidské úrovni ve strojích. 

Naznačené, ne-li vyslovené v dokumentu, je tvrzení, že většina dnešních velkých projektů v oblasti umělé inteligence nikdy nebude schopna dosáhnout tohoto cíle na lidské úrovni.

V diskusi tento měsíc s ZDNet prostřednictvím Zoom dal LeCun jasně najevo, že na mnohé z nejúspěšnějších směrů výzkumu v oblasti hlubokého učení v současnosti pohlíží s velkou skepsí.

"Myslím, že jsou nezbytné, ale ne dostatečné," řekl vítěz Turingovy ceny ZDNet o pronásledování jeho vrstevníků. 

Patří mezi ně velké jazykové modely, jako je GPT-3 založený na Transformeru a jim podobné. Jak to LeCun charakterizuje, oddaní Transformeru věří: „Tokenizujeme všechno a trénujeme gigantickémodely k vytváření diskrétních předpovědí a z toho se nějak vynoří AI.“

"Nemýlí se," říká, "v tom smyslu, že to může být součást budoucího inteligentního systému, ale myslím, že v něm chybí podstatné části."

Také: Umělá inteligence Meta LeCun zkoumá energetické hranice hlubokého učení

Je to překvapivá kritika toho, co se zdá fungovat, od učence, který zdokonalil používání konvolučních neuronových sítí, praktické techniky, která byla neuvěřitelně produktivní v programech hlubokého učení. 

LeCun vidí nedostatky a omezení v mnoha dalších velmi úspěšných oblastech disciplíny. 

Posilování učení také nebude nikdy dost, tvrdí. Výzkumníci jako David Silver z DeepMind, který vyvinul program AlphaZero, který zvládl šachy, Shogi a Go, se zaměřují na programy, které jsou „velmi založené na akci,“ poznamenává LeCun, ale „většinu učení, které děláme, neděláme. udělejte to tak, že skutečně podniknete kroky, my to uděláme pozorováním.“ 

Dvaašedesátiletý Lecun z perspektivy desítek let úspěchů nicméně vyjadřuje naléhavou potřebu postavit se tomu, co považuje za slepé uličky, do kterých se mnozí možná řítí, a pokusit se nasměrovat své pole směrem, kterým by se podle něj měly věci ubírat. 

„Vidíme mnoho tvrzení, co bychom měli udělat, abychom se posunuli směrem k umělé inteligenci na lidské úrovni,“ říká. "A jsou myšlenky, o kterých si myslím, že jsou špatně směřovány."

„Nejsme v bodě, kdy by naše inteligentní stroje měly tolik zdravého rozumu jako kočka,“ poznamenává Lecun. "Tak proč nezačneme tam?" 

Opustil svou dřívější víru v používání generativních sítí ve věcech, jako je předpovídání dalšího snímku ve videu. "Bylo to naprosté selhání," říká. 

LeCun odsuzuje ty, které nazývá „náboženskými probabilisty“, kteří si „myslí, že teorie pravděpodobnosti je jediný rámec, který můžete použít k vysvětlení strojového učení“. 

Čistě statistický přístup je neřešitelný, říká. „Žádat po světovém modelu, aby byl zcela pravděpodobný, je příliš mnoho; nevíme, jak to udělat."

Nejen akademici, ale i průmyslová AI potřebuje hluboké přehodnocení, tvrdí LeCun. Dav samořídících aut, startupy jako Wayve, byly „trochu příliš optimistické,“ říká, protože si mysleli, že by mohli „hodit data na“ velké neuronové sítě „a můžete se naučit v podstatě cokoliv“.

„Víte, myslím, že je zcela možné, že budeme mít autonomní auta páté úrovně bez zdravého rozumu,“ říká s odkazem na „ADAS“. pokročilý asistenční systém řidiče termíny pro autonomní řízení, "ale budete to muset zatraceně zkonstruovat."

Taková přetechnizovaná technologie s vlastním řízením bude něco tak vrzajícího a křehkého jako všechny programy pro počítačové vidění, které byly zastaralé hlubokým učením, věří.

"Nakonec bude existovat uspokojivější a možná lepší řešení, které bude zahrnovat systémy, které lépe porozumí tomu, jak svět funguje."

Během toho LeCun nabízí některé zničující názory svých největších kritiků, jako je profesor NYU Gary Marcus – „nikdy nic nepřispěl k AI“ – a Jürgen Schmidhuber, spoluředitel Institutu Dalle Molle pro výzkum umělé inteligence – „je to velmi snadné vysazování vlajky.“

Kromě kritiky je důležitějším bodem, který LeCun uvedl, to, že určité základní problémy čelí celé AI, zejména jak měřit informace.

„Musíte udělat krok zpět a říct: Dobře, postavili jsme tento žebřík, ale chceme jít na Měsíc a neexistuje způsob, jak by nás tam tento žebřík dostal,“ říká LeCun o své touze podnítit přehodnocení. základních pojmů. "V podstatě to, co zde píšu, je, že potřebujeme stavět rakety, nemohu vám poskytnout podrobnosti o tom, jak rakety stavíme, ale zde jsou základní principy."

Noviny a LeCunovy myšlenky v rozhovoru lze lépe pochopit, když si přečtete LeCunův rozhovor na začátku tohoto roku s ZDNet ve kterém argumentuje pro energeticky založené učení s vlastním dohledem jako cestu vpřed k hlubokému učení. Tyto úvahy dávají smysl základního přístupu k tomu, co doufá, že postaví jako alternativu k věcem, o kterých tvrdí, že nedojedou do cíle. 

Následuje lehce upravený přepis rozhovoru.

ZDNet: Předmětem našeho chatu je tento dokument „Cesta k autonomní strojové inteligenci“, jehož verze 0.9.2 je existující verzí, ano?

Yann LeCun: Jo, považuji to tak nějak za pracovní dokument. Takže jsem to zveřejnil na Open Review, čekal jsem, až lidé vyjádří komentáře a návrhy, možná další reference, a pak vytvořím revidovanou verzi. 

ZDNet: Vidím, že Juergen Schmidhuber již přidal nějaké komentáře do Open Review.

YL: No jo, vždycky to dělá. Ve svém článku cituji jeden z jeho článků. Domnívám se, že argumenty, které uvedl na sociálních sítích, že to všechno v podstatě vymyslel v roce 1991, jak to udělal v jiných případech, prostě neplatí. Chci říct, je to velmi snadnévlajkování a, jaksi, napsat myšlenku bez jakýchkoli experimentů, bez jakékoli teorie, prostě navrhněte, že byste to mohli udělat tímto způsobem. Ale víte, je velký rozdíl mezi tím, když máte ten nápad, a pak to funguje na problému s hračkami, a pak to funguje na skutečném problému, a pak děláte teorii, která ukazuje, proč to funguje, a pak jeho nasazení. Je tam celý řetězec a jeho představa vědeckého kreditu je, že je to úplně první člověk, který tak nějak, víte, měl nápad, že by měl získat všechny zásluhy. A to je směšné. 

ZDNet: Nevěřte všemu, co slyšíte na sociálních sítích. 

YL: Chci říct, že hlavní článek, o kterém říká, že bych měl citovat, nemá žádnou z hlavních myšlenek, o kterých v novinách mluvím. Udělal to také s GAN a dalšími věcmi, což se neukázalo jako pravda. Je snadné vysadit vlajky, mnohem těžší je přispět. A mimochodem, v tomto konkrétním článku jsem výslovně řekl, že to není vědecká práce v obvyklém slova smyslu. Je to spíše poziční dokument o tom, kam by se tato věc měla ubírat. A je tam pár nápadů, které by mohly být nové, ale většina z nich není. V podstatě si nenárokuji žádnou prioritu na většinu toho, co jsem napsal v tom papíru.

yann-lecun-sept-2022-2

Posílení učení také nebude nikdy dost, tvrdí LeCun. Výzkumníci jako David Silver z DeepMind, který vyvinul program AlphaZero, který zvládl šachy, Shogi a Go, jsou „velmi akční“, poznamenává LeCun, ale „většinu učení, které děláme, neděláme tak, že činy, děláme to pozorováním." 

ZDNet: A to je možná dobré místo, kde začít, protože mě zajímá, proč jste se touto cestou vydali nyní? Co tě k tomu přivedlo? Proč jsi to chtěl napsat?

YL: No, tak jsem o tom přemýšlel velmi dlouho, o cestě k inteligenci na úrovni lidí nebo zvířat nebo k učení a schopnostem. A ve svých přednáškách jsem o celé této věci docela hlasitě hovořil o tom, že jak učení pod dohledem, tak posilování nestačí k napodobení toho druhu učení, které pozorujeme u zvířat a lidí. Dělám to asi sedm nebo osm let. Takže to není nedávné. Před mnoha lety jsem měl na NeurIPS keynote, kde jsem to v podstatě uvedl, a různé přednášky, jsou tam nahrávky. Proč teď psát práci? Přišel jsem k věci – [výzkumník Google Brain] Geoff Hinton udělal něco podobného – myslím, určitě, jemu víc než mně, vidíme, že čas utíká. Nejsme mladí.

ZDNet: Šedesátka je nová padesátka. 

YL: To je pravda, ale jde o to, že vidíme spoustu tvrzení o tom, co bychom měli udělat, abychom se posunuli vpřed směrem k lidské úrovni AI. A jsou myšlenky, o kterých si myslím, že jsou špatně směrované. Takže jedna myšlenka je, Oh, měli bychom přidat symbolické uvažování nad neuronové sítě. A já nevím, jak to udělat. Možná, že to, co jsem vysvětlil v tomto článku, by mohl být přístup, který by udělal totéž bez explicitní manipulace se symboly. To je ten druh tradičně Garyho Marcusese na světě. Gary Marcus není člověk s umělou inteligencí, mimochodem, je to psycholog. Nikdy nic nepřispěl k AI. V experimentální psychologii odvedl opravdu dobrou práci, ale nikdy nenapsal recenzovanou práci o AI. Takže tam jsou ti lidé. 

Existuje světový [výzkumný vědec DeepMind] David Silvers, který říká, víte, odměna je dost, v podstatě je to všechno o posilování učení, jen to potřebujeme trochu zefektivnit, dobře? A myslím, že se nemýlí, ale myslím si, že nezbytné kroky ke zefektivnění posilovacího učení by v podstatě posunuly posilovací učení jako třešničku na dortu. A hlavní chybějící část je naučit se, jak svět funguje, většinou pozorováním bez akce. Posílení učení je velmi založené na akci, naučíte se věci o světě tím, že podniknete kroky a uvidíte výsledky.

ZDNet: A je zaměřena na odměnu.

YL: Je zaměřený na odměnu a je zaměřený také na akci. Takže musíte jednat ve světě, abyste se mohli o světě něco naučit. A hlavní tvrzení, které v tomto článku uvádím o učení s vlastním dohledem, je, že většinu učení, které děláme, neděláme tím, že skutečně podnikáme akce, děláme to pozorováním. A je to velmi neortodoxní, zejména pro posilující se učící lidi, ale také pro mnoho psychologů a kognitivních vědců, kteří si myslí, že akce je – neříkám, že akce není nezbytná. is nezbytný. Ale myslím, že většina toho, co se učíme, se týká hlavně struktury světa a zahrnuje samozřejmě interakci, akci a hru a podobné věci, ale hodně z toho je pozorování.

ZDNet: Zároveň se vám podaří odškrtnout také lidi z Transformerů, kteří jsou jazykově vybaveni. Jak to můžete vytvořit bez jazyka? Možná se vám podaří odškrtnout spoustu lidí. 

YL: Jo, na to jsem zvyklý. Takže ano, jsou tu lidé na prvním místě jazykem, kteří říkají, víte, inteligence je o jazyce, substrátem inteligence je jazyk, bla, bla, bla. Ale to, jaksi, odmítá inteligenci zvířat. Víte, nejsme v bodě, kdy by naše inteligentní stroje měly tolik zdravého rozumu jako kočka. Tak proč nezačneme tam? Co je to, co umožňuje kočce vnímat okolní svět, dělat docela chytré věci a plánovat a podobně, a psům ještě lépe? 

Pak jsou všichni lidé, kteří říkají: Ach, inteligence je společenská záležitost, že? Jsme inteligentní, protože spolu mluvíme a vyměňujeme si informace a bla, bla, bla. Existují všechny druhy nesociálních druhů, které se nikdy nesetkají se svými rodiči, které jsou velmi chytré, jako chobotnice nebo orangutani.Chci říct, oni [orangutani] jsou jistě vychováváni svou matkou, ale nejsou to společenská zvířata. 

Ale další kategorie lidí, kterou bych mohl zaškrtnout, jsou lidé, kteří říkají, že škálování je dost. Takže v podstatě používáme gigantické Transformery, trénujeme je na multimodálních datech, která zahrnují, víte, video, text, bla, bla, bla. Tak nějak zkameněmevšechno a tokenizujte všechno a pak trénujte gigantickémodely, které v podstatě dělají diskrétní předpovědi a nějak se z toho vynoří AI. Nemýlí se v tom smyslu, že to může být součást budoucího inteligentního systému. Ale myslím, že chybí podstatné kousky. 

Je tu další kategorie lidí, které tímto papírem odškrtnu. A jsou to pravděpodobnosti, náboženští pravděpodobnosti. Takže lidé, kteří si myslí, že teorie pravděpodobnosti je jediným rámcem, který můžete použít k vysvětlení strojového učení. A jak jsem se snažil v příspěvku vysvětlit, je v podstatě příliš žádat po světovém modelu, aby byl zcela pravděpodobný. Nevíme, jak na to. Je tu výpočetní neovladatelnost. Navrhuji tedy celý tento nápad zahodit. A samozřejmě, víte, toto je obrovský pilíř nejen strojového učení, ale všech statistik, které se prohlašují za normální formalismus strojového učení. 

Další věc — 

ZDNet: Jste v kurzu…

YL: — tomu se říká generativní modely. Takže myšlenka, že se můžete naučit předpovídat, a možná se díky předpovědi můžete dozvědět hodně o světě. Dám vám tedy kousek videa a žádám systém, aby předpověděl, co se ve videu stane dál. A mohu vás požádat, abyste předpověděli skutečné snímky videa se všemi detaily. Ale to, o čem v novinách polemizujem, je, že to je ve skutečnosti příliš mnoho na to, abyste se zeptali, a příliš složité. A to je něco, na co jsem změnil názor. Ještě asi před dvěma lety jsem býval zastáncem toho, čemu říkám generativní modely latentních proměnných, modely, které předpovídají, co se stane dál nebo informace, které chybí, případně pomocí latentní proměnné, pokud předpověď nemůže být deterministický. A na tohle jsem rezignoval. A důvod, proč jsem to vzdal, je založen na empirických výsledcích, kde se lidé pokusili aplikovat, druh, předpovědi nebo rekonstrukci založené na školení typu, který se používá v BERTa velké jazykové modely, pokusili se to aplikovat na obrázky, a to bylo naprosté selhání. A důvod, proč je to úplné selhání, je opět kvůli omezením pravděpodobnostních modelů, kde je relativně snadné předpovědět diskrétní tokeny, jako jsou slova, protože můžeme vypočítat rozdělení pravděpodobnosti pro všechna slova ve slovníku. To je jednoduché. Ale pokud požádáme systém, aby vytvořil rozdělení pravděpodobnosti přes všechny možné snímky videa, nemáme tušení, jak to parametrizovat, nebo máme nějakou představu, jak to parametrizovat, ale nevíme, jak to normalizovat. Naráží na neřešitelný matematický problém, který nevíme, jak vyřešit. 

yann-lecun-sept-2022-3

„Nejsme v bodě, kdy by naše inteligentní stroje měly tolik zdravého rozumu jako kočka,“ poznamenává Lecun. "Tak proč nezačneme tam?" Co je to, co umožňuje kočce vnímat okolní svět, dělat docela chytré věci a plánovat a podobně, a psům ještě lépe?"

Takže proto říkám, opusťme teorii pravděpodobnosti nebo rámec pro takové věci, ten slabší, modely založené na energii. Zasazuji se o to také po celá desetiletí, takže to není nic nového. Ale zároveň opuštění myšlenky generativních modelů, protože na světě je spousta věcí, které nejsou pochopitelné a nepředvídatelné. Pokud jste inženýr, říkáte tomu hluk. Pokud jste fyzik, říkáte tomu teplo. A pokud jste člověk se strojovým učením, říkáte tomu, víte, nepodstatné detaily nebo jakkoli jinak.

Takže příklad, který jsem použil v novinách nebo který jsem použil v rozhovorech, je, chcete systém předpovědi světa, který by pomohl v samořídícím autě, že? Chce to být schopen předem předpovědět trajektorie všech ostatních aut, co se stane s jinými předměty, které se mohou pohybovat, chodci, jízdními koly, dítětem běžícím za fotbalovým míčem a podobnými věcmi. Takže všechny druhy věcí o světě. Ale na okraji silnice mohou být stromy a dnes je vítr, takže se listí pohybuje ve větru a za stromy je rybník a v jezírku jsou vlnky. A to jsou v podstatě do značné míry nepředvídatelné jevy. A nechcete, aby váš model utrácel značné množství zdrojů na předpovídání těch věcí, které jsou těžko předvídatelné a irelevantní. Takže to je důvod, proč obhajuji společnou architekturu vkládání, ty věci, kde proměnná, kterou se snažíte modelovat, se ji nesnažíte předvídat, snažíte se ji modelovat, ale prochází kodérem a tento kodér může eliminovat spoustu detailů o vstupu, které jsou irelevantní nebo příliš komplikované – v podstatě ekvivalentní šumu.

ZDNet: Na začátku tohoto roku jsme diskutovali o energeticky založených modelech JEPA a H-JEPA. Mám pocit, že pokud vám správně rozumím, nacházíte bod nízké energie, kde jsou tyto dvě předpovědi vložení X a Y nejpodobnější, což znamená, že pokud je na stromě holub a v jednom je něco pozadí scény, nemusí to být podstatné body, díky kterým jsou tyto vložky blízko sebe.

YL: Že jo. Architektura JEPA se tedy ve skutečnosti snaží najít kompromis, kompromis mezi extrahováním reprezentací, které jsou maximálně informativní o vstupech, ale také vzájemně předvídatelné s určitou úrovní přesnosti nebo spolehlivosti. Najde kompromis. Pokud má tedy na výběr mezi utrácením obrovského množství zdrojů včetně podrobností o pohybu listů, a pak modelováním dynamiky, která rozhodne o tom, jak se listy za vteřinu budou pohybovat, nebo to prostě hodit na podlahu prostě v podstatě provádějte proměnnou Y pomocí prediktoru, který eliminuje všechny tyto detaily, pravděpodobně to odstraní, protože je prostě příliš těžké modelovat a zachytit.

ZDNet: Jedna věc, která vás překvapuje, je, že jste byl velkým zastáncem tvrzení: „Funguje to, později přijdeme na teorii termodynamiky, abychom to vysvětlili.“ Zde jste zvolili přístup: „Nevím, jak to nezbytně vyřešíme, ale chci předložit několik nápadů k zamyšlení,“ a možná se dokonce přiblížíte k teorii nebo hypotéze. nejméně. To je zajímavé, protože spousta lidí utrácí spoustu peněz za práci na autě, které vidí chodce bez ohledu na to, zda má auto zdravý rozum. A představuji si, že někteří z těch lidí nebudou zaškrtnutí, ale řeknou: „To je v pořádku, je nám jedno, jestli to nemá zdravý rozum, vytvořili jsme simulaci, ta simulace je úžasná, a budeme se neustále zlepšovat, budeme neustále škálovat simulaci.“ 

A tak je zajímavé, že jste v pozici, kdy můžete říct, pojďme o krok zpět a přemýšlejme o tom, co děláme. A průmysl říká, že budeme jen škálovat, škálovat, škálovat, škálovat, protože ta klika opravdu funguje. Chci říct, že polovodičová klika GPU opravdu funguje.

YL: Je tam asi pět otázek. Takže, myslím, škálování je nutné. Nekritizuji skutečnost, že bychom měli škálovat. Měli bychom škálovat. Tyto neuronové sítě se zlepšují, jak se zvětšují. Není pochyb o tom, že bychom měli škálovat. A ty, které budou mít určitou úroveň zdravého rozumu, budou velké. Myslím, že to nejde obejít. Takže škálování je dobré, je to nutné, ale ne dostatečné. To je ta pointa, kterou chci říct. Nejde jen o škálování. To je první bod. 

Druhý bod, zda teorie je na prvním místě a podobné věci. Takže si myslím, že existují koncepty, které jsou na prvním místě, že musíte udělat krok zpět a říct, dobře, postavili jsme tento žebřík, ale chceme jít na Měsíc a neexistuje způsob, jak by nás tam tento žebřík dostal. Takže v podstatě to, co tu píšu, je, že musíme stavět rakety. Nemohu vám poskytnout podrobnosti o tom, jak vyrábíme rakety, ale zde jsou základní principy. A nepíšu pro to teorii nebo tak něco, ale bude to raketa, jo? Nebo vesmírný výtah nebo cokoli jiného. Možná nemáme všechny podrobnosti o všech technologiích. Snažíme se, aby některé z těch věcí fungovaly, jako když jsem pracoval na JEPA. Společné vkládání funguje opravdu dobře pro rozpoznávání obrazu, ale jeho použití k trénování světového modelu je obtížné. Pracujeme na tom, doufáme, že se nám to podaří soon, ale možná tam narazíme na nějaké překážky, které nedokážeme překonat. 

Pak je v článku klíčová myšlenka o uvažování, kde pokud chceme, aby systémy byly schopny plánovat, což si můžete představit jako jednoduchou formu uvažování, musí mít latentní proměnné. Jinými slovy, věci, které nejsou počítány žádnou neuronovou sítí, ale věci, které jsou – jejichž hodnota je odvozena tak, aby se minimalizovala nějaká objektivní funkce, nějaká nákladová funkce. A pak můžete použít tuto nákladovou funkci k řízení chování systému. A to není vůbec nový nápad, že? Jedná se o velmi klasické, optimální ovládání, jehož základ sahá až do konce 50. let, počátku 60. let. Takže zde netvrdím žádnou novinku. Ale já říkám, že tento typ inference musí být součástí inteligentního systému, který je schopen plánovat a jehož chování může být specifikováno nebo řízeno ne pevně zavedeným chováním, nikoli imitací sklonu, ale objektivní funkcí, která řídí chování – nutně neřídí učení, ale řídí chování. Víte, máme to v mozku a každé zvíře má pro věci vnitřní cenu nebo vnitřní motivaci. To vede devítiměsíční miminka k tomu, že chtějí vstát. Cena za to, že jste šťastný, když vstanete, tento termín ve funkci nákladů je pevně daný. Ale to, jak se postavíš, není, to je učení.

yann-lecun-sept-2022-4

„Škálování je dobré, je to nutné, ale ne dostačující,“ říká LeCun o obřích jazykových modelech, jako jsou programy založené na Transformeru typu GPT-3. Oddaní Transformeru věří: „Všechno tokenizujeme a trénujeme gigantickémodely k vytváření diskrétních předpovědí a nějak se z toho vynoří umělá inteligence... ale myslím, že v tom chybí podstatné části.“

ZDNet: Abychom to doplnili, velká část komunity hlubokého učení se zdá být v pořádku pokračovat v něčem, co nemá zdravý rozum. Zdá se, že zde uvádíte docela jasný argument, že v určitém okamžiku se to stane bezvýchodnou situací. Někteří lidé říkají, že nepotřebujeme autonomní auto se zdravým rozumem, protože to udělá škálování. Zní to, jako bys říkal, že není v pořádku jít touto cestou?

YL: Víte, myslím, že je zcela možné, že budeme mít autonomní auta páté úrovně bez zdravého rozumu. Ale problém s tímto přístupem, to bude dočasný, protože to budete muset sakra zkonstruovat. Takže, víte, zmapujte celý svět, napevno zapojte všechny druhy specifického chování v rohových případech, shromážděte dostatek dat, abyste měli všechny ty podivné situace, které můžete na silnicích potkat, bla, bla, bla. A můj odhad je, že s dostatečnými investicemi a časem to dokážete sakra zkonstruovat. Ale nakonec bude existovat uspokojivější a možná lepší řešení, které bude zahrnovat systémy, které lépe rozumí tomu, jak svět funguje, a mají, víte, určitou úroveň toho, co bychom nazvali zdravým rozumem. Nemusí to být selský rozum na lidské úrovni, ale nějaký druh znalostí, které může systém získat sledováním, ale nesledováním někoho, kdo řídí, jen sledováním věcí, které se pohybují kolem a pochopením mnoha o světě, budováním základů pozadí. znalosti o tom, jak svět funguje, a navíc se můžete naučit řídit. 

Uvedu historický příklad. Klasické počítačové vidění bylo založeno na spoustě pevně propojených, zkonstruovaných modulů, nad nimiž byste měli jakoby tenkou vrstvu učení. Takže věci, které AlexNet porazil v roce 2012, měly v podstatě první fázi, druh, ručně vyráběné extrahování funkcí, jako jsou SIFT [Scale-Invariant Feature Transform (SIFT), klasická technika vidění k identifikaci význačných objektů na obrázku] a HOG [Histogram orientovaných přechodů, další klasická technika] a různé další věci. A pak druhá vrstva, jakési funkce střední úrovně založené na jádrech funkcí a podobně, a nějaký druh metody bez dozoru. A pak k tomu přidáte podpůrný vektorový stroj nebo relativně jednoduchý klasifikátor. A to byl tak trochu standardní plynovod od poloviny roku 2000 do roku 2012. A to bylo nahrazeno end-to-end konvolučními sítěmi, kde nic z toho nezapojujete, jen máte spoustu dat, a trénujete tu věc od konce do konce, což je přístup, který jsem obhajoval dlouhou dobu, ale víte, do té doby nebyl praktický pro velké problémy. 

Podobný příběh se odehrál v oblasti rozpoznávání řeči, kde opět existovalo obrovské množství podrobného inženýrství, jak předzpracovat data, extrahovat kepstrum v masovém měřítku [inverze k rychlé Fourierově transformaci pro zpracování signálu] a pak máte skryté Markovovy modely s určitou přednastavenou architekturou, bla, bla, bla, se směsí Gaussiánů. A tak je to trochu stejná architektura jako vize, kde máte ručně vytvořený front-end a pak poněkud nekontrolovanou, trénovanou střední vrstvu a pak vrstvu pod dohledem nahoře. A teď to bylo v podstatě zničeno end-to-end neuronovými sítěmi. Takže tam vidím něco podobného ve snaze naučit se všechno, ale musíte mít správný předchozí, správnou architekturu, správnou strukturu.

yann-lecun-sept-2022-5

Dav samořídících aut, startupy jako Waymo a Wayve, byly „trochu příliš optimistické,“ říká, protože si mysleli, že by na to mohli „hodit data a můžete se naučit v podstatě cokoliv“. Samořídící auta na úrovni 5 ADAS jsou možná, „ale budete to muset sakra zkonstruovat“ a budou „křehká“ jako rané modely počítačového vidění.

ZDNet: Říkáte, že někteří lidé se pokusí zkonstruovat něco, co v současné době nefunguje pomocí hlubokého učení, aby se to dalo použít, řekněme, v průmyslu, a začnou vytvářet něco, co je v počítačovém vidění zastaralé?

YL: Že jo. A je to částečně důvod, proč byli lidé pracující na autonomním řízení v posledních několika letech trochu příliš optimističtí, protože, víte, máte takové, jakési, obecné věci, jako jsou konvoluční sítě a transformátory, že na to můžete házet data. a může se naučit v podstatě cokoliv. Takže říkáte: Dobře, mám řešení tohoto problému. První věc, kterou uděláte, je vytvořit demo, kde auto několik minut jede samo, aniž by někoho zranilo. A pak si uvědomíte, že existuje spousta rohových pouzder, a pokusíte se nakreslit křivku toho, o kolik jsem lepší, když zdvojnásobím tréninkovou sadu, a uvědomíte si, že se tam nikdy nedostanete, protože existují všechny druhy rohových pouzder. . A potřebujete mít auto, které způsobí smrtelnou nehodu méně než každých 200 milionů kilometrů, že? Tak co děláš? No, jdete dvěma směry. 

Prvním směrem je, jak mohu snížit množství dat, která jsou nezbytná k tomu, aby se můj systém naučil? A to je místo, kde přichází na řadu učení se samočinným dohledem. Spousta automobilových souprav s vlastním řízením má tedy velký zájem o učení se samočinným dohledem, protože je to způsob, jak stále používat obrovské množství údajů z dohledu pro učení napodobováním, ale dosáhnout lepšího výkonu v podstatě předtrénink. A ještě to úplně nevyšlo, ale bude. A pak je tu druhá možnost, kterou většina společností, které jsou v tomto bodě pokročilejší, přijala, což je, dobře, můžeme provést kompletní školení, ale existuje mnoho případů, které nemůžeme. t handle, takže budeme jen navrhovat systémy, které se postarají o ty rohové případy, a v podstatě s nimi zacházet jako se speciálními případy, a napevno zapojit ovládání a pak napevno zapojit spoustu základního chování pro zvládnutí speciálních situací. A pokud máte dostatečně velký tým inženýrů, možná to zvládnete. Bude to ale trvat dlouho a nakonec to bude stále trochu křehké, možná dostatečně spolehlivé, abyste je mohli nasadit, ale s určitou úrovní křehkosti, která se při přístupu více založeném na učení, který by se mohl objevit v Budoucnost auta nebudou mít, protože by mohla mít určitou úroveň zdravého rozumu a porozumění tomu, jak svět funguje. 

V krátkodobém horizontu zvítězí takový, jakýsi inženýrský přístup – už vítězí. To je Waymo a Cruise světa a Wayvea cokoli, to je to, co dělají. Pak je tu samokontrolovaný učební přístup, který pravděpodobně pomůže inženýrskému přístupu dosáhnout pokroku. Ale v dlouhodobém horizontu, který může být pro tyto společnosti příliš dlouhý na čekání, by pravděpodobně byl, jaksi, více integrovaný systém autonomního inteligentního řízení.

ZDNet: Říkáme za investičním horizontem většiny investorů.

YL: To je správně. Otázkou tedy je, zda lidé ztratí trpělivost nebo dojdou peníze, než výkon dosáhne požadované úrovně.

ZDNet: Dá se říci něco zajímavého o tom, proč jste si vybrali některé prvky, které jste v modelu zvolili? Protože citujete Kennetha Craika [1943,Povaha vysvětlení] a citujete Brysona a Ho [1969, Aplikovaná optimální kontrola], a zajímalo by mě, proč jste začal s těmito vlivy, pokud jste věřil především tomu, že tito lidé to dotáhli až k tomu, co udělali. Proč jsi tam začal?

YL: No, nemyslím si, že určitě měli všechny detaily vychytané. Takže, Brysone a Ho, toto je kniha, kterou jsem četl v roce 1987, když jsem byl postdoktorem u Geoffreyho Hintona v Torontu. Ale věděl jsem o této linii práce předem, když jsem psal doktorát, a v podstatě jsem vytvořil spojení mezi optimální kontrolou a podporou. Pokud byste opravdu chtěli být, víte, dalším Schmidhuberem, řekli byste, že skutečnými vynálezci backprop byli ve skutečnosti teoretici optimálního řízení Henry J. Kelley, Arthur Bryson a možná dokonce Lev Pontryagin, který je ruský teoretik optimálního řízení zpět. koncem 50. let. 

Takže na to přišli a ve skutečnosti můžete vidět kořen toho, matematika pod tím, je Lagrangova mechanika. Takže se vlastně můžete vrátit k Eulerovi a Lagrangeovi a najít trochu toho závan v jejich definici lagrangeovské klasické mechaniky. Takže v kontextu optimálního řízení se tito kluci zajímali v podstatě o počítání trajektorií raket. Víte, tohle byl raný vesmírný věk. A pokud máte model rakety, říká vám zde stav rakety v čase t, a zde je akce, kterou provedu, takže tah a ovladače různých druhů, zde je stav rakety v čase t + 1.

ZDNet: Model stavu a akce, hodnotový model.

YL: Přesně tak, základ kontroly. Nyní tedy můžete simulovat střelbu vaší rakety představou sledu příkazů a pak máte nějakou nákladovou funkci, což je vzdálenost rakety k jejímu cíli, vesmírné stanici nebo co to je. A pak pomocí nějakého gradientu sestupu můžete zjistit, jak mohu aktualizovat svou sekvenci akcí, aby se moje raketa skutečně dostala co nejblíže k cíli. A to musí přijít zpětným šířením signálů zpět v čase. A to je zpětné šíření, gradientní zpětné šíření. Tyto signály se v Lagrangeově mechanice nazývají konjugované proměnné, ale ve skutečnosti jsou to gradienty. Vynalezli tedy backprop, ale neuvědomili si, že tento princip lze použít k trénování vícestupňového systému, který dokáže rozpoznávat vzory nebo něco takového. To bylo skutečně realizováno až možná koncem 70. let, začátkem 80. let, a pak nebylo ve skutečnosti implementováno a fungovalo až v polovině 80. let. Dobře, takže tady backprop opravdu, tak nějak, vzlétl, protože lidé zde ukázali několik řádků kódu, pomocí kterých můžete trénovat neuronovou síť, od začátku do konce, ve více vrstvách. A to ruší omezení Perceptronu. A ano, existují spojení s optimálním ovládáním, ale to je v pořádku.

ZDNet: Takže to je dlouhá cesta k tomu, abych řekl, že tyto vlivy, se kterými jsi začínal, se vracely zpět do backpropu, a to bylo pro tebe důležité jako výchozí bod?

YL: Jo, ale myslím, že na co lidé trochu zapomněli, bylo na tom docela dost práce, víte, v 90. nebo dokonce 80. letech, včetně lidí jako Michael Jordan [MIT Dept. and Cognitive Sciences] a podobným lidem, kteří už nedělají neuronové sítě, ale myšlenku, že můžete použít neuronové sítě pro ovládání a můžete použít klasické myšlenky optimálního ovládání. Takže věci jako to, čemu se říká modelově prediktivní řízení, co se nyní nazývá modelově prediktivní řízení, tato myšlenka, kterou můžete simulovat nebo si představit výsledek sekvence akcí, pokud máte dobrý model systému, který se snažíte ovládat. a prostředí, ve kterém se nachází. A pak pomocí gradientu, v podstatě – to není učení, to je závěr – můžete zjistit, jaká je nejlepší sekvence akcí, která minimalizuje můj cíl. Takže použití nákladové funkce s latentní proměnnou pro odvození je, myslím, něco, na co současná úroda rozsáhlých neuronových sítí zapomněla. Ale byla to po dlouhou dobu velmi klasická součást strojového učení. Takže každá Bayesovská síť nebo grafický model nebo pravděpodobnostní grafický model používal tento typ odvození. Máte model, který zachycuje závislosti mezi hromadou proměnných, je vám sdělena hodnota některých proměnných a pak musíte odvodit nejpravděpodobnější hodnotu zbývajících proměnných. To je základní princip vyvozování v grafických modelech a bayesovských sítích a podobných věcech. A myslím, že o tom by v zásadě mělo být uvažování, uvažování a plánování.

ZDNet: Jsi bayesovský šatník.

YL: Jsem nepravděpodobnostní Bayesian. Ten vtip jsem si dělal předtím. Ve skutečnosti jsem byl na NeurIPS před několika lety, myslím, že to bylo v roce 2018 nebo 2019, a na videu mě zachytil Bayesian, který se mě zeptal, jestli jsem Bayesian, a řekl jsem: Jo, jsem Bayesian, ale já Jsem nepravděpodobnostní Bayesian, něco jako Bayesian založený na energii, chcete-li. 

ZDNet: Což rozhodně jako něco zní star Trek. Zmínil jste se na konci tohoto dokumentu, že to, co si představujete, bude trvat roky opravdu tvrdé práce. Řekněte mi o tom, z čeho některá ta práce v tuto chvíli spočívá.

YL: Takže v novinách vysvětluji, jak trénujete a budujete JEPA. A kritériem, které obhajuji, je mít nějaký způsob maximalizace informačního obsahu, který mají extrahované reprezentace o vstupu. A pak druhým je minimalizace chyby predikce. A pokud máte v prediktoru latentní proměnnou, která umožňuje, aby prediktor nebyl deterministický, musíte regulovat i tuto latentní proměnnou minimalizací jejího informačního obsahu. Takže teď máte dva problémy, jak maximalizovat informační obsah výstupu nějaké neuronové sítě, a druhý je, jak minimalizovat informační obsah nějaké latentní proměnné? A pokud tyto dvě věci neuděláte, systém se zhroutí. Nedozví se nic zajímavého. Všemu dá nulovou energii, něco takového, což není dobrý model závislosti. Zmiňuji se o problému prevence kolapsu. 

A říkám o všech věcech, které kdy lidé udělali, že existují pouze dvě kategorie metod, jak zabránit kolapsu. Jednou jsou kontrastivní metody a druhou jsou ty regularizované metody. Takže tato myšlenka maximalizace informačního obsahu reprezentací dvou vstupů a minimalizace informačního obsahu latentní proměnné patří k regularizovaným metodám. Ale mnoho práce v těchto architekturách společného vkládání používá kontrastní metody. Ve skutečnosti jsou v současné době pravděpodobně nejoblíbenější. Otázkou tedy je, jak přesně měřit informační obsah způsobem, který lze optimalizovat nebo minimalizovat? A to je místo, kde se věci komplikují, protože vlastně nevíme, jak měřit obsah informací. Můžeme to aproximovat, můžeme to odhadnout, můžeme dělat takové věci. Ale ve skutečnosti neměří informační obsah, který vlastně do určité míry není ani dobře definovaný.

ZDNet: Není to Shannonův zákon? Není to teorie informace? Máte určité množství entropie, dobré entropie a špatné entropie a dobrá entropie je systém symbolů, který funguje, špatná entropie je šum. Nevyřešil to všechno Shannon?

YL: Máte pravdu, ale je za tím jedna velká chyba. Máte pravdu v tom smyslu, že pokud k vám přicházejí data a můžete je nějak kvantizovat do diskrétních symbolů a poté změříte pravděpodobnost každého z těchto symbolů, pak maximální množství informací nesené těmito symboly je součet možných symbolů Pi log Pi, že jo? Kde Pi je pravděpodobnost symbolu já — to je Shannonova entropie. [Shannonův zákon je běžně formulován jako H = – ∑ pi log pi.]

Zde je však problém: Co je Pi? Je to snadné, když je počet symbolů malý a symboly se kreslí nezávisle. Když existuje mnoho symbolů a závislostí, je to velmi těžké. Takže, pokud máte posloupnost bitů a předpokládáte, že bity jsou na sobě nezávislé a pravděpodobnost je rovna jedné a nule nebo cokoli jiného, ​​pak můžete snadno změřit entropii, žádný problém. Ale pokud věci, které k vám přicházejí, jsou vysokorozměrné vektory, jako, víte, datové rámce nebo něco podobného, ​​co je Pi? Jaká je distribuce? Nejprve musíte kvantovat tento prostor, což je vysokorozměrný, spojitý prostor. Nemáte ponětí, jak to správně kvantifikovat. Můžete použít k-means atd. To je to, co lidé dělají, když provádějí kompresi videa a kompresi obrázků. Ale je to jen přiblížení. A pak si musíte vytvořit předpoklady nezávislosti. Je tedy jasné, že po sobě jdoucí snímky ve videu nejsou nezávislé. Existují závislosti a tento snímek může záviset na jiném snímku, který jste viděli před hodinou a který byl obrázkem stejné věci. Takže, víte, nemůžete měřit Pi. Měřit Pi, musíte mít systém strojového učení, který se naučí předvídat. A tak jste zpět u předchozího problému. Takže v podstatě můžete pouze přibližovat míru informací. 

yann-lecun-sept-2022-6

"Otázkou je, jak přesně měříte informační obsah způsobem, který můžete optimalizovat nebo minimalizovat?" říká LeCun. "A to je místo, kde se věci komplikují, protože vlastně nevíme, jak měřit obsah informací." Nejlepší, co lze zatím udělat, je najít proxy, která je „dost dobrá pro úkol, který chceme“.

Dovolte mi uvést konkrétnější příklad. Jedním z algoritmů, se kterým jsme si hráli, a o kterém jsem v tomto článku mluvil, je věc zvaná VICReg, variance-invariance-kovarianční regularizace. Je to v samostatném článku, který byl publikován na ICLR, a to bylo umístěno na arXiv asi rok předtím, 2021. A myšlenkou je maximalizovat informace. A nápad vlastně vyšel z dřívějšího článku mé skupiny s názvem Dvojčata Barlow. Informační obsah vektoru vycházejícího z neuronové sítě maximalizujete tím, že v zásadě předpokládáte, že jedinou závislostí mezi proměnnými je korelace, lineární závislost. Pokud tedy předpokládáte, že jedinou závislostí, která je možná mezi páry proměnných nebo mezi proměnnými ve vašem systému, jsou korelace mezi páry cenností, což je extrémně hrubá aproximace, pak můžete maximalizovat informační obsah vycházející z vašeho systému. tím, že se ujistíme, že všechny proměnné mají nenulový rozptyl – řekněme, rozptyl jedna, nezáleží na tom, co to je – a pak je zpětně korelujeme, stejný proces, který se nazývá bělení, také to není nic nového. Problém s tím je, že můžete velmi dobře mít extrémně složité závislosti mezi skupinami proměnných nebo dokonce jen páry proměnných, které nejsou lineárními závislostmi, a neukazují se v korelacích. Takže například, pokud máte dvě proměnné a všechny body těchto dvou proměnných jsou seřazeny do nějaké spirály, existuje mezi těmito dvěma proměnnými velmi silná závislost, že? Ale ve skutečnosti, pokud spočítáte korelaci mezi těmito dvěma proměnnými, nejsou ve vzájemné korelaci. Zde je příklad, kdy informační obsah těchto dvou proměnných je ve skutečnosti velmi malý, je to pouze jedna veličina, protože je to vaše pozice ve spirále. Jsou dekorelované, takže si myslíte, že máte spoustu informací vycházejících z těchto dvou proměnných, i když ve skutečnosti ne, máte pouze, víte, v podstatě můžete předpovědět jednu z proměnných od druhé. To tedy ukazuje, že máme pouze velmi přibližné způsoby měření obsahu informací.

ZDNet: Takže to je jedna z věcí, na kterých teď musíte pracovat? Toto je širší otázka, jak poznáme, že maximalizujeme a minimalizujeme informační obsah?

YL:  Nebo zda je proxy, kterou k tomu používáme, dost dobrá pro úkol, který chceme. Ve skutečnosti to ve strojovém učení děláme pořád. Nákladové funkce, které minimalizujeme, nejsou nikdy těmi, které skutečně chceme minimalizovat. Takže například chcete provést klasifikaci, ano? Nákladovou funkcí, kterou chcete při trénování klasifikátoru minimalizovat, je počet chyb, které klasifikátor dělá. Ale to je nediferencovatelná, strašná nákladová funkce, kterou nemůžete minimalizovat, protože víte, že změníte váhy své neuronové sítě, nic se nezmění, dokud jeden z těch vzorků nezmění své rozhodnutí, a pak skok v chybě, pozitivní nebo negativní.

ZDNet: Takže máte proxy, což je objektivní funkce, o které můžete určitě říci, že můžeme určitě tok gradientů této věci.

YL: To je správně. Takže lidé používají tuto ztrátu křížové entropie nebo SOFTMAX, máte pro to několik jmen, ale je to to samé. A v podstatě je to hladká aproximace počtu chyb, které systém dělá, kde se vyhlazování provádí v podstatě tak, že se bere v úvahu skóre, které systém uděluje každé z kategorií.

ZDNet: Je něco, co jsme neprobrali, co byste chtěli probrat?

YL: Pravděpodobně to zdůrazňuje hlavní body. Myslím, že systémy umělé inteligence musí být schopny uvažovat a proces, který obhajuji, je minimalizace určitého cíle s ohledem na nějakou latentní proměnnou. To umožňuje systémům plánovat a uvažovat. Myslím, že bychom měli opustit pravděpodobnostní rámec, protože je neřešitelný, když chceme dělat věci, jako je zachycení závislostí mezi vysokorozměrnými, spojitými proměnnými. A já jsem zastáncem opuštění generativních modelů, protože systém bude muset věnovat příliš mnoho zdrojů na předpovídání věcí, které je příliš obtížné předvídat a možná spotřebovává příliš mnoho zdrojů. A to je do značné míry vše. To jsou hlavní zprávy, chcete-li. A pak celková architektura. Pak jsou tu ty spekulace o povaze vědomí a roli konfigurátoru, ale to je opravdu spekulace.

ZDNet: K tomu se dostaneme příště. Chtěl jsem se vás zeptat, jak tuto věc hodnotíte? Ale předpokládám, že jste právě teď trochu dál od benchmarkingu?

YL: Ne nutně tak daleko ve zjednodušených verzích. Můžete dělat to, co každý dělá v ovládání nebo posilování učení, což znamená, že trénujete hraní her Atari nebo něco podobného nebo nějakou jinou hru, která v sobě nese určitou nejistotu.

ZDNet: Díky za tvůj čas, Yanne.

Zdroj