Гуруто за вештачка интелигенција на Мета, ЛеКун: Повеќето од денешните пристапи за вештачка интелигенција никогаш нема да доведат до вистинска интелигенција

yann-lecun-септ-2022-1

„Мислам дека системите за вештачка интелигенција треба да бидат способни да расудуваат“, вели Јан ЛеКун, главен научник за вештачка интелигенција на Мета. Денешните популарни пристапи за вештачка интелигенција како што се трансформаторите, од кои многу се базираат на неговата сопствена пионерска работа на теренот, нема да бидат доволни. „Морате да направите чекор назад и да кажете, Добро, ја изградивме оваа скала, но сакаме да одиме на Месечината и нема шанси оваа скала да не однесе таму“, вели ЛеКун.

Јан ЛеКун, главен научник за вештачка интелигенција на Meta Properties, сопственик на Фејсбук, Инстаграм и Ватсап, најверојатно ќе означи многу луѓе во неговата област. 

Со објавувањето во јуни на мисловно парче на серверот за отворен прегледЛеКун понуди широк преглед на пристапот за кој мисли дека ветува за постигнување интелигенција на ниво на човек во машините. 

Имплицирано, ако не е артикулирано во трудот, е тврдењето дека повеќето од денешните големи проекти во вештачката интелигенција никогаш нема да можат да ја постигнат таа цел на човечко ниво.

Во дискусија овој месец со ZDNet Преку Зум, ЛеКун јасно стави до знаење дека гледа со голем скептицизам на многу од најуспешните начини на истражување во длабокото учење во моментов.

„Мислам дека тие се неопходни, но не и доволни“, изјави добитникот на наградата Туринг ZDNet на стремежот на неговите врсници. 

Тие вклучуваат големи јазични модели како што се GPT-3 базиран на трансформатор и нивните слични. Како што го карактеризира ЛеКун, приврзаниците на Трансформер веруваат: „Ние правиме сè и тренираме гигантскимодели за правење дискретни предвидувања и некако вештачката интелигенција ќе произлезе од ова“.

„Тие не грешат“, вели тој, „во смисла дека тоа може да биде компонента на иден интелигентен систем, но мислам дека му недостасуваат суштински делови“.

Значи: Светлото за вештачка интелигенција LeCun на Мета ја истражува енергетската граница на длабокото учење

Тоа е запрепастувачка критика на она што се чини дека функционира што доаѓа од научникот кој ја усовршил употребата на конволуционите невронски мрежи, практична техника која е неверојатно продуктивна во програмите за длабоко учење. 

ЛеКун гледа недостатоци и ограничувања во многу други високо успешни области од дисциплината. 

Учењето за зајакнување, исто така, никогаш нема да биде доволно, тврди тој. Истражувачите како Дејвид Силвер од DeepMind, кој ја разви програмата AlphaZero која ги совлада Chess, Shogi и Go, се фокусираат на програми кои се „многу базирани на акција“, забележува ЛеКун, но „поголемиот дел од учењето што го правиме, не го правиме. направете го тоа со преземање акции, ние го правиме со набљудување“. 

Лекун (62), од перспектива на повеќедецениски достигнувања, сепак изразува итност да се соочи со слепите улички кон кои многумина можеби брзаат, и да се обиде да го натера своето поле во насоката во која мисли дека работите треба да одат. 

„Гледаме многу тврдења за тоа што треба да направиме за да се придвижиме напред кон вештачка интелигенција на човечко ниво“, вели тој. „И има идеи кои мислам дека се погрешно насочени“.

„Не сме до точка каде што нашите интелигентни машини имаат здрав разум како мачка“, забележува Лекун. „Па, зошто да не започнеме таму? 

Тој ја напуштил својата претходна вера во користење на генеративни мрежи во работи како што е предвидување на следниот кадар во видео. „Тоа беше целосен неуспех“, вели тој. 

ЛеКун ги осудува оние што ги нарекува „религиозни веројатности“, кои „мислат дека теоријата на веројатност е единствената рамка што можете да ја користите за да го објасните машинското учење“. 

Чисто статистичкиот пристап е нерешлив, вели тој. „Премногу е да се бара светскиот модел да биде целосно веројатен; не знаеме како да го направиме тоа“.

Не само на академиците, туку и на индустриската вештачка интелигенција им треба длабоко преиспитување, тврди ЛеКун. Толпата со самовозечки автомобили, стартапи како што е Wayve, беа „малку премногу оптимисти“, вели тој, мислејќи дека би можеле да „фрлаат податоци на“ големите невронски мрежи „и можете да научите речиси сè“.

„Знаете, мислам дека е сосема можно да имаме автономни автомобили на петто ниво без здрав разум“, вели тој, мислејќи на „ADAS“. напреден систем за помош на возачот условите за самостојно возење, „но ќе треба да го инженерите по ѓаволите“.

Таквата претерано конструирана технологија за самоуправување ќе биде нешто толку чкрипеливо и кршливо како и сите програми за компјутерска визија кои беа застарени со длабоко учење, верува тој.

„На крајот на краиштата, ќе има позадоволително и можеби подобро решение кое вклучува системи кои подобро ќе го разберат начинот на кој функционира светот“.

На патот, ЛеКун нуди некои опаѓачки ставови на неговите најголеми критичари, како што е професорот на NYU Гери Маркус - „тој никогаш не придонел ништо за вештачката интелигенција“ - и Јирген Шмидхубер, ко-директор на Институтот за истражување на вештачка интелигенција Дале Мол - „тоа е многу лесно се прави засадување знаме“.

Надвор од критиките, поважната точка на ЛеКун е дека одредени фундаментални проблеми се соочуваат со целата вештачка интелигенција, особено како да се измерат информациите.

„Треба да направите чекор назад и да кажете, Добро, ја изградивме оваа скала, но сакаме да одиме на Месечината, и нема шанси оваа скала да не одведе таму“, вели ЛеКун за неговата желба да поттикне преиспитување. на основните концепти. „Во суштина, она што го пишувам овде е, ние треба да изградиме ракети, не можам да ви дадам детали за тоа како ги правиме ракетите, но тука се основните принципи“.

Весникот и размислувањата на ЛеКун во интервјуто може подобро да се разберат со читање на интервјуто на ЛеКун претходно оваа година со ZDNet во кој тој се залага за само-надгледувано учење базирано на енергија како пат напред за длабоко учење. Тие размислувања даваат чувство за суштинскиот пристап кон она што тој се надева дека ќе го изгради како алтернатива на работите за кои тврди дека нема да стигнат до финишот. 

Она што следи е лесно уреден транскрипт од интервјуто.

ZDNet: Темата на нашиот разговор е овој труд, „Пат кон автономна машинска интелигенција“, од која верзија 0.9.2 е постоечката верзија, да?

Јан ЛеКун: Да, ова го сметам за работен документ. Така, го објавив на Open Review, чекајќи луѓето да дадат коментари и предлози, можеби дополнителни референци, а потоа ќе изработам ревидирана верзија. 

ZDNet: Гледам дека Јирген Шмидхубер веќе додаде некои коментари на Open Review.

YL: Па, да, тој секогаш го прави тоа. Таму во мојот труд цитирам еден од неговите трудови. Мислам дека аргументите што ги изнел на социјалните мрежи дека во основа го измислил сето ова во 1991 година, како што тоа го правел во други случаи, едноставно не се така. Мислам, тоа е многу лесно да се направисадење знаме и, некако, да напишете идеја без никакви експерименти, без никаква теорија, само предложете дека можете да го направите тоа на овој начин. Но, знаете, постои голема разлика помеѓу само да ја имате идејата, а потоа да ја натерате да работи на проблем со играчка, а потоа да ја натерате да работи на вистински проблем, а потоа да направите теорија што покажува зошто тоа функционира, а потоа распоредувајќи го. Има цел синџир, а неговата идеја за научна заслуга е дека тоа е првиот човек кој едноставно, знаете, имал идеја за тоа, кој треба да ја добие целата заслуга. И тоа е смешно. 

ZDNet: Не верувајте во се што ќе слушнете на социјалните мрежи. 

YL: Мислам, главниот труд што тој вели дека треба да го цитирам нема ниту една од главните идеи за кои зборувам во весникот. Ова го има направено и со GAN и други работи, што не испадна точно. Лесно е да се засади знаме, многу е потешко да се даде придонес. И, патем, во овој конкретен труд, јас експлицитно кажав дека ова не е научен труд во вообичаената смисла на терминот. Тоа е повеќе позиционен документ за тоа каде треба да оди оваа работа. И има неколку идеи што може да бидат нови, но повеќето од нив не се. Јас не тврдам никаков приоритет на повеќето од она што го напишав во тој труд, во суштина.

yann-lecun-септ-2022-2

Учењето со засилување, исто така, никогаш нема да биде доволно, тврди ЛеКун. Истражувачите како Дејвид Силвер од DeepMind, кој ја разви програмата AlphaZero која ги совлада шахот, Шоги и Гоу, се „многу засновани на акција“, забележува ЛеКун, но „поголемиот дел од учењето што го правиме, не го правиме со преземање дејства, тоа го правиме со набљудување“. 

ZDNet: И тоа е можеби добро место за почеток, бидејќи ме интересира зошто сега тргнавте по овој пат? Што те натера да размислуваш за ова? Зошто сакаше да го напишеш ова?

YL: Па, значи, размислував за ова многу долго време, за патот кон интелигенција или учење и способности на ниво на човек или животинско ниво. И, во моите разговори бев прилично гласен за целата работа дека и надгледуваното учење и зајакнувачкото учење не се доволни за да го имитираат видот на учење што го набљудуваме кај животните и кај луѓето. Ова го правам околу седум или осум години. Значи, не е неодамна. Имав главен говор на NeurIPS пред многу години каде што ја кажав таа поента, во суштина, и разни разговори, има снимки. Сега, зошто да напишете труд сега? Дојдов до точка - [истражувачот на Google Brain] Џеф Хинтон направи нешто слично - мислам, секако, тој повеќе од мене, гледаме дека времето истекува. Не сме млади.

ZDNet: Шеесет е новата педесетка. 

YL: Тоа е точно, но поентата е во тоа што гледаме многу тврдења за тоа што треба да направиме за да напредуваме кон човечко ниво на вештачка интелигенција. И има идеи кои мислам дека се погрешно насочени. Значи, една идеја е, О, треба само да додадеме симболично расудување на врвот на нервните мрежи. И не знам како да го направам ова. Значи, можеби она што го објаснив во трудот може да биде еден пристап кој би го направил истото без експлицитна манипулација со симболи. Ова е типот на традиционално Гери Маркусес од светот. Гери Маркус не е личност со вештачка интелигенција, патем, тој е психолог. Тој никогаш не придонел ништо за вештачката интелигенција. Тој има направено навистина добра работа во експерименталната психологија, но никогаш не напишал рецензиран труд за вештачката интелигенција. Значи, тука се тие луѓе. 

Светот е [научникот за истражување на принципот на DeepMind] Дејвид Силверс кој вели, знаете, наградата е доволна, во основа, сè е за зајакнување на учењето, само треба да го направиме малку поефикасно, во ред? И, мислам дека не грешат, но мислам дека неопходните чекори кон поефикасно учењето за засилување, во основа, би го префрлиле зајакнувачкото учење во вид на цреша на тортата. А главниот дел што недостасува е учењето како функционира светот, најчесто со набљудување без акција. Учењето со засилување е многу засновано на акција, вие учите работи за светот со преземање акции и гледање на резултатите.

ZDNet: И тоа е фокусирано на награди.

YL: Тој е фокусиран на награди, а исто така е фокусиран на акција. Значи, треба да дејствувате во светот за да можете да научите нешто за светот. И главното тврдење што го кажувам во трудот за само-надгледуваното учење е, најголемиот дел од учењето што го правиме, не го правиме со преземање акции, туку го правиме со набљудување. И тоа е многу неортодоксно, и за луѓето кои учат за зајакнување, особено, но и за многу психолози и когнитивни научници кои мислат дека, знаете, акцијата е - не велам дека акцијата не е суштинска, тоа is суштински. Но, мислам дека најголемиот дел од она што го учиме е главно за структурата на светот и вклучува, се разбира, интеракција и акција и игра, и слични работи, но многу од нив се набљудувачки.

ZDNet: Исто така, ќе успеете да ги штиклирате луѓето од Transformer, луѓето кои се први на јазикот, во исто време. Како можете прво да го изградите ова без јазик? Можеби ќе успеете да штиклирате многу луѓе. 

YL: Да, навикнат сум на тоа. Така, да, тука се првите луѓе на јазикот, кои велат, знаете, интелигенцијата е за јазикот, супстратот на интелигенцијата е јазикот, бла, бла, бла. Но, тоа, некако, ја отфрла животинската интелигенција. Знаете, ние не сме до точка каде што нашите интелигентни машини имаат здрав разум како мачка. Па, зошто да не започнеме таму? Што е тоа што ѝ дозволува на мачката да го сфати околниот свет, да прави прилично паметни работи и да планира и слични работи, а на кучињата уште подобро? 

Потоа, тука се сите луѓе кои велат: О, интелигенцијата е социјална работа, нели? Ние сме интелигентни затоа што разговараме меѓу себе и разменуваме информации, и бла, бла, бла. Постојат сите видови несоцијални видови кои никогаш не ги среќаваат своите родители кои се многу паметни, како октопод или орангутани.Мислам, тие [орангутаните] секако се образовани од нивната мајка, но тие не се социјални животни. 

Но, другата категорија на луѓе што би можела да ја забележам се луѓе кои велат дека скалирањето е доволно. Значи, во основа, ние само користиме гигантски трансформатори, ги обучуваме на мултимодални податоци кои вклучуваат, знаете, видео, текст, бла, бла, бла. Ние, некако, се скаменувамесè, и токенизирај се, а потоа тренирај гигантскимодели за правење дискретни предвидувања, во основа, и некако вештачката интелигенција ќе произлезе од ова. Тие не грешат, во смисла дека тоа може да биде компонента на иден интелигентен систем. Но, мислам дека му недостасуваат суштински парчиња. 

Има уште една категорија на луѓе што ќе ги означам со овој труд. И тоа се веројатностите, религиозните веројатности. Значи, луѓето кои мислат дека теоријата на веројатност е единствената рамка што можете да ја користите за да го објасните машинското учење. И како што се обидов да објаснам во делот, во основа е премногу да се бара светски модел да биде целосно веројатност. Не знаеме како да го направиме тоа. Тука е компјутерската нерешливост. Затоа, предлагам да се отфрли целата оваа идеја. И, се разбира, знаете, ова е огромен столб не само на машинското учење, туку и на целата статистика, која тврди дека е нормален формализам за машинско учење. 

Другото - 

ZDNet: Ти си на ролна…

YL: — е она што се нарекува генеративни модели. Значи, идејата дека можете да научите да предвидувате, а можеби и да научите многу за светот со предвидување. Така, ви давам парче видео и барам од системот да предвиди што ќе се случи следно во видеото. И можеби ќе ве замолам да ги предвидите вистинските видео рамки со сите детали. Но, она за што се расправам во весникот е дека тоа е всушност премногу за прашување и премногу комплицирано. И ова е нешто за што се предомислив. До пред околу две години, бев застапник на она што јас го нарекувам латентни генеративни модели на променливи, модели кои предвидуваат што ќе се случи следно или информациите што недостасуваат, можеби со помош на латентна променлива, ако предвидувањето не може да биде детерминистички. И јас се откажав од ова. И причината поради која се откажав од ова е заснована на емпириски резултати, каде што луѓето се обидоа да применат, вид на, предвидување или обука заснована на реконструкција од типот што се користи во БЕРТи големите јазични модели, тие се обидоа да го применат ова на слики, и тоа беше целосен неуспех. И причината поради која тоа е целосен неуспех е, повторно, поради ограничувањата на веројатносните модели каде што е релативно лесно да се предвидат дискретни токени како зборови, бидејќи можеме да ја пресметаме распределбата на веројатноста над сите зборови во речникот. Тоа е лесно. Но, ако побараме од системот да ја произведе дистрибуцијата на веројатност на сите можни видео рамки, немаме идеја како да ја параметрираме, или имаме идеја како да ја параметрираме, но не знаеме како да ја нормализираме. Погодува нерешлив математички проблем што не знаеме како да го решиме. 

yann-lecun-септ-2022-3

„Не сме до точка каде што нашите интелигентни машини имаат здрав разум како мачка“, забележува Лекун. „Па, зошто да не започнеме таму? Што е тоа што ѝ дозволува на мачката да го сфати околниот свет, да прави прилично паметни работи и да планира и слични работи, а на кучињата уште подобро?

Затоа велам да ја напуштиме теоријата на веројатност или рамката за такви работи, послабите модели базирани на енергија. Јас се залагам за ова, исто така, со децении, така што ова не е скорешна работа. Но, во исто време, напуштање на идејата за генеративни модели бидејќи има многу работи во светот кои не се разбирливи и непредвидливи. Ако си инженер, тоа го нарекуваш бучава. Ако си физичар, тоа го нарекуваш топлина. И ако сте човек за машинско учење, го нарекувате, знаете, небитни детали или што и да е.

Така, примерот што го користев во весникот, или го користев во разговорите, е, сакате систем за предвидување на светот кој би помогнал во самоуправувачки автомобил, нели? Сака да може однапред да ги предвиди траекториите на сите други автомобили, што ќе се случи со другите предмети што би можеле да се движат, пешаци, велосипеди, дете кое трча по фудбалска топка, слични работи. Значи, секакви работи за светот. Но, граничи со патот, можеби има дрвја, а има ветер денес, така што лисјата се движат на ветрот, а зад дрвјата има езерце и има бранови во езерцето. А тоа се, во суштина, во голема мера непредвидливи појави. И, не сакате вашиот модел да потроши значителен износ на ресурси за предвидување на оние работи кои се и тешко да се предвидат и неважни. Затоа, јас се залагам за заедничка архитектура на вградување, оние работи каде што променливата што се обидувате да ја моделирате, не се обидувате да ја предвидите, туку се обидувате да ја моделирате, но таа поминува низ енкодер, и тој енкодер може да елиминира многу детали за влезот кои се ирелевантни или премногу комплицирани - во основа, еквивалентни на бучава.

ZDNet: Разговаравме претходно оваа година за моделите базирани на енергија, JEPA и H-JEPA. Моето чувство, ако те разбирам правилно, дали ја наоѓаш точката на ниска енергија каде што овие две предвидувања за вградување X и Y се најслични, што значи дека ако има гулаб во дрво во едно, а има нешто во позадината на сцената, тие можеби не се суштинските точки што ги прават овие вградувања блиски еден до друг.

YL: Во право. Значи, архитектурата JEPA всушност се обидува да најде компромис, компромис, помеѓу извлекување претстави кои се максимално информативни за влезовите, но исто така предвидливи едни од други со одредено ниво на точност или доверливост. Наоѓа компромис. Значи, ако има избор помеѓу трошење огромно количество ресурси, вклучувајќи ги деталите за движењето на листовите, а потоа моделирање на динамиката што ќе одлучи како листовите се движат за секунда од сега, или само фрлање на подот до само во основа ја извршува променливата Y преку предвидувач што ги елиминира сите тие детали, веројатно само ќе ја елиминира бидејќи е едноставно премногу тешко да се моделира и да се долови.

ZDNet: Едно нешто што е изненадено е дека сте биле голем поборник да кажете „Тоа функционира, подоцна ќе ја откриеме теоријата на термодинамиката за да го објасниме тоа“. Овде, зазедовте пристап „Не знам како нужно ќе го решиме ова, но сакам да изнесам некои идеи за да размислам за тоа“, а можеби дури и пристапи кон теорија или хипотеза, на најмалку. Тоа е интересно бидејќи има многу луѓе кои трошат многу пари работејќи на автомобил кој може да го види пешакот без разлика дали автомобилот има здрав разум. И замислувам дека некои од тие луѓе нема да бидат штиклирани, но ќе речат: „Во ред е, не ни е гајле ако нема здрав разум, изградивме симулација, симулацијата е неверојатна. и ќе продолжиме да се подобруваме, ќе продолжиме да ја зголемуваме симулацијата“. 

И затоа е интересно што сега сте во позиција да кажете, ајде да се вратиме чекор назад и да размислиме што правиме. И индустријата вели дека ние само ќе се размериме, размериме, размериме, затоа што таа чудак навистина работи. Мислам, полупроводничката чуда на графичките процесори навистина функционира.

YL: Има, на пример, пет прашања таму. Значи, мислам, скалирањето е неопходно. Не го критикувам фактот дека треба да скалираме. Треба да скалираме. Тие нервни мрежи стануваат подобри како што стануваат поголеми. Нема сомнение дека треба да скалираме. И оние што ќе имаат одредено ниво на здрав разум ќе бидат големи. Не постои начин да се заобиколи тоа, мислам. Значи, скалирањето е добро, неопходно е, но не е доволно. Тоа е поентата што ја истакнувам. Тоа не е само скалирање. Тоа е првата точка. 

Втора точка, дали теоријата е на прво место и такви работи. Така, мислам дека има концепти кои се на прво место, а тоа, треба да се направи чекор назад и да се каже, во ред, ја изградивме оваа скала, но сакаме да одиме на Месечината и нема шанси оваа скала да не однесе таму. Значи, во основа, она што го пишувам овде е, ние треба да изградиме ракети. Не можам да ви дадам детали за тоа како градиме ракети, но тука се основните принципи. И јас не пишувам теорија за тоа или нешто друго, но, тоа ќе биде ракета, во ред? Или вселенски лифт или што и да е. Можеби ги немаме сите детали за целата технологија. Се обидуваме да направиме некои од тие работи да функционираат, како што работев на JEPA. Заедничкото вградување навистина добро функционира за препознавање слики, но за да се искористи за обука на светски модел, има потешкотии. Работиме на тоа, се надеваме дека ќе успееме soon, но таму можеби ќе наидеме на некои пречки кои не можеме да ги надминеме. 

Потоа, постои клучна идеја во трудот за расудувањето каде што ако сакаме системите да можат да планираат, што можете да го замислите како едноставна форма на расудување, тие треба да имаат латентни променливи. Со други зборови, нештата што не се пресметуваат со никаква нервна мрежа, туку работи кои се - чија вредност се заклучува за да се минимизира некоја целна функција, одредена функција на трошоци. И тогаш можете да ја користите оваа функција на трошоци за да го поттикнете однесувањето на системот. И ова воопшто не е нова идеја, нели? Ова е многу класична, оптимална контрола каде што основата на ова се враќа во доцните 50-ти, раните 60-ти. Значи, тука не барајќи никаква новина. Но, она што јас го велам е дека овој тип на заклучоци треба да биде дел од интелигентен систем кој е способен за планирање, и чие однесување може да се специфицира или контролира не со тврдокорно однесување, не со имитација наклонетост, туку со објективна функција која го поттикнува однесувањето - не го поттикнува учењето, нужно, но го поттикнува однесувањето. Знаете, ние го имаме тоа во нашиот мозок, и секое животно има внатрешна цена или внатрешна мотивација за нештата. Тоа ги тера деветмесечните бебиња да сакаат да станат. Трошоците за да се биде среќен кога ќе станете, тој термин во функцијата за трошоци е харджичен. Но, како ќе станете не е, тоа е учење.

yann-lecun-септ-2022-4

„Скалирањето е добро, неопходно е, но не е доволно“, вели ЛеКун за огромните јазични модели како што се програмите базирани на трансформатор од сортата GPT-3. Приврзаниците на Трансформер веруваат: „Ние правиме сè и тренираме гигантскимодели за правење дискретни предвидувања, и некако вештачката интелигенција ќе произлезе од ова… но мислам дека и недостасуваат суштински делови“.

ZDNet: Само за да се заокружи таа точка, голем дел од заедницата за длабоко учење изгледа дека оди напред со нешто што нема здрав разум. Се чини дека овде давате прилично јасен аргумент дека во одреден момент станува ќор-сокак. Некои луѓе велат дека не ни треба автономен автомобил со здрав разум, бидејќи скалирањето ќе го направи тоа. Звучи како да велиш дека не е во ред само да продолжиш да одиш по тој пат?

YL: Знаете, мислам дека е сосема можно да имаме автономни автомобили на петто ниво без здрав разум. Но, проблемот со овој пристап, ова ќе биде привремен, затоа што ќе треба да го инженерите по ѓаволите. Значи, знаете, мапирајте го целиот свет, вклучете ги сите видови конкретно однесување во аголот, соберете доволно податоци за да ги имате сите чудни ситуации што можете да ги сретнете на патиштата, бла, бла, бла. И моја претпоставка е дека со доволно инвестиции и време, можете само да го измислите тоа. Но, на крајот на краиштата, ќе има позадоволително и можеби подобро решение кое вклучува системи кои подобро го разбираат начинот на кој функционира светот и имаат, знаете, одредено ниво на она што би го нарекле здрав разум. Не треба да биде здрав разум на ниво на човек, туку некаков вид на знаење што системот може да го стекне со гледање, но не гледајќи некој како вози, само гледање работи што се движат наоколу и разбирање многу за светот, градење основа на позадина знаење за тоа како функционира светот, на што можете да научите да возите. 

Дозволете ми да земам историски пример за ова. Класичната компјутерска визија се засноваше на многу харджичени, конструирани модули, на врвот на кои ќе имате, некако, тенок слој на учење. Значи, работите што беа претепани од AlexNet во 2012 година, во основа имаа прва фаза, рачно изработени извлекувања на карактеристики, како што се SIFTs [Scale-Invariant Feature Transform (SIFT), класична техника на видување за идентификување на истакнати објекти на сликата] и HOG [Хистограм на ориентирани градиенти, друга класична техника] и разни други работи. А потоа вториот слој на, вид на, средно ниво карактеристики врз основа на карактеристики кернели и што и да е, и некој вид на метод без надзор. И потоа, на врвот на ова, ставате машина за вектор за поддршка, или на друг начин релативно едноставен класификатор. И тоа беше, некако, стандардниот гасовод од средината на 2000-тите до 2012 година. и ја тренираш работата од крај до крај, тоа е пристапот што го заговарав долго време, но знаеш, дотогаш не беше практичен за големи проблеми. 

Имаше слична приказна за препознавање говор каде што, повторно, имаше огромна количина на детален инженеринг за тоа како однапред ги обработувате податоците, извлекувате цепструм од масовен обем [инверзна на Брзата Фуриеова трансформација за обработка на сигналот], а потоа имаш Скриени Марков модели, со вид на, однапред поставена архитектура, бла, бла, бла, со мешавина од Гауси. И така, тоа е малку иста архитектура како визијата каде што имате рачно изработен преден дел, а потоа донекаде ненадгледуван, обучен, среден слој, а потоа надгледуван слој на врвот. И сега тоа е, во основа, избришано со нервни мрежи од крај до крај. Така, некако гледам нешто слично таму, обидувајќи се да научите сè, но мора да го имате вистинскиот претходен, вистинската архитектура, вистинската структура.

yann-lecun-септ-2022-5

Толпата со самовозечки автомобили, стартапи како Waymo и Wayve, беа „малку премногу оптимисти“, вели тој, мислејќи дека можат „да фрлаат податоци на нив, а вие можете да научите речиси сè“. Можни се самоуправувачки автомобили на Ниво 5 на ADAS, „Но, ќе треба да го инженерите по ѓаволите“ и ќе бидат „кршливи“ како раните модели со компјутерска визија.

ZDNet: Она што го велиш е, некои луѓе ќе се обидат да го инженерираат она што моментално не функционира со длабоко учење за применливост, да речеме, во индустријата, и тие ќе почнат да создаваат нешто што е она што стана застарено во компјутерската визија?

YL: Во право. И делумно е причината зошто луѓето кои работат на автономно возење беа малку преоптимисти во последните неколку години, затоа што, знаете, ги имате овие генерички работи како што се конволуционите мрежи и трансформаторите, за да можете да фрлате податоци на нив. , и може да научи речиси сè. Значи, велите, Добро, го имам решението за тој проблем. Првата работа што ја правите е да изградите демо каде автомобилот сам вози неколку минути без да повреди никого. И тогаш сфаќаш дека има многу аголни кутии, и се обидуваш да ја зацрташ кривата за тоа колку сум подобар додека го удвојувам комплетот за обука, и сфаќаш дека никогаш нема да стигнеш таму бидејќи има секакви аголни кутии . И треба да имате автомобил кој ќе предизвика фатална несреќа помалку од секои 200 милиони километри, нели? Па, што правиш? Па, одиш во две насоки. 

Првата насока е, како можам да ја намалам количината на податоци што е неопходна за да научи мојот систем? И тоа е местото каде што доаѓа само-надгледуваното учење. Значи, многу облеки на автомобили со самоуправување се многу заинтересирани за само-надгледувано учење, бидејќи тоа е начин да се користат огромни количини на надзорни податоци за имитација на учење, но да се добијат подобри перформанси со пред-тренинг, во суштина. И сè уште не е комплетно испразнето, но ќе биде. А потоа, тука е и другата опција, која повеќето од компаниите кои се понапредни во овој момент ја усвоија, што е, во ред, можеме да ја правиме обуката од крај до крај, но има многу аголни случаи што можеме. да се справиме, така што ќе направиме само инженерски системи кои ќе се грижат за тие аголни кутии и, во основа, ќе ги третираат како посебни случаи, и ќе ја ограничат контролата, а потоа ќе вградиме многу основни однесувања за справување со посебни ситуации. И ако имате доволно голем тим на инженери, можеби ќе го извлечете. Но, ќе биде потребно долго време, и на крајот, сепак ќе биде малку кршливо, можеби доволно доверливо за да можете да го распоредите, но со одредено ниво на кршливост, кое, со пристап заснован на учење што може да се појави во иднината, автомобилите нема да имаат затоа што може да има одредено ниво на здрав разум и разбирање за тоа како функционира светот. 

На краток рок, ќе победи, некако инженерскиот пристап - тој веќе победува. Тоа се Waymo и Cruise of the world и Wayveи што и да е, тоа е она што тие го прават. Потоа, тука е пристапот за учење само-надгледуван, кој веројатно ќе му помогне на инженерскиот пристап да напредува. Но, тогаш, на долг рок, што може да биде премногу долго за да чекаат тие компании, веројатно би бил некако поинтегриран автономен интелигентен систем за возење.

ZDNet: Велиме надвор од инвестицискиот хоризонт на повеќето инвеститори.

YL: Тоа е точно. Значи, прашањето е дали луѓето ќе го изгубат трпението или ќе останат без пари пред перформансите да го достигнат посакуваното ниво.

ZDNet: Има ли нешто интересно да се каже зошто избравте некои од елементите што ги избравте во моделот? Затоа што го цитираш Кенет Крејк [1943,Природата на објаснувањето], а вие ги наведувате Брајсон и Хо [1969, Применета оптимална контрола], и ме интересира зошто почнавте со овие влијанија, ако особено верувавте дека овие луѓе го заковаа тоа што го направија. Зошто почна таму?

YL: Па, не мислам, секако, ги имаа сите детали заковани. Така, Брајсон и Хо, ова е книга што ја прочитав во 1987 година, кога бев постдоктор со Џефри Хинтон во Торонто. Но, јас знаев за оваа линија на работа однапред кога го пишував мојот докторат и ја направив врската помеѓу оптималната контрола и потпората, во суштина. Ако навистина сакавте да бидете, знаете, друг Шмидхубер, би рекле дека вистинските пронаоѓачи на backprop биле всушност теоретичарите за оптимална контрола Хенри Џеј Кели, Артур Брајсон, а можеби дури и Лев Понтријагин, кој е руски теоретичар за оптимална контрола назад. во доцните 50-ти. 

Така, тие го сфатија тоа, и всушност, можете да го видите коренот на ова, математиката под тоа, е Лагранжовата механика. Така, можете да се вратите на Ојлер и Лагранж, всушност, и да најдете мирис од ова во нивната дефиниција за Лагранжовата класична механика, навистина. Значи, во контекст на оптимална контрола, она за што овие момци беа заинтересирани беше во основа пресметување на траектории на ракети. Знаете, ова беше раното вселенско доба. И ако имате модел на ракетата, тој ви кажува еве каква е состојбата на ракетата во моментот t, и еве ја акцијата што ќе ја преземам, значи, потисок и активирачи од различни видови, еве каква е состојбата на ракетата во времето t + 1.

ZDNet: Модел на држава-акција, модел на вредност.

YL: Така е, основата на контролата. Така, сега можете да го симулирате пукањето на вашата ракета замислувајќи секвенца на команди, а потоа имате некоја функција на трошоци, што е растојанието на ракетата до нејзината цел, вселенска станица или што и да е. И тогаш со некакво спуштање со градиент, можете да сфатите, како можам да го ажурирам мојот редослед на дејствување, така што мојата ракета всушност ќе се доближи што е можно поблиску до целта. И тоа треба да дојде со сигнали кои се шират назад во времето. И тоа е назад-пропагирање, градиент назад-размножување. Тие сигнали, тие се нарекуваат конјугирани променливи во Лагранжовата механика, но всушност, тие се градиенти. Така, тие измислиле задна потпора, но не сфатиле дека овој принцип може да се користи за обука на повеќестепен систем кој може да направи препознавање на шаблони или нешто слично. Ова навистина не беше реализирано можеби до крајот на 70-тите, почетокот на 80-тите, а потоа всушност не беше имплементирано и профункционирано до средината на 80-тите. Океј, значи, ова е местото каде што заднинската потпора навистина, некако, полета затоа што луѓето покажаа еве неколку линии код со кои можете да тренирате нервна мрежа, од крај до крај, повеќеслојна. И тоа ги укинува ограничувањата на Перцептронот. И, да, има врски со оптимална контрола, но тоа е во ред.

ZDNet: Значи, тоа е долг пат за да се каже дека овие влијанија со кои започнавте се враќаа назад, и тоа беше важно како почетна точка за вас?

YL: Да, но мислам дека она на што луѓето малку заборавија, имаше доста работа на ова, знаете, во 90-тите, па дури и 80-тите, вклучително и од луѓе како Мајкл Џордан [Оддел за мозок на МИТ и когнитивни науки] и такви луѓе кои повеќе не прават нервни мрежи, туку идејата дека можете да користите нервни мрежи за контрола и можете да ги користите класичните идеи за оптимална контрола. Значи, работи како што се нарекува модел-предвидлива контрола, она што сега се нарекува модел-предвидлива контрола, оваа идеја што можете да го симулирате или замислите исходот од низа дејства ако имате добар модел на системот што се обидувате да го контролирате и околината во која се наоѓа. А потоа со спуштање на градиент, во суштина - ова не е учење, ова е заклучок - можете да сфатите која е најдобрата низа на дејства што ќе ја минимизираат мојата цел. Значи, употребата на функцијата на трошоците со латентна променлива за заклучување е, мислам, нешто на што заборавиле сегашните култури од големи нервни мрежи. Но, тоа беше многу класична компонента на машинското учење долго време. Така, секоја Бејзанска мрежа или графички модел или веројатност графички модел користел ваков тип на заклучоци. Имате модел кој ги доловува зависностите помеѓу еден куп променливи, ви е кажано вредноста на некои од променливите, а потоа треба да ја заклучите најверојатната вредност на останатите променливи. Тоа е основниот принцип на заклучување во графичките модели и Bayesian мрежи, и такви работи. И мислам дека во основа тоа треба да биде расудувањето, расудувањето и планирањето.

ZDNet: Ти си бајзијанец од плакарот.

YL: Јас сум неверојатен бајзиец. Ја направив таа шега и претходно. Навистина бев во NeurIPS пред неколку години, мислам дека беше во 2018 или 2019 година, и бев снимен на видео од еден Бајзијанец кој ме праша дали сум Баезијанец, и јас реков: Да, јас сум Баезијанец, но јас Јас сум не-веројатен бајзиец, некако бајзиец базиран на енергија, ако сакате. 

ZDNet: Што дефинитивно звучи како нешто од Star Trek. Спомнавте на крајот од овој труд, ќе бидат потребни години навистина напорна работа за да се реализира она што го замислувате. Кажи ми за што се состои дел од таа работа во моментот.

YL: Така, јас објаснувам како тренирате и ја градите ЈЕПА во весникот. И критериумот за кој се залагам е да се има некој начин да се максимизира информациската содржина што ја имаат репрезентациите што се извлекуваат за влезот. И тогаш втората е минимизирање на грешката во предвидувањето. И ако имате латентна променлива во предикторот што му дозволува на предикторот да биде недетерминистички, треба да ја регулирате и оваа латентна променлива со минимизирање на нејзината информациска содржина. Значи, сега имате две прашања, а тоа е како да ја максимизирате информациската содржина на излезот на некоја нервна мрежа, а другото е како да ја минимизирате информациската содржина на некоја латентна променлива? И ако не ги направите тие две работи, системот ќе пропадне. Нема да научи ништо интересно. Ќе даде нула енергија на се, нешто слично, што не е добар модел на зависност. Тоа е проблемот со спречување на колапс што го споменувам. 

И јас велам за сите работи што луѓето некогаш ги направиле, постојат само две категории методи за да се спречи колапс. Едниот се контрастивни методи, а другиот се оние регуларирани методи. Значи, оваа идеја за максимизирање на информациската содржина на претставите на двата влеза и минимизирање на информациската содржина на латентната променлива, припаѓа на регуларирани методи. Но, голем дел од работата во тие заеднички архитектури за вградување се користат контрастни методи. Всушност, тие се веројатно најпопуларните во моментот. Значи, прашањето е како точно ја мерите информациската содржина на начин што можете да го оптимизирате или минимизирате? И тоа е местото каде што работите стануваат комплицирани бидејќи всушност не знаеме како да ја измериме информациската содржина. Можеме да го приближиме, можеме да го ограничиме, можеме да правиме такви работи. Но, тие всушност не ја мерат информациската содржина, која, всушност, до одреден степен не е ни добро дефинирана.

ZDNet: Не е Шеноновиот закон? Не е теорија на информации? Имате одредена количина на ентропија, добра ентропија и лоша ентропија, а добрата ентропија е симбол систем кој работи, лошата ентропија е бучава. Зарем сето тоа не го реши Шенон?

YL: Во право си, но има голема маана зад тоа. Во право си во смисла дека ако имаш податоци кои доаѓаат до тебе и можеш некако да ги квантизираш податоците во дискретни симболи, а потоа ја измериш веројатноста за секој од тие симболи, тогаш максималната количина на информации што ја носат тие симболи е збир над можните симболи на Пи лог Пи, нели? Каде Pi е веројатноста за симбол јас - тоа е ентропијата на Шенон. [Законот на Шенон најчесто се формулира како H = – ∑ pi log pi.]

Но, тука е проблемот: Што е Pi? Лесно е кога бројот на симболи е мал, а симболите се нацртани независно. Кога има многу симболи и зависности, тоа е многу тешко. Значи, ако имате низа од битови и претпоставувате дека битовите се независни еден од друг и веројатноста е еднаква помеѓу еден и нула или што и да е, тогаш можете лесно да ја измерите ентропијата, нема проблем. Но, ако работите што доаѓаат кај вас се високодимензионални вектори, како, знаете, рамки на податоци или нешто слично, што е Pi? Која е дистрибуцијата? Прво треба да го квантизирате тој простор, кој е високодимензионален, континуиран простор. Немате идеја како да го квантизирате ова правилно. Можете да користите k-means, итн. Ова е она што луѓето го прават кога вршат компресија на видео и компресија на слика. Но, тоа е само приближна вредност. И тогаш треба да направите претпоставки за независност. Значи, јасно е дека во видеото, последователните кадри не се независни. Постојат зависности, а таа рамка може да зависи од друга рамка што сте ја виделе пред еден час, а која била слика на истото. Значи, знаете, не можете да измерите Pi. За мерење на Pi, мора да имате систем за машинско учење кој учи да предвидува. И така се вративте на претходниот проблем. Значи, можете само да ја приближите мерката на информации, суштински. 

yann-lecun-септ-2022-6

„Прашањето е точно како ја мерите информациската содржина на начин што можете да го оптимизирате или минимизирате? вели ЛеКун. „И тоа е местото каде што работите стануваат комплицирани бидејќи всушност не знаеме како да ја измериме информациската содржина“. Најдоброто што може да се направи досега е да се најде прокси кој е „доволно добар за задачата што ја сакаме“.

Дозволете ми да земам поконкретен пример. Еден од алгоритмите со кој си игравме, и за кој зборував во делот, е ова нешто наречено VICReg, регулација на варијанса-инваријанса-коваријанса. Тоа е во посебен труд кој беше објавен во ICLR, и беше ставен на arXiv околу една година пред, 2021. И идејата таму е да се максимизираат информациите. И идејата всушност произлезе од претходниот труд на мојата група наречена Близнаци Барлоу. Ја максимизирате информациската содржина на векторот што излегува од нервната мрежа, во основа, претпоставувајќи дека единствената зависност помеѓу променливите е корелација, линеарна зависност. Значи, ако претпоставите дека единствената зависност што е можна помеѓу парови на променливи, или помеѓу променливи во вашиот систем, се корелации помеѓу парови на вредни работи, што е екстремно груба апроксимација, тогаш можете да ја максимизирате информациската содржина што излегува од вашиот систем со тоа што ќе се осигураме дека сите променливи имаат не-нулта варијанса - да речеме, варијанса еден, не е важно што е тоа - и потоа повторно корелација на нив, истиот процес што се нарекува белење, ни тоа не е нов. Проблемот со ова е што многу добро можете да имате екстремно сложени зависности помеѓу двете групи на променливи или дури и само парови на променливи кои не се линеарни зависности и тие не се појавуваат во корелации. Така, на пример, ако имате две променливи, и сите точки на тие две променливи се редат во некој вид на спирала, постои многу силна зависност помеѓу тие две променливи, нели? Но, всушност, ако ја пресметате корелацијата помеѓу тие две променливи, тие не се во корелација. Значи, еве еден пример каде што информациската содржина на овие две променливи е всушност многу мала, тоа е само една количина бидејќи тоа е вашата позиција во спиралата. Тие се декорелирани, така што мислите дека имате многу информации кои произлегуваат од тие две променливи, а всушност немате, вие само, знаете, можете да предвидите една од променливите од другата, во суштина. Значи, тоа покажува дека имаме само многу приближни начини за мерење на информациската содржина.

ZDNet: И така, тоа е една од работите на кои треба да работите сега со ова? Ова е поголемото прашање за тоа како знаеме кога ја максимизираме и минимизираме информациската содржина?

YL:  Или дали проксито што го користиме за ова е доволно добро за задачата што ја сакаме. Всушност, ова го правиме цело време во машинското учење. Функциите на трошоците што ги минимизираме никогаш не се оние што всушност сакаме да ги минимизираме. Така, на пример, сакате да направите класификација, добро? Функцијата на трошоци што сакате да ја минимизирате кога тренирате класификатор е бројот на грешки што ги прави класификаторот. Но, тоа е недиференцибилна, ужасна функција на трошоци што не можете да ја минимизирате бидејќи знаете дека ќе ги промените тежините на вашата нервна мрежа, ништо нема да се промени додека еден од тие примероци не ја преврти својата одлука, а потоа скок во грешката, позитивна или негативна.

ZDNet: Значи, имате прокси што е целна функција што дефинитивно можете да ја кажете, ние дефинитивно можеме да течеме градиенти на оваа работа.

YL: Тоа е точно. Значи, луѓето ја користат оваа загуба на вкрстена ентропија, или SOFTMAX, имаш неколку имиња за тоа, но тоа е иста работа. И во основа е непречено приближување на бројот на грешки што ги прави системот, каде што измазнувањето се врши со, во основа, земајќи ја предвид оценката што системот ја дава на секоја од категориите.

ZDNet: Дали има нешто што не го опфативме и што би сакале да го покриете?

YL: Веројатно ги нагласува главните точки. Мислам дека системите за вештачка интелигенција треба да бидат способни да расудуваат, а процесот за ова што јас го застапувам е минимизирање на одредена цел во однос на некоја латентна променлива. Тоа им овозможува на системите да планираат и расудуваат. Мислам дека треба да ја напуштиме веројатностата рамка затоа што е нерешлива кога сакаме да правиме работи како што е фаќање зависности помеѓу високодимензионални, континуирани променливи. И јас се залагам да се напуштат генеративните модели бидејќи системот ќе мора да посвети премногу ресурси за предвидување работи кои се премногу тешки за предвидување и можеби трошат премногу ресурси. И тоа е речиси тоа. Тоа се главните пораки, ако сакате. А потоа и целокупната архитектура. Потоа, тука се оние шпекулации за природата на свеста и улогата на конфигураторот, но ова е навистина шпекулација.

ZDNet: Ќе дојдеме до тоа следниот пат. Сакав да те прашам, како ја правиш репер оваа работа? Но, претпоставувам дека сте малку подалеку од бенчмаркинг во моментов?

YL: Не мора толку далеку во, вид на, поедноставени верзии. Можете да го правите она што сите го прават при учењето за контрола или засилување, а тоа е, да го тренирате нештото да игра Atari игри или нешто слично или некоја друга игра која има одредена несигурност во себе.

ZDNet: Ви благодариме за вашето време, Јан.

извор