AI гуруто на Meta LeCun: Повечето от днешните подходи на AI никога няма да доведат до истинска интелигентност

yann-lecun-септември-2022-1

„Мисля, че AI системите трябва да могат да разсъждават“, казва Ян Лекун, главен учен по AI на Meta. Днешните популярни AI подходи като Transformers, много от които се основават на собствената му пионерска работа в тази област, няма да бъдат достатъчни. „Трябва да направите крачка назад и да кажете: „Добре, ние построихме тази стълба, но искаме да отидем на Луната и няма начин тази стълба да ни отведе там“, казва Лекун.

Ян Лекун, главен AI учен от Meta Properties, собственик на Facebook, Instagram и WhatsApp, вероятно ще разочарова много хора в своята област. 

С публикуването през юни на размислен материал на сървъра Open Review, LeCun предложи широк преглед на подход, който според него е обещаващ за постигане на интелигентност на човешко ниво в машините. 

Подразбиращо се, ако не е артикулирано в статията, е твърдението, че повечето от днешните големи проекти в AI никога няма да могат да постигнат тази цел на човешко ниво.

В дискусия този месец с ZDNet чрез Zoom, LeCun даде да се разбере, че гледа с голям скептицизъм на много от най-успешните пътища за изследване на дълбокото обучение в момента.

„Мисля, че те са необходими, но не са достатъчни“, каза носителят на наградата Тюринг ZDNet от заниманията на своите връстници. 

Те включват големи езикови модели като базирания на Transformer GPT-3 и подобните им. Както LeCun го характеризира, поклонниците на Transformer вярват, „Ние токенизираме всичко и тренираме гигантскимодели за правене на дискретни прогнози и по някакъв начин AI ще излезе от това.

„Те не грешат“, казва той, „в смисъл, че това може да е компонент на бъдеща интелигентна система, но мисля, че липсват основни части.“

Също така: Светилото на AI на Meta LeCun изследва енергийната граница на дълбокото обучение

Това е стряскаща критика на това, което изглежда работи, идваща от учения, който усъвършенства използването на конволюционни невронни мрежи, практическа техника, която е невероятно продуктивна в програми за дълбоко обучение. 

LeCun вижда недостатъци и ограничения в много други изключително успешни области на дисциплината. 

Ученето с подсилване също никога няма да бъде достатъчно, поддържа той. Изследователи като Дейвид Силвър от DeepMind, който разработи програмата AlphaZero, която усвои шах, шоги и го, се фокусират върху програми, които са „много базирани на действие“, отбелязва LeCun, но „по-голямата част от обучението, което правим, не правете го, като действително предприемате действия, ние го правим, като наблюдаваме. 

62-годишният Лекюн, от гледна точка на десетилетия постижения, въпреки това изразява неотложна необходимост да се изправи срещу това, което смята, че са слепите улички, към които мнозина може да се втурват, и да се опита да насочи своето поле в посоката, която според него трябва да вървят нещата. 

„Виждаме много твърдения какво трябва да направим, за да продължим напред към ИИ на човешко ниво“, казва той. „И има идеи, които според мен са погрешно насочени.“

„Не сме стигнали до точката, в която нашите интелигентни машини имат толкова здрав разум, колкото котка“, отбелязва Лекун. „И така, защо не започнем от там?“ 

Той изостави предишната си вяра в използването на генеративни мрежи в неща като предсказване на следващия кадър във видео. „Беше пълен провал“, казва той. 

LeCun осъжда онези, които нарича „религиозни вероятностни“, които „мислят, че теорията на вероятностите е единствената рамка, която можете да използвате, за да обясните машинното обучение“. 

Чисто статистическият подход е неразрешим, казва той. „Твърде много е да искаме един световен модел да бъде напълно вероятностен; не знаем как да го направим.”

Не само академиците, но и индустриалният AI се нуждае от дълбоко преосмисляне, твърди LeCun. Тълпата от самоуправляващи се автомобили, стартиращи компании като Wayve, са „малко прекалено оптимистични“, казва той, като смятат, че могат да „хвърлят данни в“ големи невронни мрежи „и можете да научите почти всичко“.

„Знаете ли, мисля, че е напълно възможно да имаме автономни коли от ниво пет без здрав разум“, казва той, имайки предвид „ADAS“, усъвършенствана система за подпомагане на водача условия за самостоятелно шофиране, „но ще трябва да проектирате по дяволите“.

Подобна свръхразработена технология за самоуправление ще бъде нещо толкова скърцащо и крехко, колкото всички програми за компютърно зрение, остарели от дълбокото обучение, смята той.

„В крайна сметка ще има по-удовлетворяващо и вероятно по-добро решение, което включва системи, които вършат по-добра работа за разбиране на начина, по който работи светът.“

По пътя LeCun предлага някои унищожаващи възгледи на най-големите си критици, като професора от Нюйоркския университет Гари Маркъс – „той никога не е допринесъл с нищо за ИИ“ – и Юрген Шмидхубер, съдиректор на Института Дале Моле за изследване на изкуствения интелект – „това е много лесно за поставяне на знамена.“

Отвъд критиките, по-важният момент, направен от LeCun, е, че някои фундаментални проблеми са изправени пред целия AI, по-специално как да се измерва информацията.

„Трябва да направите крачка назад и да кажете: „Добре, ние построихме тази стълба, но искаме да отидем на Луната и няма начин тази стълба да ни отведе там“, казва Лекун за желанието си да подтикне към преосмисляне на основни понятия. „По принцип това, което пиша тук, е, че трябва да строим ракети, не мога да ви дам подробности за това как строим ракети, но ето основните принципи.“

Вестникът и мислите на LeCun в интервюто могат да бъдат разбрани по-добре, като прочетете интервюто на LeCun по-рано тази година с ZDNet в който той се аргументира за базирано на енергия самоконтролирано обучение като път напред към задълбочено обучение. Тези отражения дават представа за основния подход към това, което той се надява да изгради като алтернатива на нещата, за които твърди, че няма да стигнат до финалната линия. 

Това, което следва, е леко редактиран препис на интервюто.

ZDNet: Предметът на нашия чат е този документ „Път към автономна машинна интелигентност“, чиято версия 0.9.2 е съществуващата версия, нали?

Ян Лекун: Да, считам това нещо като работен документ. И така, публикувах го в Open Review, чакайки хората да направят коментари и предложения, може би допълнителни препратки, и тогава ще създам преработена версия. 

ZDNet: Виждам, че Юрген Шмидхубер вече е добавил някои коментари към Open Review.

YL: Е, да, винаги го прави. Цитирам един от неговите статии там в моя доклад. Мисля, че аргументите, които той направи в социалните мрежи, че всъщност той е измислил всичко това през 1991 г., както е правил и в други случаи, просто не е така. Искам да кажа, че е много лесно да се направипоставяне на знамена и, един вид, да напишете идея без никакви експерименти, без никаква теория, просто предложете, че можете да го направите по този начин. Но знаете ли, има голяма разлика между това просто да имате идеята и след това да я накарате да работи върху проблем с играчка, след това да я накарате да работи върху реален проблем и след това да създадете теория, която показва защо работи, и след това разгръщането му. Има цяла верига и идеята му за научна заслуга е, че първият човек, който просто, нещо като, знаете, е имал идеята за това, трябва да получи цялата заслуга. И това е нелепо. 

ZDNet: Не вярвайте на всичко, което чувате в социалните мрежи. 

YL: Искам да кажа, че основната статия, която той казва, че трябва да цитирам, няма нито една от основните идеи, за които говоря в статията. Правил е това и с GAN и други неща, които не се оказаха верни. Лесно е да поставиш флаг, много по-трудно е да дадеш принос. И, между другото, в тази конкретна статия изрично казах, че това не е научна статия в обичайния смисъл на термина. Това е по-скоро документ за позиция за това къде трябва да отиде това нещо. И там има няколко идеи, които може да са нови, но повечето не са. По същество не претендирам за приоритет на повечето от написаното в този документ.

yann-lecun-септември-2022-2

Ученето с подсилване също никога няма да бъде достатъчно, поддържа LeCun. Изследователи като Дейвид Силвър от DeepMind, който разработи програмата AlphaZero, която овладя шах, шоги и го, са „много базирани на действие“, отбелязва LeCun, но „повечето от обучението, което правим, не го правим, като действително вземаме действия, ние го правим чрез наблюдение. 

ZDNet: И това може би е добро място за начало, защото ми е любопитно защо поехте по този път сега? Какво те накара да мислиш за това? Защо искахте да напишете това?

YL: Е, така, мислих за това от много дълго време, за път към интелигентност или учене и способности на човешко или животинско ниво. И в моите разговори аз бях доста гласовит за цялото това нещо, че както контролираното обучение, така и обучението с подсилване са недостатъчни, за да подражават на вида на обучение, който наблюдаваме при животни и хора. Правя това от около седем или осем години. Значи не е от скоро. Имах основна бележка в NeurIPS преди много години, където изтъкнах това, по същество, и различни разговори, има записи. Сега, защо да пиша статия сега? Стигнах до въпроса — [изследователят на Google Brain] Джеф Хинтън беше направил нещо подобно — имам предвид, разбира се, той повече от мен, виждаме, че времето изтича. Не сме млади.

ZDNet: Шейсет е новото петдесет. 

YL: Това е вярно, но въпросът е, че виждаме много твърдения за това какво трябва да направим, за да продължим напред към човешкото ниво на AI. И има идеи, които според мен са погрешно насочени. И така, една идея е, О, трябва просто да добавим символично разсъждение върху невронните мрежи. И не знам как да направя това. Така че може би това, което обясних в статията, може да е един подход, който би направил същото без изрична манипулация на символи. Това е видът на традиционно Гари Маркус в света. Гари Маркъс не е AI човек, между другото, той е психолог. Той никога не е допринесъл с нищо за AI. Той е свършил наистина добра работа в експерименталната психология, но никога не е писал рецензирана статия за ИИ. И така, има ги тези хора. 

Има [основният изследовател на DeepMind] Дейвид Силвърс от света, който казва, знаете ли, наградата е достатъчна, в общи линии, всичко е свързано с учене с подсилване, просто трябва да го направим малко по-ефективно, нали? И мисля, че не грешат, но смятам, че необходимите стъпки към по-ефективно учене за засилване, в общи линии, биха превърнали ученето за засилване в нещо като черешка на тортата. И основната липсваща част е да научите как работи светът, най-вече чрез наблюдение без действие. Обучението с подсилване е много базирано на действие, научавате неща за света, като предприемате действия и виждате резултатите.

ZDNet: И е фокусирано върху възнаграждението.

YL: Той е фокусиран върху възнаграждението и също така е фокусиран върху действието. И така, трябва да действате в света, за да можете да научите нещо за света. И основното твърдение, което правя в статията относно самоконтролираното учене е, че по-голямата част от ученето, което правим, не го правим, като действително предприемаме действия, ние го правим, като наблюдаваме. И е много неортодоксално както за хората, които учат за засилване, особено, но също така и за много психолози и когнитивни учени, които смятат, че действието е... Не казвам, че действието не е от съществено значение, то is съществено значение. Но мисля, че по-голямата част от това, което научаваме, е предимно за структурата на света и включва, разбира се, взаимодействие, действие и игра и подобни неща, но голяма част от това е наблюдение.

ZDNet: Също така ще успеете да отбележите хората от Transformer, хората, които са първи на езика, в същото време. Как можете да изградите това без първо език? Може да успеете да отметнете много хора. 

YL: Да, свикнах с това. Така че, да, има хора на първо място с езика, които казват, знаете ли, интелигентността е свързана с езика, субстратът на интелигентността е езикът, бла, бла, бла. Но това донякъде отхвърля животинската интелигентност. Знаете ли, не сме стигнали дотам, че нашите интелигентни машини да имат толкова здрав разум, колкото котка. Така че, защо не започнем от там? Какво позволява на една котка да възприема околния свят, да прави доста умни неща, да планира и подобни неща, а на кучетата дори по-добре? 

След това има всички хора, които казват: О, интелигентността е социално нещо, нали? Ние сме интелигентни, защото си говорим и обменяме информация, и бла, бла, бла. Има всякакви несоциални видове, които никога не срещат родителите си, които са много умни, като октоподи или орангутани.Искам да кажа, че те [орангутаните] със сигурност се обучават от майка си, но не са социални животни. 

Но другата категория хора, които мога да отбележа, са хората, които казват, че мащабирането е достатъчно. Така че, основно, ние просто използваме гигантски Трансформърс, обучаваме ги на мултимодални данни, които включват, разбирате ли, видео, текст, бла, бла, бла. Ние, един вид, се вкаменявамевсичко и токенизирайте всичко и след това тренирайте гигантскимодели за правене на дискретни прогнози, основно, и по някакъв начин AI ще се появи от това. Те не грешат в смисъл, че това може да е компонент на бъдеща интелигентна система. Но мисля, че липсват основни части. 

Има друга категория хора, които ще отметна с този документ. И това са вероятностните, религиозните вероятностни. И така, хората, които смятат, че теорията на вероятностите е единствената рамка, която можете да използвате, за да обясните машинното обучение. И както се опитах да обясня в статията, по същество е твърде много да искаме един световен модел да бъде напълно вероятностен. Не знаем как да го направим. Това е изчислителната неподатливост. Затова предлагам да изоставим цялата тази идея. И, разбира се, знаете, това е огромен стълб не само на машинното обучение, но и на цялата статистика, която претендира да бъде нормалният формализъм за машинно обучение. 

другото - 

ZDNet: Вървят ви...

YL: — е това, което се нарича генеративни модели. И така, идеята, че можете да се научите да предсказвате и може би можете да научите много за света чрез предсказания. И така, давам ви парче видео и моля системата да предвиди какво ще се случи по-нататък във видеото. И може да ви помоля да предвидите действителни видео кадри с всички подробности. Но това, за което споря в статията, е, че това всъщност е твърде много за изискване и твърде сложно. И това е нещо, за което промених мнението си. Допреди около две години бях привърженик на това, което наричам генеративни модели на латентна променлива, модели, които предвиждат какво ще се случи след това или информацията, която липсва, вероятно с помощта на латентна променлива, ако прогнозата не може да бъде детерминистичен. И аз се отказах от това. И причината, поради която се отказах от това, се основава на емпирични резултати, при които хората са се опитали да приложат нещо като прогнозиране или базирано на реконструкция обучение от типа, който се използва в BERTи големи езикови модели, те се опитаха да приложат това към изображения и беше пълен провал. И причината, поради която е пълен провал, е, отново, поради ограниченията на вероятностните модели, където е сравнително лесно да се предскажат отделни токени като думи, защото можем да изчислим вероятностното разпределение върху всички думи в речника. Това е лесно. Но ако поискаме от системата да създаде вероятностното разпределение за всички възможни видеокадри, ние нямаме идея как да го параметризираме или имаме някаква идея как да го параметризираме, но не знаем как да го нормализираме. Попада на неразрешим математически проблем, който не знаем как да решим. 

yann-lecun-септември-2022-3

„Не сме стигнали до точката, в която нашите интелигентни машини имат толкова здрав разум, колкото котка“, отбелязва Лекун. „И така, защо не започнем от там? Какво позволява на една котка да възприема околния свят, да прави доста умни неща, да планира и подобни неща, а на кучетата дори по-добре?“

Ето защо казвам, нека изоставим теорията на вероятностите или рамката за такива неща, по-слабите модели, базирани на енергия. Аз също се застъпвам за това от десетилетия, така че това не е нещо отскоро. Но в същото време изоставяне на идеята за генеративни модели, защото има много неща в света, които не са разбираеми и не са предвидими. Ако сте инженер, вие го наричате шум. Ако сте физик, вие го наричате топлина. И ако сте човек с машинно обучение, вие го наричате, разбирате ли, неуместни детайли или каквото и да било.

И така, примерът, който използвах в статията или използвах в разговори, е, че искате система за прогнозиране на света, която би помогнала в самоуправляваща се кола, нали? Той иска да може да предвиди предварително траекториите на всички останали коли, какво ще се случи с други обекти, които може да се движат, пешеходци, велосипеди, дете, което тича след футболна топка, подобни неща. И така, всякакви неща за света. Но покрай пътя може да има дървета и днес има вятър, така че листата се движат от вятъра, а зад дърветата има езерце и в езерцето има вълни. И това са по същество до голяма степен непредвидими явления. И не искате вашият модел да изразходва значително количество ресурси за прогнозиране на тези неща, които са едновременно трудни за предвиждане и неуместни. Ето защо аз се застъпвам за архитектурата на съвместно вграждане, онези неща, при които променливата, която се опитвате да моделирате, вие не се опитвате да я предвидите, вие се опитвате да я моделирате, но тя преминава през енкодер и този енкодер може да елиминира много подробности за входа, които са неуместни или твърде сложни - в общи линии, еквивалентни на шум.

ZDNet: По-рано тази година обсъдихме модели, базирани на енергия, JEPA и H-JEPA. Моето усещане, ако ви разбирам правилно, е, че намирате точката на ниска енергия, където тези две прогнози за вграждане на X и Y са най-сходни, което означава, че ако има гълъб на дърво в едно, и има нещо в фон на сцена, това може да не са съществените точки, които правят тези вграждания близки едно до друго.

YL: вярно И така, архитектурата на JEPA всъщност се опитва да намери компромис, компромис между извличане на представяния, които са максимално информативни за входовете, но също така предсказуеми един от друг с известно ниво на точност или надеждност. Намира компромис. Така че, ако има избор между изразходване на огромно количество ресурси, включително подробности за движението на листата, и след това моделиране на динамиката, която ще реши как листата се движат след секунда, или просто да пусне това на пода от просто основно пускане на променливата Y през предиктор, който елиминира всички тези детайли, вероятно просто ще го елиминира, защото е твърде трудно за моделиране и улавяне.

ZDNet: Едно нещо, което е изненадано, е, че вие ​​бяхте голям привърженик на твърдението „Работи, по-късно ще разберем теорията на термодинамиката, за да го обясним.“ Тук сте възприели подход от „Не знам как непременно ще разрешим това, но искам да предложа някои идеи, за да помислим върху това“, и може би дори да се приближите до теория или хипотеза, на най-малко. Това е интересно, защото има много хора, които харчат много пари, работейки върху колата, която може да види пешеходеца, независимо дали колата има здрав разум. И си представям, че някои от тези хора няма да бъдат отметнати, но ще кажат: „Това е добре, не ни интересува, ако няма здрав разум, създадохме симулация, симулацията е невероятна, и ние ще продължим да се подобряваме, ще продължим да мащабираме симулацията.“ 

И затова е интересно, че сега сте в състояние да кажете, нека направим крачка назад и да помислим какво правим. И индустрията казва, че просто ще мащабираме, мащабираме, мащабираме, мащабираме, защото тази манивела наистина работи. Искам да кажа, полупроводниковата манивела на GPU наистина работи.

YL: Там има пет въпроса. Така че, искам да кажа, мащабирането е необходимо. Не критикувам факта, че трябва да мащабираме. Трябва да мащабираме. Тези невронни мрежи стават по-добри, когато стават по-големи. Няма съмнение, че трябва да мащабираме. И тези, които ще имат някакво ниво на здрав разум, ще бъдат големи. Мисля, че няма начин да се заобиколи това. Така че мащабирането е добро, необходимо е, но не е достатъчно. Това е идеята, която изтъквам. Това не е просто мащабиране. Това е първата точка. 

Втора точка, дали теорията е на първо място и подобни неща. Така че, мисля, че има концепции, които са на първо място, че трябва да направите крачка назад и да кажете, добре, ние построихме тази стълба, но искаме да отидем на Луната и няма начин тази стълба да ни отведе там. И така, основно това, което пиша тук е, че трябва да изградим ракети. Не мога да ви дам подробности за това как изграждаме ракети, но ето основните принципи. И няма да пиша теория за това или нещо подобно, но ще бъде ракета, става ли? Или космически асансьор или каквото и да било. Може да не разполагаме с всички подробности за цялата технология. Опитваме се да накараме някои от тези неща да работят, както работих по JEPA. Съвместното вграждане работи много добре за разпознаване на изображения, но да се използва за обучение на световен модел, има трудности. Работим върху това, надяваме се, че ще успеем soon, но там може да срещнем някои препятствия, които не можем да преодолеем, вероятно. 

След това има ключова идея в статията за разсъждението, където, ако искаме системите да могат да планират, което можете да мислите за проста форма на разсъждение, те трябва да имат латентни променливи. С други думи, неща, които не са изчислени от никоя невронна мрежа, но неща, които са - чиято стойност е изведена така, че да минимизира някаква обективна функция, някаква функция на разходите. И тогава можете да използвате тази функция на разходите, за да управлявате поведението на системата. И това изобщо не е нова идея, нали? Това е много класически, оптимален контрол, чиято основа се връща към края на 50-те, началото на 60-те години. Така че, без да претендирам за някаква новост тук. Но това, което казвам е, че този тип изводи трябва да бъдат част от интелигентна система, която е способна да планира и чието поведение може да бъде специфицирано или контролирано не чрез твърдо свързано поведение, не чрез имитация, а от обективна функция, която движи поведението — не движи ученето непременно, но движи поведението. Знаете ли, ние имаме това в мозъка си и всяко животно има присъща цена или присъща мотивация за нещата. Това кара деветмесечните бебета да искат да се изправят. Цената на това да бъдеш щастлив, когато се изправиш, този термин във функцията на разходите е фиксиран. Но как се изправяте не е, това е учене.

yann-lecun-септември-2022-4

„Мащабирането е добро, необходимо е, но не е достатъчно“, казва LeCun за гигантски езикови модели като програмите, базирани на Transformer, от вида GPT-3. Поклонниците на Transformer вярват: „Ние токенизираме всичко и тренираме гигантскимодели за правене на дискретни прогнози и по някакъв начин AI ще се появи от това … но мисля, че му липсват основни части.“

ZDNet: Само за да завърша тази точка, голяма част от общността за дълбоко обучение изглежда добре да продължи с нещо, което няма здрав разум. Изглежда, че излагате доста ясен аргумент тук, че в един момент се превръща в задънена улица. Някои хора казват, че не се нуждаем от автономна кола със здрав разум, защото мащабирането ще го направи. Звучи сякаш казвате, че не е добре просто да продължите по този път?

YL: Знаете ли, мисля, че е напълно възможно да имаме автономни коли от ниво пет без здрав разум. Но проблемът с този подход е, че това ще е временно, защото ще трябва да го проектирате по дяволите. Така че, нали знаете, картографирайте целия свят, свържете всички видове специфично поведение в ъглов случай, съберете достатъчно данни, за да имате всички странни ситуации, които можете да срещнете по пътищата, дрън, дрън, дрън. И моето предположение е, че с достатъчно инвестиции и време можете просто да проектирате по дяволите. Но в крайна сметка ще има по-удовлетворяващо и вероятно по-добро решение, което включва системи, които вършат по-добра работа за разбиране на начина, по който работи светът, и има, знаете, някакво ниво на това, което бихме нарекли здрав разум. Не е необходимо да е здрав разум на човешко ниво, а някакъв вид знание, което системата може да придобие, като гледа, но не и като гледа как някой шофира, просто наблюдава как нещата се движат наоколо и разбира много за света, изграждайки основа от фон знания за това как работи светът, на всичкото отгоре можете да се научите да шофирате. 

Нека дам един исторически пример за това. Класическото компютърно зрение се основаваше на много кабелни, инженерни модули, върху които бихте имали, един вид, тънък слой от обучение. И така, нещата, които бяха победени от AlexNet през 2012 г., имаха основно първи етап, един вид, ръчно изработени извличания на функции, като SIFTs [Scale-Invariant Feature Transform (SIFT), класическа визуална техника за идентифициране на важни обекти в изображение] и HOG [хистограма на ориентирани градиенти, друга класическа техника] и различни други неща. И след това вторият слой от нещо като функции на средно ниво, базирани на ядра на функции и каквото и да е, и някакъв вид неконтролиран метод. И след това отгоре на това поставяте опорна векторна машина или сравнително прост класификатор. И това беше един вид стандартният тръбопровод от средата на 2000-те до 2012 г. И това беше заменено от конволюционни мрежи от край до край, където не свързвате нищо от това, просто имате много данни, и обучавате нещото от край до край, което е подходът, който защитавах от дълго време, но знаете ли, дотогава не беше практичен за големи проблеми. 

Имаше подобна история в разпознаването на реч, където отново имаше огромно количество детайлно инженерство за това как предварително обработвате данните, извличате кепструм в масов мащаб [обратно на Бързата трансформация на Фурие за обработка на сигнала] и след това имате скрити модели на Марков, с нещо като, предварително зададена архитектура, бла, бла, бла, със смесица от гаусианци. И така, това е донякъде същата архитектура като vision, където имате ръчно изработен преден край и след това донякъде неконтролиран, обучен среден слой и след това контролиран слой отгоре. И сега това е основно заличено от невронни мрежи от край до край. Така че някак си виждам нещо подобно да се опитваш да научиш всичко, но трябва да имаш правилното предварително, правилната архитектура, правилната структура.

yann-lecun-септември-2022-5

Тълпата от самоуправляващи се автомобили, стартиращи фирми като Waymo и Wayve, са „малко прекалено оптимистични“, казва той, като смятат, че могат да „хвърлят данни към тях и можете да научите почти всичко“. Самоуправляващите се автомобили на ниво 5 на ADAS са възможни, „Но ще трябва да ги проектирате по дяволите“ и ще бъдат „крехки“ като ранните модели за компютърно зрение.

ZDNet: Това, което казвате, е, че някои хора ще се опитат да проектират това, което в момента не работи с дълбоко обучение за приложимост, да речем, в индустрията, и те ще започнат да създават нещо, което е остаряло в компютърното зрение?

YL: вярно И отчасти това е причината, поради която хората, работещи върху автономното шофиране, са твърде оптимистично настроени през последните няколко години, защото, знаете ли, имате тези нещо като общи неща като конволюционни мрежи и трансформатори, за които можете да хвърляте данни и може да научи почти всичко. И така, вие казвате, Добре, имам решението на този проблем. Първото нещо, което правите, е да създадете демонстрация, в която колата се движи сама за няколко минути, без да наранява никого. И тогава осъзнаваш, че има много ъглови случаи и се опитваш да начертаеш кривата колко по-добър ставам, докато удвоявам набора от тренировки, и осъзнаваш, че никога няма да стигнеш до там, защото има всякакви ъглови случаи . И вие трябва да имате кола, която ще причини фатален инцидент по-малко от всеки 200 милиона километра, нали? Та какво правиш? Е, вървиш в две посоки. 

Първата посока е как мога да намаля количеството данни, което е необходимо на моята система да се научи? И това е мястото, където се намесва самоконтролираното обучение. И така, много екипировки за самоуправляващи се автомобили се интересуват много от самоконтролирано обучение, защото това е начин все още да се използват гигантски количества контролни данни за имитационно обучение, но да се постигне по-добро представяне чрез по същество предварително обучение. И още не е станало съвсем, но ще стане. И тогава има другата опция, която повечето компании, които са по-напреднали в този момент, са възприели, което е, добре, можем да направим обучението от край до край, но има много ъглови случаи, които можем t handle, така че ние просто ще проектираме системи, които ще се погрижат за тези ъглови случаи и, по същество, ще ги третираме като специални случаи, и ще окабелим контрола, а след това ще окабелим много основно поведение за справяне със специални ситуации. И ако имате достатъчно голям екип от инженери, може да се справите. Но това ще отнеме много време и в крайна сметка все още ще бъде малко крехко, може би достатъчно надеждно, за да можете да разположите, но с известно ниво на крехкост, което с по-базиран на обучение подход, който може да се появи в бъдеще, автомобилите няма да имат, защото може да има някакво ниво на здрав разум и разбиране за това как работи светът. 

В краткосрочен план нещо като инженерен подход ще спечели – той вече печели. Това е Waymo и Cruise на света и Wayveи каквото и да е, това правят. След това има подход за самоконтролирано обучение, който вероятно ще помогне на инженерния подход да постигне напредък. Но тогава, в дългосрочен план, който може да е твърде дълъг за тези компании да чакат, вероятно ще бъде нещо като по-интегрирана система за автономно интелигентно шофиране.

ZDNet: Казваме отвъд инвестиционния хоризонт на повечето инвеститори.

YL: Това е вярно. Така че въпросът е дали хората ще загубят търпение или ще им свършат парите, преди представянето да достигне желаното ниво.

ZDNet: Има ли нещо интересно да кажете защо избрахте някои от елементите, които сте избрали в модела? Тъй като цитирате Кенет Крейк [1943,Природата на обяснението] и вие цитирате Брайсън и Хо [1969, Приложен оптимален контрол], и аз съм любопитен защо започнахте с тези влияния, ако вярвахте, че тези хора са го заковали дотам, доколкото са направили. Защо започна там?

YL: Е, не мисля, че със сигурност са изпипали всички подробности. И така, Брайсън и Хо, това е книга, която прочетох през 1987 г., когато бях постдокторант с Джефри Хинтън в Торонто. Но аз знаех за тази линия на работа предварително, когато пишех докторската си дисертация, и по същество направих връзката между оптимален контрол и опора. Ако наистина искахте да бъдете, знаете ли, още един Шмидхубер, бихте казали, че истинските изобретатели на backprop всъщност са били теоретиците на оптималния контрол Хенри Дж. Кели, Артър Брайсън и може би дори Лев Понтрягин, който е руски теоретик на оптималния контрол назад в края на 50-те години. 

И така, те го разбраха и всъщност можете да видите корена на това, математиката под това, е Лагранжевата механика. Така че можете да се върнете към Ойлер и Лагранж, всъщност, и някак да намерите полъх на това в тяхната дефиниция на класическата механика на Лагранж, наистина. И така, в контекста на оптималния контрол, това, от което се интересуваха тези момчета, беше основно изчисляването на траекториите на ракетите. Знаеш ли, това беше ранната космическа ера. И ако имате модел на ракетата, той ви казва тук е състоянието на ракетата в даден момент t, и ето действието, което ще предприема, така че тяга и задвижващи механизми от различни видове, ето състоянието на ракетата в даден момент t + 1.

ZDNet: Модел състояние-действие, ценностен модел.

YL: Точно така, основата на контрола. И така, сега можете да симулирате изстрелването на вашата ракета, като си представите последователност от команди и след това имате някаква функция на разходите, която е разстоянието на ракетата до нейната цел, космическа станция или каквото и да е. И след това чрез някакъв вид градиентно спускане можете да разберете как мога да актуализирам моята последователност от действия, така че моята ракета наистина да се приближи възможно най-близо до целта. И това трябва да дойде чрез обратно разпространение на сигнали назад във времето. И това е обратно разпространение, градиентно обратно разпространение. Тези сигнали, те се наричат ​​спрегнати променливи в Лагранжевата механика, но всъщност те са градиенти. И така, те изобретиха backprop, но не осъзнаха, че този принцип може да се използва за обучение на многостепенна система, която може да прави разпознаване на образи или нещо подобно. Това наистина не беше осъзнато до края на 70-те, началото на 80-те и след това не беше реално приложено и направено да работи до средата на 80-те. Добре, така че това е мястото, където backprop наистина, един вид, излетя, защото хората показаха ето няколко реда код, че можете да обучите невронна мрежа, от край до край, многослойна. И това премахва ограниченията на Perceptron. И, да, има връзки с оптимален контрол, но това е добре.

ZDNet: Така че, това е дълъг начин да се каже, че тези влияния, с които започнахте, се върнаха към опората и това беше важно като отправна точка за вас?

YL: Да, но мисля, че хората малко забравиха за това, че имаше доста работа по това, знаете ли, през 90-те или дори 80-те години, включително от хора като Майкъл Джордан [MIT Depart. of Brain и когнитивни науки] и хора като тези, които вече не правят невронни мрежи, но идеята, че можете да използвате невронни мрежи за контрол и можете да използвате класически идеи за оптимален контрол. И така, неща като това, което се нарича контрол с прогнозиране на модела, това, което сега се нарича контрол с прогнозиране на модела, тази идея, че можете да симулирате или да си представите резултата от последователност от действия, ако имате добър модел на системата, която се опитвате да контролирате и средата, в която се намира. И след това чрез градиентно спускане, по същество - това не е учене, това е умозаключение - можете да разберете коя е най-добрата последователност от действия, която ще минимизира целта ми. И така, използването на функция на разходите с латентна променлива за извод според мен е нещо, за което настоящите култури от широкомащабни невронни мрежи са забравили. Но това беше много класически компонент на машинното обучение за дълго време. И така, всяка байесова мрежа или графичен модел или вероятностен графичен модел използва този тип извод. Имате модел, който улавя зависимостите между куп променливи, съобщава ви се стойността на някои от променливите и след това трябва да направите извод за най-вероятната стойност на останалите променливи. Това е основният принцип на извода в графичните модели и байесовите мрежи и подобни неща. И мисля, че основно това трябва да бъде разсъждението, разсъждение и планиране.

ZDNet: Ти си байесианец.

YL: Аз съм невероятностен байесианец. Правил съм тази шега преди. Всъщност бях в NeurIPS преди няколко години, мисля, че беше през 2018 или 2019 г., и бях уловен на видео от байесианец, който ме попита дали съм байесианец, и аз казах, Да, аз съм байесианец, но аз Аз съм невероятностен байесианец, един вид, енергиен байесианец, ако искате. 

ZDNet: Което определено звучи като нещо от Star Trek. Споменахте в края на този документ, че ще са необходими години наистина упорита работа, за да реализирате това, което си представяте. Разкажете ми в какво се състои част от тази работа в момента.

YL: И така, обяснявам как обучавате и изграждате JEPA в документа. И критерият, за който се застъпвам, е да има някакъв начин за максимизиране на информационното съдържание, което представянията, които се извличат, имат за входа. И второто е минимизиране на грешката при прогнозиране. И ако имате латентна променлива в предиктора, която позволява на предиктора да не е детерминиран, трябва да регулирате и тази латентна променлива, като минимизирате нейното информационно съдържание. И така, сега имате два проблема, който е как да увеличите максимално информационното съдържание на изхода на някаква невронна мрежа, а другият е как да минимизирате информационното съдържание на някаква латентна променлива? И ако не направите тези две неща, системата ще се срине. То няма да научи нищо интересно. Ще даде нулева енергия на всичко, нещо подобно, което не е добър модел на зависимост. Това е проблемът за предотвратяване на колапс, който споменавам. 

И казвам, че от всички неща, които хората някога са правили, има само две категории методи за предотвратяване на колапс. Единият са контрастни методи, а другият са тези регуляризирани методи. И така, тази идея за максимизиране на информационното съдържание на представянията на двата входа и минимизиране на информационното съдържание на латентната променлива, принадлежи към регуляризираните методи. Но голяма част от работата в тези архитектури за съвместно вграждане се използват контрастни методи. Всъщност те са може би най-популярните в момента. И така, въпросът е как точно измервате информационното съдържание по начин, който можете да оптимизирате или минимизирате? И това е мястото, където нещата стават сложни, защото всъщност не знаем как да измерваме информационното съдържание. Можем да го приближим, можем да го ограничим, можем да правим такива неща. Но те всъщност не измерват информационното съдържание, което всъщност до известна степен дори не е добре дефинирано.

ZDNet: Не е ли законът на Шанън? Не е ли теория на информацията? Имате известно количество ентропия, добра ентропия и лоша ентропия, и добрата ентропия е символна система, която работи, лошата ентропия е шум. Не е ли всичко решено от Шанън?

YL: Прав си, но зад това се крие голям недостатък. Вие сте прав в смисъл, че ако имате данни, които идват към вас и можете по някакъв начин да квантувате данните в дискретни символи и след това измервате вероятността за всеки от тези символи, тогава максималното количество информация, носено от тези символи, е сума върху възможните символи на Pi log Pi, нали? Където Pi е вероятността за символ аз — това е ентропията на Шанън. [Законът на Шанън обикновено се формулира като H = – ∑ pi log pi.]

Тук обаче е проблемът: Какво е Pi? Лесно е, когато броят на символите е малък и символите се рисуват независимо. Когато има много символи и зависимости, е много трудно. Така че, ако имате последователност от битове и приемете, че битовете са независими един от друг и вероятността е равна между едно и нула или каквото и да е, тогава можете лесно да измерите ентропията, няма проблем. Но ако нещата, които идват при вас, са високомерни вектори, като, разбирате ли, рамки от данни или нещо подобно, какво е Pi? Какво е разпределението? Първо трябва да квантувате това пространство, което е високомерно, непрекъснато пространство. Нямате представа как да квантувате това правилно. Можете да използвате k-средни и т.н. Това е, което хората правят, когато правят видео компресия и компресия на изображение. Но това е само приблизително. И тогава трябва да направите предположения за независимост. Така че е ясно, че във видеоклипа последователните кадри не са независими. Има зависимости и този кадър може да зависи от друг кадър, който видяхте преди час и който беше снимка на същото нещо. Значи знаете, не можете да измервате Pi. За измерване Pi, трябва да имате система за машинно обучение, която се учи да предвижда. И така се връщате към предишния проблем. Така че по същество можете само да приблизите мярката на информацията. 

yann-lecun-септември-2022-6

„Въпросът е как точно измервате информационното съдържание по начин, който можете да оптимизирате или минимизирате?“ казва LeCun. „И тук нещата стават сложни, защото всъщност не знаем как да измерваме информационното съдържание.“ Най-доброто, което може да се направи досега, е да се намери прокси, което е „достатъчно добро за задачата, която искаме“.

Нека дам един по-конкретен пример. Един от алгоритъмите, с които си играем и за които говорих в статията, е това нещо, наречено VICReg, регулация на вариация-инвариантност-ковариация. Това е в отделна статия, която беше публикувана в ICLR, и беше поставен на arXiv около година преди, 2021 г. И идеята там е да се увеличи максимално информацията. И идеята всъщност дойде от по-ранен документ на моята група, наречен Близнаци Барлоу. Вие увеличавате максимално информационното съдържание на вектор, излизащ от невронна мрежа, като основно приемате, че единствената зависимост между променливите е корелация, линейна зависимост. Така че, ако приемете, че единствената зависимост, която е възможна между двойки променливи или между променливи във вашата система, е корелацията между двойки ценности, което е изключително грубото приближение, тогава можете да увеличите максимално информационното съдържание, излизащо от вашата система като се уверите, че всички променливи имат ненулева дисперсия — да кажем, дисперсия едно, няма значение каква е — и след това ги корелирате обратно, същият процес, който се нарича избелване, също не е нов. Проблемът с това е, че много добре можете да имате изключително сложни зависимости между групи променливи или дори само двойки променливи, които не са линейни зависимости и не се показват в корелации. Така че, например, ако имате две променливи и всички точки на тези две променливи се подреждат в някаква спирала, има много силна зависимост между тези две променливи, нали? Но всъщност, ако изчислите корелацията между тези две променливи, те не са корелирани. И така, ето един пример, където информационното съдържание на тези две променливи всъщност е много малко, това е само една величина, защото това е вашата позиция в спиралата. Те са декорелирани, така че си мислите, че имате много информация, произтичаща от тези две променливи, когато всъщност не е така, имате само, разбирате ли, можете да предвидите една от променливите от другата, по същество. Така че това показва, че имаме само много приблизителни начини за измерване на информационното съдържание.

ZDNet: И така, това е едно от нещата, върху които трябва да работите сега с това? Това е по-големият въпрос как да разберем кога максимизираме и минимизираме информационното съдържание?

YL:  Или дали проксито, което използваме за това, е достатъчно добро за задачата, която искаме. Всъщност ние правим това през цялото време в машинното обучение. Функциите на разходите, които минимизираме, никога не са тези, които всъщност искаме да минимизираме. Така че, например, искате да направите класификация, нали? Функцията на разходите, която искате да минимизирате, когато обучавате класификатор, е броят грешки, които класификаторът прави. Но това е недиференцируема, ужасна функция на разходите, която не можете да минимизирате, защото знаете, че ще промените теглата на вашата невронна мрежа, нищо няма да се промени, докато една от тези проби не промени решението си и след това скок в грешката, положителна или отрицателна.

ZDNet: Така че имате прокси, което е целева функция, която определено можете да кажете, че определено можем да градиенти на потока на това нещо.

YL: Това е вярно. Така че хората използват тази загуба на кръстосана ентропия или SOFTMAX, имате няколко имена за това, но това е едно и също нещо. И по същество това е плавно приближение на броя грешки, които системата прави, като изглаждането се извършва, като се вземе предвид резултатът, който системата дава на всяка от категориите.

ZDNet: Има ли нещо, което не сме покрили, което бихте искали да покриете?

YL: Вероятно набляга на основните точки. Мисля, че AI системите трябва да могат да разсъждават и процесът за това, който защитавам, е минимизиране на някои цели по отношение на някаква латентна променлива. Това позволява на системите да планират и разсъждават. Мисля, че трябва да се откажем от вероятностната рамка, защото е неразрешима, когато искаме да правим неща като улавяне на зависимости между многомерни, непрекъснати променливи. И аз препоръчвам да се изоставят генеративните модели, защото системата ще трябва да отдели твърде много ресурси за прогнозиране на неща, които са твърде трудни за прогнозиране и може би консумират твърде много ресурси. И това е почти всичко. Това са основните послания, ако искате. И след това цялостната архитектура. След това има тези спекулации относно природата на съзнанието и ролята на конфигуратора, но това наистина е спекулация.

ZDNet: Ще стигнем до това следващия път. Щях да ви попитам как сравнявате това нещо? Но предполагам, че сте малко по-далеч от сравнителния анализ в момента?

YL: Не непременно толкова далеч в нещо като опростени версии. Можете да правите това, което всеки прави при обучението за контрол или засилване, което е, че обучавате нещото да играе игри на Atari или нещо подобно, или някаква друга игра, която съдържа известна несигурност.

ZDNet: Благодаря за отделеното време, Ян.

източник