Гуру штучного інтелекту Meta ЛеКун: більшість сучасних підходів штучного інтелекту ніколи не приведуть до справжнього інтелекту

yann-lecun-sept-2022-1

«Я вважаю, що системи штучного інтелекту повинні вміти міркувати», — говорить Янн ЛеКун, головний науковий співробітник Meta. Популярних сьогодні підходів штучного інтелекту, таких як Трансформери, багато з яких базуються на його власній новаторській роботі в цій галузі, буде недостатньо. «Ви повинні зробити крок назад і сказати: «Добре, ми побудували цю драбину, але ми хочемо побувати на Місяці, і ця драбина ніяк не приведе нас туди», — каже ЛеКун.

Ян ЛеКун, головний науковий співробітник АІ з Meta Properties, власника Facebook, Instagram і WhatsApp, ймовірно, зацікавить багатьох людей у ​​своїй галузі. 

З публікацією в червні статті для роздумів на сервері Open Review, ЛеКун запропонував широкий огляд підходу, який, на його думку, є перспективним для досягнення інтелекту людського рівня в машинах. 

Мається на увазі, якщо не сформульоване в статті, твердження, що більшість сучасних великих проектів у сфері ШІ ніколи не зможуть досягти цієї мети на рівні людини.

У дискусії цього місяця с ZDNet через Zoom Лекун чітко дав зрозуміти, що він з великим скептицизмом дивиться на багато з найуспішніших напрямків дослідження глибокого навчання на даний момент.

«Я вважаю, що вони необхідні, але недостатні», — сказав лауреат премії Тюрінга ZDNet занять своїх однолітків. 

Сюди входять великі мовні моделі, такі як GPT-3 на основі Transformer та інші. Як характеризує ЛеКун, прихильники Transformer вірять: «Ми токенізуємо все та тренуємо гігантськімоделі, щоб робити дискретні прогнози, і якось із цього вийде ШІ».

«Вони не помиляються, — каже він, — у тому сенсі, що це може бути компонентом майбутньої інтелектуальної системи, але я думаю, що в ньому відсутні важливі частини».

А також: Світило штучного інтелекту Meta LeCun досліджує енергетичні межі глибокого навчання

Це вражаюча критика того, що, здається, працює, виходить від вченого, який удосконалив використання згорткових нейронних мереж, практичного методу, який був неймовірно продуктивним у програмах глибокого навчання. 

Лекун бачить недоліки та обмеження в багатьох інших дуже успішних сферах дисципліни. 

Навчання з підкріпленням також ніколи не буде достатньо, стверджує він. Такі дослідники, як Девід Сільвер з DeepMind, який розробив програму AlphaZero, яка опанувала шахи, сьогі та го, зосереджуються на програмах, які «дуже базуються на дії», зауважує ЛеКун, але «більшість навчання, яке ми робимо, ми не робимо це, фактично роблячи дії, ми робимо це, спостерігаючи». 

62-річний Лекун, з огляду на десятиліття досягнень, тим не менш, висловлює нагальність протистояти тим, що, на його думку, є тупиками, куди, можливо, поспішає багато хто, і спробувати спрямувати свою сферу діяльності в тому напрямку, у якому, на його думку, має рухатися справа. 

«Ми бачимо багато претензій щодо того, що нам робити, щоб просунутися до штучного інтелекту людського рівня», — каже він. «І є ідеї, які, на мою думку, неправильні».

«Ми ще не дійшли до того, щоб наші розумні машини мали стільки здорового глузду, скільки кішка», — зауважує Лекун. «То чому б нам не почати з цього?» 

Він відмовився від своєї попередньої віри у використання генеративних мереж у таких речах, як передбачення наступного кадру у відео. «Це був повний провал», — каже він. 

Лекун засуджує тих, кого він називає «релігійними ймовірнісними», які «вважають, що теорія ймовірностей є єдиною основою, яку можна використовувати для пояснення машинного навчання». 

За його словами, суто статистичний підхід нерозв’язний. «Занадто багато вимагати, щоб модель світу була повністю імовірнісною; ми не знаємо, як це зробити».

Не лише науковці, але й промисловий ШІ потребує глибокого переосмислення, стверджує ЛеКун. Натовп тих, хто займається безпілотними автомобілями, такі стартапи, як Wayve, були «трохи надто оптимістичними», каже він, вважаючи, що вони можуть «кидати дані у» великі нейронні мережі «і ви можете навчитися майже всьому».

«Знаєте, я думаю, що цілком можливо, що ми матимемо автономні автомобілі п’ятого рівня без здорового глузду», — каже він, маючи на увазі «ADAS». розширена система допомоги водієві терміни для самостійного водіння, «але вам доведеться до біса це спроектувати».

На його переконання, така надто сконструйована технологія автономного керування буде такою ж скрипучою та крихкою, як і всі програми комп’ютерного зору, які застаріли завдяки глибокому навчанню.

«Зрештою, буде більш задовільне та, можливо, краще рішення, яке включає системи, які краще розуміють, як влаштований світ».

Попутно Лекун висловлює деякі негативні погляди на своїх найбільших критиків, таких як професор Нью-Йоркського університету Гарі Маркус — «він ніколи нічого не вносив у ШІ» — і Юрген Шмідгубер, співдиректор Інституту дослідження штучного інтелекту імені Далле Молле — «це дуже легко висаджувати прапори».

Окрім критики, більш важлива думка Лекуна полягає в тому, що певні фундаментальні проблеми стикаються з усім ШІ, зокрема, як вимірювати інформацію.

«Треба зробити крок назад і сказати: гаразд, ми побудували цю драбину, але ми хочемо потрапити на Місяць, і ця драбина ніяк не приведе нас туди», — говорить ЛеКун про своє бажання спонукати до переосмислення основних понять. «По суті, я тут пишу: нам потрібно будувати ракети, я не можу надати вам подробиць того, як ми будуємо ракети, але ось основні принципи».

Газету та думки Лекуна в інтерв’ю можна краще зрозуміти, прочитавши інтерв’ю Лекуна на початку цього року з ZDNet в якому він виступає за енергетичне самоконтрольоване навчання як шлях вперед для глибокого навчання. Ці роздуми дають зрозуміти основний підхід до того, що він сподівається побудувати як альтернативу речам, які, як він стверджує, не дійдуть до фінішу. 

Далі йде незначно відредагована стенограма інтерв’ю.

ZDNet: Темою нашого чату є ця стаття «Шлях до автономного машинного інтелекту», версія 0.9.2 якої є наявною версією, так?

Ян ЛеКун: Так, я вважаю це, свого роду, робочим документом. Отже, я опублікував його на Open Review, чекаючи, поки люди висловлять коментарі та пропозиції, можливо, додаткові посилання, а потім я створю переглянуту версію. 

ZDNet: Я бачу, що Юрген Шмідхубер уже додав кілька коментарів до Open Review.

YL: Ну, так, він завжди так робить. Я цитую одну з його статей у своїй статті. Я думаю, що аргументи, які він наводив у соціальних мережах про те, що він, по суті, все це винайшов у 1991 році, як він робив в інших випадках, просто не відповідають дійсності. Я маю на увазі, що це дуже легко зробитивиставлення прапора, і, свого роду, написати ідею без будь-яких експериментів, без жодної теорії, просто припустіть, що ви можете зробити це таким чином. Але, знаєте, є велика різниця між тим, щоб просто мати ідею, а потім змусити її працювати над проблемою іграшки, а потім змусити її працювати над реальною проблемою, а потім розробити теорію, яка показує, чому це працює, а потім розгортання його. Є цілий ланцюжок, і його ідея наукової заслуги полягає в тому, що першій людині, яка просто, начебто, знаєте, прийшла в голову така ідея, вона повинна отримати всю заслугу. І це смішно. 

ZDNet: Не вірте всьому, що чуєте в соціальних мережах. 

YL: Я маю на увазі, що основна стаття, яку він каже, що я повинен цитувати, не містить жодної з основних ідей, про які я говорю в статті. Він також робив це з GAN та іншими речами, які не виявилися правдою. Легко вивішувати прапори, набагато важче зробити внесок. І, до речі, у цій статті я прямо сказав, що це не наукова стаття в звичайному розумінні цього терміну. Це скоріше документ про позицію щодо того, куди ця річ має рухатися. І там є кілька ідей, які можуть бути новими, але більшість з них не є. По суті, я не претендую на пріоритетність більшості з того, що я написав у цій статті.

yann-lecun-sept-2022-2

Лекун стверджує, що навчання з підкріпленням також ніколи не буде достатньо. Такі дослідники, як Девід Сільвер з DeepMind, який розробив програму AlphaZero, яка опанувала шахи, сьогі та го, «дуже орієнтовані на дії», зауважує ЛеКун, але «більшість навчання, яке ми робимо, ми не робимо це, фактично приймаючи дії, ми робимо це, спостерігаючи». 

ZDNet: І, можливо, це гарне місце для початку, тому що мені цікаво, чому ви пішли цим шляхом зараз? Що змусило вас подумати про це? Чому ви хотіли це написати?

YL: Ну, отже, я дуже довго думав про це, про шлях до інтелекту або навчання та здібностей на рівні людини чи тваринного рівня. І в своїх виступах я досить голосно говорив про те, що як навчання під наглядом, так і навчання з підкріпленням недостатні для імітації навчання, яке ми спостерігаємо у тварин і людей. Я роблю це приблизно сім-вісім років. Отже, це не нещодавно. У мене була основна доповідь на NeurIPS багато років тому, де я, по суті, зробив це, і різні виступи, є записи. Навіщо зараз писати статтю? Я дійшов до суті — [дослідник Google Brain] Джефф Хінтон зробив щось подібне — я маю на увазі, звичайно, він більше, ніж я, ми бачимо, що час спливає. Ми не молоді.

ZDNet: Шістдесят — це нові п'ятдесят. 

YL: Це правда, але справа в тому, що ми бачимо багато претензій щодо того, що нам робити, щоб просунутися до ШІ на людському рівні. І є ідеї, які, на мою думку, неправильні. Отже, одна з ідей полягає в тому, що ми повинні просто додати символічне міркування поверх нейронних мереж. І я не знаю, як це зробити. Тож, можливо, те, що я пояснив у статті, може бути одним із підходів, який робив би те саме без явного маніпулювання символами. Це свого роду традиційні Гарі Маркузи світу. Гарі Маркус не штучний інтелект, до речі, він психолог. Він ніколи нічого не вносив у ШІ. Він зробив дуже хорошу роботу в експериментальній психології, але він ніколи не писав рецензовану статтю про ШІ. Отже, є ці люди. 

Є [науковий дослідник DeepMind] Девід Сілверс зі світу, який каже: знаєте, винагороди достатньо, в основному, все залежить від навчання з підкріпленням, нам просто потрібно зробити його трохи ефективнішим, добре? І я вважаю, що вони не помиляються, але я вважаю, що необхідні кроки для того, щоб зробити навчання з підкріпленням більш ефективним, в основному віднесуть навчання з підкріпленням до вишеньки на торті. І головна частина, якої не вистачає, це вивчення того, як влаштований світ, здебільшого шляхом спостереження без дії. Навчання з підкріпленням базується на діях, ви дізнаєтесь про світ, виконуючи дії та спостерігаючи результати.

ZDNet: І це зосереджено на винагороді.

YL: Він орієнтований на винагороду, а також на дії. Отже, ви повинні діяти у світі, щоб мати можливість дізнатися щось про світ. І головне твердження, яке я висловлюю в статті про самоконтрольоване навчання, полягає в тому, що більшість навчання, яке ми робимо, ми робимо це не шляхом фактичних дій, ми робимо це шляхом спостереження. І це дуже неортодоксально як для людей, які навчаються закріпленням, так і для багатьох психологів і когнітивістів, які вважають, що, знаєте, дія — я не кажу, що дія не є важливою, це is істотний. Але я думаю, що більша частина того, що ми дізнаємося, здебільшого стосується структури світу, і включає, звичайно, взаємодію, дії, гру тощо, але багато з цього є спостереженнями.

ZDNet: Вам також вдасться одночасно поставити галочку перед людьми-Трансформерами, людьми, які перш за все володіють мовою. Як ви можете створити це без мови? Можливо, вам вдасться обдурити багатьох людей. 

YL: Так, я звик до цього. Отже, так, є люди, які в першу чергу займаються мовою, і кажуть, що інтелект — це мова, субстрат інтелекту — це мова, бла, бла, бла. Але це, свого роду, відкидає інтелект тварин. Знаєте, ми ще не до того, щоб наші розумні машини мали стільки здорового глузду, скільки кішка. Отже, чому б нам не почати з цього? Що це таке, що дозволяє кішці сприймати навколишній світ, робити досить розумні речі, планувати і тому подібне, а собакам ще краще? 

Крім того, є всі люди, які кажуть: «О, інтелект — це соціальна річ, правда?» Ми розумні, тому що ми розмовляємо один з одним і обмінюємося інформацією, і бла, бла, бла. Існують різноманітні несоціальні види, які ніколи не зустрічаються зі своїми батьками, які дуже розумні, наприклад восьминоги чи орангутанги.Я маю на увазі, що їх [орангутангів], звичайно, виховує мати, але вони не соціальні тварини. 

Але інша категорія людей, яку я можу відмітити, це люди, які кажуть, що масштабування достатньо. Тож, по суті, ми просто використовуємо гігантські Трансформери, ми навчаємо їх на мультимодальних даних, які включають, знаєте, відео, текст, бла, бла, бла. Ми, ніби, кам'яніємовсе, і токенізувати все, а потім тренувати гігантмоделі, щоб робити дискретні прогнози, в основному, і якимось чином з цього вийде ШІ. Вони не помиляються в тому сенсі, що це може бути компонент майбутньої інтелектуальної системи. Але я думаю, що в ньому бракує важливих частин. 

Є ще одна категорія людей, яку я збираюся відмітити цим документом. І це ймовірністи, релігійні ймовірністи. Отже, люди, які вважають, що теорія ймовірностей є єдиною системою, яку можна використовувати для пояснення машинного навчання. І, як я намагався пояснити у статті, вимагати, щоб модель світу була повністю імовірнісною, занадто багато. Ми не знаємо, як це зробити. Є обчислювальна складність. Тому я пропоную повністю відмовитися від цієї ідеї. І звичайно, ви знаєте, це величезний стовп не лише машинного навчання, але й усієї статистики, яка претендує на нормальний формалізм машинного навчання. 

Інша річ — 

ZDNet: Ви в курсі...

YL: — це так звані генеративні моделі. Отже, ідея, що ви можете навчитися передбачати, і ви, можливо, зможете багато чого дізнатися про світ завдяки передбаченню. Отже, я даю вам фрагмент відео і прошу систему передбачити, що відбувається далі у відео. І я можу попросити вас передбачити реальні кадри відео з усіма деталями. Але те, про що я сперечаюся в статті, полягає в тому, що це насправді занадто багато, щоб запитати, і занадто складно. І це те, про що я передумав. Приблизно два роки тому я був прихильником того, що я називаю генеративними моделями з латентною змінною, моделями, які передбачають, що станеться далі або інформацію, якої немає, можливо, за допомогою латентної змінної, якщо прогноз неможливо детермінований. І я відмовився від цього. Причина, по якій я відмовився від цього, полягає в емпіричних результатах, коли люди намагалися застосувати навчання на основі передбачення або реконструкції, подібне до того, що використовується в BERTі великі мовні моделі, вони намагалися застосувати це до зображень, і це було повним провалом. І причина повного провалу полягає, знову ж таки, в обмеженнях імовірнісних моделей, де відносно легко передбачити окремі лексеми, такі як слова, тому що ми можемо обчислити розподіл ймовірностей для всіх слів у словнику. Це легко. Але якщо ми попросимо систему створити розподіл ймовірностей за всіма можливими відеокадрами, ми не матимемо уявлення про те, як його параметризувати, або ми маємо деяке уявлення про те, як це параметризувати, але не знаємо, як його нормалізувати. Це натрапляє на складну математичну проблему, яку ми не знаємо, як вирішити. 

yann-lecun-sept-2022-3

«Ми ще не дійшли до того, щоб наші розумні машини мали стільки здорового глузду, скільки кішка», — зауважує Лекун. «То чому б нам не почати з цього? Що це таке, що дозволяє кішці сприймати навколишній світ, робити досить розумні речі, планувати і тому подібне, а собакам ще краще?»

Ось чому я кажу, що давайте відмовимося від теорії ймовірностей або основи для таких речей, слабшої моделі, заснованої на енергії. Я також виступав за це протягом десятиліть, тому це не нещодавно. Але в той же час відмова від ідеї генеративних моделей, тому що в світі є багато незрозумілих і непередбачуваних речей. Якщо ви інженер, ви називаєте це шумом. Якщо ви фізик, ви називаєте це теплом. І якщо ви людина, що навчається машинним способом, ви називаєте це, знаєте, нерелевантними деталями чи як завгодно.

Отже, приклад, який я використовував у статті або використовував у розмовах, полягає в тому, що вам потрібна система прогнозування світу, яка б допомогла в безпілотному автомобілі, чи не так? Він хоче мати можливість заздалегідь передбачити траєкторії всіх інших автомобілів, що станеться з іншими об’єктами, які можуть рухатися, пішоходами, велосипедами, дитиною, що біжить за футбольним м’ячем, тощо. Отже, всілякі речі про світ. Але на межі дороги можуть бути дерева, і сьогодні вітер, тому листя ворушиться на вітрі, а за деревами є ставок, і в ставку брижі. І це, по суті, здебільшого непередбачувані явища. Крім того, ви не хочете, щоб ваша модель витрачала значну кількість ресурсів на прогнозування речей, які важко передбачити та не мають значення. Ось чому я виступаю за архітектуру спільного вбудовування, коли змінна, яку ви намагаєтесь змоделювати, не намагаєтеся її передбачити, ви намагаєтеся її змоделювати, але вона проходить через кодер, і цей кодер може усунути багато деталей про введення, які є нерелевантними або занадто складними — по суті, еквівалентно шуму.

ZDNet: Раніше цього року ми обговорювали енергетичні моделі JEPA та H-JEPA. Якщо я вас правильно зрозумів, я так розумію, що ви знаходите точку низької енергії, де ці два передбачення вкладень X і Y найбільш схожі, а це означає, що якщо в одному є голуб на дереві, і в одному є щось фону сцени, це можуть бути не основні моменти, які роблять ці вбудовані елементи близькими одне до одного.

YL: правильно. Таким чином, архітектура JEPA фактично намагається знайти компроміс, компроміс між вилученням уявлень, які є максимально інформативними щодо вхідних даних, але також передбачуваними одне від одного з певним рівнем точності чи надійності. Він знаходить компроміс. Отже, якщо він має вибір між тим, щоб витрачати величезну кількість ресурсів, включаючи деталі руху листя, а потім моделювати динаміку, яка вирішить, як листя рухатиметься через секунду, або просто скинути це на підлогу просто запустивши змінну Y через предиктор, який усуває всі ці деталі, він, ймовірно, просто усуне це, тому що це надто важко моделювати та фіксувати.

ZDNet: Єдине, що здивувало те, що ви були великим прихильником заяви: «Це працює, ми пізніше розберемо теорію термодинаміки, щоб пояснити це». Тут ви застосували такий підхід: «Я не знаю, як ми обов’язково це розв’яжемо, але я хочу висунути кілька ідей, щоб подумати про це», і, можливо, навіть підійшли до теорії чи гіпотези, найменше. Це цікаво, тому що багато людей витрачають багато грошей на роботу над автомобілем, який бачить пішохода незалежно від того, чи має автомобіль здоровий глузд. І я думаю, що дехто з цих людей не поставить галочку, але вони скажуть: «Це добре, нам байдуже, якщо в цьому немає здорового глузду, ми створили симуляцію, симуляція чудова, і ми будемо продовжувати вдосконалюватися, ми будемо продовжувати масштабувати симуляцію». 

І тому цікаво, що ви зараз можете сказати: давайте зробимо крок назад і подумаємо про те, що ми робимо. І галузь каже, що ми просто будемо масштабувати, масштабувати, масштабувати, масштабувати, тому що цей шатун дійсно працює. Я маю на увазі, що напівпровідниковий механізм графічних процесорів дійсно працює.

YL: Там, начебто, п’ять питань. Отже, я маю на увазі, необхідне масштабування. Я не критикую той факт, що ми повинні масштабуватися. Ми повинні масштабувати. Ці нейронні мережі стають кращими, коли вони стають більшими. Немає сумнівів, що ми повинні масштабуватись. І ті, які матимуть певний рівень здорового глузду, будуть великими. Мені здається, це неможливо обійти. Отже, масштабування – це добре, воно необхідне, але недостатнє. Це те, що я маю на увазі. Це не просто масштабування. Це перший пункт. 

По-друге, чи теорія стоїть на першому місці тощо. Отже, я вважаю, що на першому місці стоять такі концепції, що ви повинні зробити крок назад і сказати: гаразд, ми побудували цю драбину, але ми хочемо полетіти на Місяць, і ця драбина ніяк не приведе нас туди. Тож, по суті, я тут пишу: нам потрібно будувати ракети. Я не можу надати вам подробиць того, як ми будуємо ракети, але ось основні принципи. І я не пишу для цього теорію чи щось подібне, але це буде ракета, добре? Або космічний ліфт чи що завгодно. Можливо, ми не маємо всіх деталей усієї технології. Ми намагаємося змусити деякі з цих речей працювати, наприклад, я працював над JEPA. Спільне вбудовування дуже добре працює для розпізнавання зображень, але з його використанням для навчання світової моделі є труднощі. Ми над цим працюємо, сподіваємось, що у нас це вийде soon, але ми можемо зустріти деякі перешкоди, які ми не зможемо подолати, можливо. 

Крім того, у статті є ключова ідея про міркування: якщо ми хочемо, щоб системи могли планувати, що можна вважати простою формою міркувань, вони повинні мати приховані змінні. Іншими словами, речі, які не обчислюються жодною нейронною мережею, але речі, які є — чия вартість виводиться таким чином, щоб мінімізувати певну цільову функцію, деяку функцію вартості. І тоді ви можете використовувати цю функцію вартості, щоб керувати поведінкою системи. І це зовсім не нова ідея, чи не так? Це дуже класичний, оптимальний контроль, основа якого сягає кінця 50-х, початку 60-х років. Отже, не претендуючи на новизну. Але я маю на увазі те, що цей тип висновків має бути частиною інтелектуальної системи, яка здатна планувати, і чия поведінка може бути визначена або контрольована не за допомогою жорсткої поведінки, не шляхом імітації, а за допомогою цільової функції, яка керує поведінкою — не обов’язково стимулює навчання, але це керує поведінкою. Знаєте, у нас це в мозку, і кожна тварина має внутрішню ціну або внутрішню мотивацію для речей. Це спонукає дев’ятимісячних дітей до бажання встати. Ціна того, щоб бути щасливим, коли ти встаєш, цей термін у функції вартості закріплений. Але те, як ви встаєте, не є, це навчання.

yann-lecun-sept-2022-4

«Масштабування — це добре, воно необхідне, але недостатнє», — говорить ЛеКун про гігантські мовні моделі, такі як програми на основі Transformer різновиду GPT-3. Прихильники Transformer вірять: «Ми фіксуємо все та тренуємося гігантськимоделі, щоб робити дискретні прогнози, і якимось чином з цього вийде штучний інтелект... але я думаю, що в ньому відсутні важливі частини».

ZDNet: Щоб завершити цю думку, велика частина спільноти глибокого навчання, здається, добре продовжить щось, що не має здорового глузду. Здається, ви досить чітко стверджуєте, що в якийсь момент це заходить у глухий кут. Деякі люди кажуть, що нам не потрібен автономний автомобіль зі здоровим глуздом, тому що масштабування допоможе. Здається, ти хочеш сказати, що не можна просто йти цим шляхом?

YL: Знаєте, я думаю, що цілком можливо, що ми матимемо автономні автомобілі п’ятого рівня без здорового глузду. Але проблема з цим підходом полягає в тому, що це буде тимчасово, тому що вам доведеться до біса це спроектувати. Отже, ви знаєте, нанесіть на карту весь світ, налаштуйте всі види специфічної поведінки в кутових випадках, зберіть достатньо даних, щоб у вас були всі, начебто, дивні ситуації, з якими ви можете зіткнутися на дорогах, бла, бла, бла. І я припускаю, що з достатніми інвестиціями та часом ви можете просто спроектувати це до біса. Але в кінцевому підсумку буде більш задовільне і, можливо, краще рішення, яке включає системи, які краще розуміють, як влаштований світ, і мають, знаєте, певний рівень того, що ми б назвали здоровим глуздом. Це не потрібен здоровий глузд людського рівня, а певний тип знань, які система може отримати, спостерігаючи, але не спостерігаючи за кимось за кермом, просто спостерігаючи за рухом речей і розуміючи багато про світ, будуючи основу фону знання про те, як влаштований світ, а також навчитися керувати автомобілем. 

Наведу історичний приклад цього. Класичне комп’ютерне бачення ґрунтувалося на великій кількості жорстко з’єднаних інженерних модулів, поверх яких ви мали, начебто, тонкий шар навчання. Отже, матеріал, який був побитий AlexNet у 2012 році, в основному мав першу стадію, своєрідне ручне вилучення функцій, як-от SIFT [масштабно-інваріантне перетворення ознак (SIFT), класична техніка бачення для ідентифікації помітних об’єктів на зображенні] і HOG [Гістограма орієнтованих градієнтів, ще одна класична техніка] та багато іншого. А потім другий рівень, на кшталт, функцій середнього рівня, заснований на ядрах функцій і будь-якому іншому, і якийсь неконтрольований метод. А потім поверх цього ви розміщуєте машину опорних векторів або відносно простий класифікатор. І це був, свого роду, стандартний конвеєр із середини 2000-х до 2012 року. І його замінили наскрізні згорткові мережі, де ви нічого з цього не зв’язуєте, у вас просто є багато даних, і ви тренуєте справу від кінця до кінця, що є підходом, який я захищав протягом тривалого часу, але ви знаєте, до того часу він був непрактичним для великих проблем. 

Подібна історія була з розпізнаванням мовлення, де, знову ж таки, була величезна кількість детальних розробок для того, як ви попередньо обробляєте дані, ви вилучаєте кепстр масового масштабу [інверсію швидкого перетворення Фур’є для обробки сигналу], а потім у вас є приховані марковські моделі з начебто попередньо встановленою архітектурою, бла, бла, бла, із сумішшю гаусів. І отже, це схожа на архітектуру vision, де у вас є створений вручну інтерфейс, а потім дещо неконтрольований, навчений середній рівень, а потім контрольований рівень зверху. І тепер це було, в основному, знищено наскрізними нейронними мережами. Тож я бачу щось схоже на те, щоб намагатися вивчити все, але ви повинні мати правильний попередній досвід, правильну архітектуру, правильну структуру.

yann-lecun-sept-2022-5

Натовп тих, хто займається безпілотними автомобілями, такі стартапи, як Waymo та Wayve, були «трохи надто оптимістичними», каже він, вважаючи, що вони можуть «кинути на це дані, і ви можете навчитися майже всьому». Безпілотні автомобілі на рівні 5 ADAS можливі, «але вам доведеться до біса це сконструювати», і вони будуть «крихкими», як ранні моделі комп’ютерного зору.

ZDNet: Ви маєте на увазі, що деякі люди намагатимуться розробити те, що зараз не працює з глибоким навчанням, для застосування, скажімо, у промисловості, і вони почнуть створювати те, що застаріло в комп’ютерному зорі?

YL: правильно. І частково тому люди, які працюють над автономним водінням, були занадто оптимістичними протягом останніх кількох років, тому що, знаєте, у вас є такі загальні речі, як-от згорточні мережі та трансформатори, які ви можете використовувати для обробки даних. , і він може навчитися майже всьому. Отже, ви говорите: «Добре, у мене є рішення цієї проблеми». Перше, що ви робите, це створюєте демонстрацію, де автомобіль їде самостійно протягом кількох хвилин, нікому не завдаючи шкоди. І тоді ви розумієте, що є багато кутових випадків, і ви намагаєтеся побудувати криву того, наскільки я стаю кращим, коли я подвоюю тренувальний набір, і ви розумієте, що ніколи не досягнете цього, тому що є всілякі кутові випадки . І вам потрібно мати автомобіль, який стане причиною смертельної аварії рідше ніж кожні 200 мільйонів кілометрів, чи не так? Так, що ти робиш? Ну, ви йдете в два боки. 

Перший напрямок полягає в тому, як я можу зменшити кількість даних, необхідних для навчання моєї системи? І саме тут з’являється самоконтрольоване навчання. Отже, багато компаній, що займаються безпілотними автомобілями, дуже зацікавлені в самоконтрольованому навчанні, тому що це спосіб все ще використовувати гігантські обсяги контрольних даних для імітаційного навчання, але отримати кращу продуктивність завдяки попередня підготовка, по суті. І це ще не зовсім вийшло, але буде. Крім того, є інший варіант, який прийняли більшість компаній, які є більш просунутими на цьому етапі. Це, гаразд, ми можемо провести наскрізне навчання, але є багато кутових випадків, які ми можемо t handle, тож ми збираємося просто розробити системи, які подбають про ці кутові випадки, і, по суті, розглядатимуть їх як особливі випадки, і жорстко з’єднають керування, а потім закріплять багато базової поведінки для обробки особливих ситуацій. І якщо у вас є досить велика команда інженерів, ви можете це зробити. Але це займе багато часу, і врешті-решт воно все одно буде трохи крихким, можливо, достатньо надійним, щоб його можна було розгорнути, але з певним рівнем крихкості, який, завдяки більш заснованому на навчанні підходу, який може з’явитися в у майбутньому автомобілі не матимуть, оскільки вони можуть мати певний рівень здорового глузду та розуміння того, як влаштований світ. 

У короткостроковій перспективі, свого роду, інженерний підхід переможе — він уже перемагає. Це Waymo та Cruise світу та Wayveі що завгодно, це те, що вони роблять. Крім того, є підхід до самоконтролю, який, ймовірно, допоможе досягнути прогресу за допомогою інженерного підходу. Але тоді, у довгостроковій перспективі, яка може бути надто довгою для цих компаній, ймовірно, буде, начебто, більш інтегрованою автономною інтелектуальною системою водіння.

ZDNet: Ми кажемо, що за межами інвестиційного горизонту більшості інвесторів.

YL: Це вірно. Отже, питання в тому, чи втратять люди терпіння чи закінчаться гроші, перш ніж продуктивність досягне бажаного рівня.

ZDNet: Чи є щось цікаве, що можна сказати про те, чому ви вибрали деякі елементи, які ви обрали в моделі? Тому що ви цитуєте Кеннета Крейка [1943,Природа пояснення], і ви цитуєте Bryson and Ho [1969, Застосований оптимальний контроль], і мені цікаво, чому ви почали з цими впливами, якщо ви особливо вірили в те, що ці люди досягли того, що вони зробили. Чому ви почали там?

YL: Ну, я не думаю, що, звичайно, вони встигли прописати всі деталі. Отже, Брайсон і Хо, це книга, яку я прочитав ще в 1987 році, коли навчався на постдокументації у Джеффрі Гінтона в Торонто. Але я знав про цей напрямок роботи заздалегідь, коли писав свою докторську дисертацію, і по суті встановив зв’язок між оптимальним контролем і підтримкою. Якби ви справді хотіли бути іншим Шмідгубером, ви б сказали, що справжніми винахідниками бекпропу були теоретики оптимального керування Генрі Дж. Келлі, Артур Брайсон і, можливо, навіть Лев Понтрягін, який є російським теоретиком оптимального керування. наприкінці 50-х років. 

Отже, вони це зрозуміли, і насправді ви можете побачити корінь цього, математику, що лежить в основі цього, — це механіка Лагранжа. Таким чином, ви можете повернутися до Ейлера та Лагранжа, насправді, і знайти відтінок цього в їхньому визначенні класичної механіки Лагранжа. Отже, у контексті оптимального керування, ці хлопці цікавилися, в основному, обчисленням траєкторій ракет. Знаєте, це була рання космічна ера. І якщо у вас є модель ракети, вона скаже вам стан ракети в певний час t, а ось дії, які я збираюся виконати, отже, тяга та приводи різних типів, ось стан ракети на певний момент т + 1.

ZDNet: Модель стан-дія, ціннісна модель.

YL: Правильно, основа контролю. Отже, тепер ви можете імітувати стрільбу вашої ракети, уявивши послідовність команд, і тоді у вас є деяка функція вартості, яка є відстанню ракети до її цілі, космічної станції чи будь-чого іншого. А потім за допомогою якогось градієнтного спуску ви можете зрозуміти, як я можу оновити свою послідовність дій, щоб моя ракета дійсно наблизилася до цілі якомога ближче. І це має відбуватися шляхом зворотного поширення сигналів назад у часі. І це зворотне поширення, градієнтне зворотне поширення. Ці сигнали, вони називаються спряженими змінними в механіці Лагранжа, але насправді вони є градієнтами. Отже, вони винайшли опору, але не усвідомлювали, що цей принцип можна використовувати для навчання багатоступеневої системи, яка може виконувати розпізнавання образів або щось подібне. Це не було насправді усвідомлено до, можливо, кінця 70-х, початку 80-х, а потім було фактично реалізовано та не запущено до середини 80-х. Гаразд, отже, ось де backprop справді, свого роду, злетів, тому що люди показали ось кілька рядків коду, за допомогою якого можна навчити нейронну мережу, наскрізну, багатошарову. І це знімає обмеження Perceptron. І, так, є з’єднання з оптимальним контролем, але це нормально.

ZDNet: Отже, це далеко не те, що ті впливи, з яких ви починали, повернулися до підтримки, і це було для вас важливо як відправна точка?

YL: Так, але я думаю, про що люди трохи забули, над цим було досить багато роботи, ви знаєте, ще в 90-х чи навіть у 80-х роках, зокрема такими людьми, як Майкл Джордан [кафедра мозку MIT і когнітивні науки] і подібні люди, які більше не займаються нейронними мережами, але ідеєю, що ви можете використовувати нейронні мережі для контролю, і ви можете використовувати класичні ідеї оптимального контролю. Отже, такі речі, як те, що називається керуванням з прогнозуванням моделі, те, що зараз називається керуванням з прогнозуванням моделі, ця ідея, що ви можете змоделювати або уявити результат послідовності дій, якщо у вас є хороша модель системи, якою ви намагаєтеся керувати. і середовище, в якому він знаходиться. А потім за допомогою градієнтного спуску, по суті — це не навчання, це висновок — ви можете з’ясувати, яка найкраща послідовність дій мінімізує мою мету. Отже, використання функції вартості з прихованою змінною для логічного висновку, я вважаю, те, про що забули сучасні урожаї великомасштабних нейронних мереж. Але це був дуже класичний компонент машинного навчання протягом тривалого часу. Таким чином, кожна байєсова мережа або графічна модель або ймовірнісна графічна модель використовували цей тип висновку. У вас є модель, яка фіксує залежності між групою змінних, вам повідомляють значення деяких змінних, а потім ви повинні зробити висновок про найбільш вірогідне значення решти змінних. Це основний принцип логічного висновку в графічних моделях і байєсівських мережах тощо. І я думаю, що в основному це те, про що має бути міркування, міркування та планування.

ZDNet: Ти байєсіанець.

YL: Я невірогідний байєсіанець. Я жартував раніше. Насправді я був у NeurIPS кілька років тому, здається, це було у 2018 чи 2019 роках, і мене зняв на відео байєсіанець, який запитав мене, чи я байєсіанець, і я сказав: «Так, я байєсіанець, але я Я неімовірнісний байєсіанець, свого роду, байєсіанець на основі енергії, якщо хочете. 

ZDNet: Що точно звучить як щось із Star Trek. Ви згадали в кінці цієї статті, що знадобляться роки справді наполегливої ​​роботи, щоб реалізувати те, що ви собі уявляєте. Розкажіть мені про те, з чого складається ця робота на даний момент.

YL: Отже, я пояснюю, як ви тренуєтеся та будуєте JEPA в статті. І критерій, який я відстоюю, полягає в наявності певного способу максимізації інформаційного вмісту, який мають уявлення, які вилучаються щодо вхідних даних. А другий — мінімізація помилки передбачення. І якщо у вас є прихована змінна в предикторі, яка дозволяє предиктору бути недетермінованим, ви повинні також урегулювати цю приховану змінну, мінімізуючи її інформаційний вміст. Отже, зараз у вас є два питання: як максимізувати інформаційний вміст виходу деякої нейронної мережі, а інший — як мінімізувати інформаційний вміст деякої прихованої змінної? І якщо ви не зробите ці дві речі, система завалиться. Нічого цікавого воно не дізнається. Це дасть нульову енергію всьому, щось подібне, що не є хорошою моделлю залежності. Це проблема запобігання колапсу, про яку я згадую. 

І я кажу, що з усіх речей, які коли-небудь робили люди, є лише дві категорії методів запобігання краху. Один — контрастні методи, а інший — регуляризовані методи. Отже, ця ідея максимізації інформаційного вмісту представлень двох вхідних даних і мінімізації інформаційного вмісту латентної змінної належить до регуляризованих методів. Але велика частина роботи в цих архітектурах спільного вбудовування полягає у використанні контрастних методів. Насправді вони, мабуть, найпопулярніші на даний момент. Отже, питання полягає в тому, як саме вимірюєте інформаційний вміст таким чином, щоб його можна було оптимізувати або мінімізувати? І тут все стає складніше, оскільки ми не знаємо, як насправді виміряти інформаційний вміст. Ми можемо це наблизити, ми можемо встановити верхню межу, ми можемо робити щось подібне. Але насправді вони не вимірюють інформаційного наповнення, яке, насправді, певною мірою навіть не є чітко визначеним.

ZDNet: Це не закон Шеннона? Це не теорія інформації? Ви маєте певну кількість ентропії, хорошу ентропію та погану ентропію, і хороша ентропія – це система символів, яка працює, погана ентропія – це шум. Хіба Шеннон не все вирішив?

YL: Ви маєте рацію, але за цим є великий недолік. Ви маєте рацію в тому сенсі, що якщо ви маєте дані, які надходять до вас, і ви можете якимось чином квантувати дані в дискретні символи, а потім вимірюєте ймовірність кожного з цих символів, тоді максимальна кількість інформації, яку несуть ці символи, дорівнює сума над можливими символами Pi log Pi, так? Де Pi це ймовірність символу я — це ентропія Шеннона. [Закон Шеннона зазвичай формулюється як H = – ∑ pi log pi.]

Однак ось проблема: що є Pi? Це легко, коли кількість символів невелика і символи малюються незалежно один від одного. Коли є багато символів і залежностей, це дуже важко. Отже, якщо у вас є послідовність бітів, і ви припускаєте, що біти незалежні один від одного, а ймовірність дорівнює від одиниці до нуля або щось інше, тоді ви можете легко виміряти ентропію, без проблем. Але якщо речі, які приходять до вас, є високовимірними векторами, як, ви знаєте, кадри даних або щось подібне, що Pi? Що таке розподіл? Спочатку ви повинні квантувати цей простір, який є багатовимірним безперервним простором. Ви не уявляєте, як це правильно квантувати. Ви можете використовувати k-середні тощо. Це те, що люди роблять, коли стискають відео та зображення. Але це лише приблизне значення. І тоді ви повинні зробити припущення про незалежність. Отже, зрозуміло, що у відео послідовні кадри не є незалежними. Є залежності, і цей кадр може залежати від іншого кадру, який ви бачили годину тому, який був зображенням того самого. Отже, ви знаєте, ви не можете виміряти Pi. Для вимірювання Pi, вам потрібна система машинного навчання, яка навчиться передбачати. І так ви повернулися до попередньої проблеми. Отже, по суті, ви можете лише приблизно визначити міру інформації. 

yann-lecun-sept-2022-6

«Питання полягає в тому, як саме ви вимірюєте інформаційний вміст таким чином, щоб його можна було оптимізувати або мінімізувати?» каже ЛеКун. «І тут все стає складніше, тому що ми не знаємо, як насправді виміряти інформаційний вміст». Найкраще, що можна зробити наразі, це знайти проксі-сервер, який «достатньо хороший для завдання, яке ми хочемо».

Наведу більш конкретний приклад. Один із алгоритмів, з якими ми грали, і про які я говорив у статті, це така штука, що називається VICReg, регулярізація дисперсії-інваріантності-коваріації. Це в окремій статті, опублікованій в ICLR, і його поставили на arXiv приблизно за рік до 2021 року. Ідея полягає в тому, щоб максимізувати інформацію. І ця ідея насправді виникла в попередній статті моєї групи під назвою Близнюки Барлоу. Ви максимізуєте інформаційний вміст вектора, що виходить із нейронної мережі, по суті, припускаючи, що єдиною залежністю між змінними є кореляція, лінійна залежність. Отже, якщо ви припустите, що єдиною залежністю, яка можлива між парами змінних або між змінними у вашій системі, є кореляція між парами цінностей, що є надзвичайно грубим наближенням, тоді ви зможете максимізувати інформаційний вміст, що виходить із вашої системи. Переконавшись, що всі змінні мають відмінну від нуля дисперсію — скажімо, дисперсію один, неважливо, що це таке — а потім їх зворотню кореляцію, той самий процес, який називається відбілюванням, він теж не новий. Проблема полягає в тому, що ви цілком можете мати надзвичайно складні залежності між групами змінних або навіть просто парами змінних, які не є лінійними залежностями, і вони не відображаються в кореляціях. Отже, наприклад, якщо у вас є дві змінні, і всі точки цих двох змінних вишикуються у певну спіраль, між цими двома змінними існує дуже сильна залежність, чи не так? Але насправді, якщо ви обчислите кореляцію між цими двома змінними, вони не корельовані. Отже, ось приклад, де інформаційний вміст цих двох змінних насправді дуже малий, це лише одна величина, тому що це ваша позиція в спіралі. Вони декорельовані, тому ви думаєте, що у вас є багато інформації, що виходить із цих двох змінних, хоча насправді це не так, у вас є лише, знаєте, ви можете передбачити одну зі змінних на основі іншої, по суті. Отже, це показує, що ми маємо лише дуже приблизні способи вимірювання інформаційного вмісту.

ZDNet: І це одна з речей, над якою вам зараз потрібно працювати? Це важливе питання: як ми дізнаємося, коли ми максимізуємо чи мінімізуємо інформаційний вміст?

YL:  Або чи проксі, який ми використовуємо для цього, достатньо хороший для завдання, яке ми хочемо. Фактично, ми робимо це весь час у машинному навчанні. Функції вартості, які ми мінімізуємо, ніколи не є тими, які ми насправді хочемо мінімізувати. Отже, наприклад, ви хочете зробити класифікацію, добре? Функція вартості, яку ви хочете мінімізувати під час навчання класифікатора, — це кількість помилок, які робить класифікатор. Але це недиференційована, жахлива функція вартості, яку ви не можете мінімізувати, тому що ви знаєте, що збираєтеся змінити ваги вашої нейронної мережі, нічого не зміниться, доки один із цих зразків не змінить своє рішення, а потім стрибок у помилці, позитивній чи негативній.

ZDNet: Отже, у вас є проксі-функція, яка є цільовою функцією, яку ви точно можете сказати, ми точно можемо градієнти потоку цієї речі.

YL: Це вірно. Отже, люди використовують цю перехресну втрату ентропії, або SOFTMAX, у вас є кілька назв, але це те саме. І в основному це плавне наближення кількості помилок, які робить система, де згладжування здійснюється, в основному, з урахуванням оцінки, яку система дає кожній із категорій.

ZDNet: Чи є щось, про що ми не розповідали, а ви хотіли б охопити?

YL: Ймовірно, це підкреслює головне. Я вважаю, що системи штучного інтелекту повинні вміти міркувати, і процес, який я відстоюю, полягає в мінімізації певної мети щодо деякої прихованої змінної. Це дозволяє системам планувати та міркувати. Я думаю, що нам слід відмовитися від імовірнісної системи, оскільки вона нерозв’язна, коли ми хочемо робити такі речі, як охоплення залежностей між багатовимірними безперервними змінними. І я пропоную відмовитися від генеративних моделей, тому що системі доведеться виділяти занадто багато ресурсів для прогнозування речей, які занадто важко передбачити і, можливо, споживають занадто багато ресурсів. І це майже все. Це основні повідомлення, якщо хочете. А потім загальна архітектура. Крім того, є ті припущення про природу свідомості та роль конфігуратора, але це справді припущення.

ZDNet: Ми дійдемо до цього наступного разу. Я хотів запитати вас, як ви порівнюєте цю річ? Але я вважаю, що зараз ви трохи далі від порівняльного аналізу?

YL: Не обов’язково так далеко в, начебто, спрощених версіях. Ви можете робити те, що роблять усі під час контролю чи навчання з підкріпленням, тобто навчати цю штуку грати в ігри Atari чи щось подібне, чи іншу гру, яка містить певну невизначеність.

ZDNet: Дякую за ваш час, Янне.

Source