Гуру искусственного интеллекта Meta ЛеКун: большинство современных подходов к искусственному интеллекту никогда не приведут к истинному интеллекту

Янн-Лекун-сентябрь 2022-1

«Я думаю, что системы искусственного интеллекта должны уметь рассуждать, — говорит Янн ЛеКун, главный научный сотрудник Meta в области искусственного интеллекта. Сегодняшних популярных подходов к искусственному интеллекту, таких как Трансформеры, многие из которых основаны на его собственной новаторской работе в этой области, будет недостаточно. «Вы должны сделать шаг назад и сказать: «Хорошо, мы построили эту лестницу, но мы хотим отправиться на Луну, и эта лестница никак не приведет нас туда», — говорит Лекун.

Ян ЛеКун, главный научный сотрудник ИИ из Meta Properties, владелец Facebook, Instagram и WhatsApp, вероятно, отметит многих людей в своей области. 

С публикацией в июне аналитической статьи на сервере Open Review, ЛеКун предложил общий обзор подхода, который, по его мнению, обещает достичь человеческого интеллекта в машинах. 

Подразумевается, если не сформулировано в документе, утверждение, что большинство современных крупных проектов в области ИИ никогда не смогут достичь этой цели на уровне человека.

В ходе обсуждения в этом месяце с ZDNet Через Zoom ЛеКун дал понять, что он с большим скептицизмом смотрит на многие из наиболее успешных направлений исследований в области глубокого обучения на данный момент.

«Я думаю, что они необходимы, но недостаточны», — сказал лауреат премии Тьюринга. ZDNet занятий своих сверстников. 

К ним относятся большие языковые модели, такие как GPT-3 на основе Transformer и им подобные. Как характеризует это ЛеКун, приверженцы Трансформеров верят: «Мы символизируем все и тренируем гигантскихмодели для дискретных прогнозов, и каким-то образом из этого появится ИИ».

«Они не ошибаются, — говорит он, — в том смысле, что это может быть компонент будущей интеллектуальной системы, но я думаю, что в ней отсутствуют важные элементы».

А также: ИИ-светильник Meta Лекун исследует энергетический рубеж глубокого обучения

Это поразительная критика того, что, кажется, работает, исходящая от ученого, который усовершенствовал использование сверточных нейронных сетей, практического метода, который оказался невероятно продуктивным в программах глубокого обучения. 

ЛеКун видит недостатки и ограничения во многих других очень успешных областях дисциплины. 

Он утверждает, что обучения с подкреплением также никогда не будет достаточно. Такие исследователи, как Дэвид Сильвер из DeepMind, разработавший программу AlphaZero, которая освоила шахматы, сёги и го, сосредоточили внимание на программах, которые «очень основаны на действиях», отмечает ЛеКун, но «большую часть обучения, которое мы изучаем, мы не изучаем». делаем это, фактически предпринимая действия, мы делаем это, наблюдая». 

Лекун, 62 года, с точки зрения десятилетий достижений, тем не менее, выражает настоятельную необходимость противостоять тому, что, по его мнению, является тупиком, в который многие могут спешить, и попытаться уговорить свою область в том направлении, в котором, по его мнению, должны развиваться события. 

«Мы видим много заявлений о том, что мы должны сделать, чтобы продвигаться вперед к ИИ человеческого уровня», — говорит он. «И есть идеи, которые я считаю ошибочными».

«Мы еще не достигли того уровня, когда наши разумные машины обладают таким же здравым смыслом, как кошка», — отмечает Лекун. — Так почему бы нам не начать отсюда? 

Он отказался от прежней веры в использование генеративных сетей в таких вещах, как предсказание следующего кадра в видео. «Это был полный провал, — говорит он. 

ЛеКун порицает тех, кого он называет «религиозными вероятностниками», которые «думают, что теория вероятностей — единственная основа, которую можно использовать для объяснения машинного обучения». 

По его словам, чисто статистический подход неприменим. «Слишком много требовать, чтобы модель мира была полностью вероятностной; мы не знаем, как это сделать».

ЛеКун утверждает, что не только ученые, но и промышленный ИИ нуждаются в глубоком переосмыслении. По его словам, толпа самоуправляемых автомобилей, такие стартапы, как Wayve, были «слишком оптимистичны», думая, что они могут «передавать данные» в большие нейронные сети, «и вы можете узнать практически все».

«Знаете, я думаю, вполне возможно, что у нас будут автономные автомобили пятого уровня без здравого смысла», — говорит он, имея в виду «ADAS». продвинутая система помощи водителю термины для самостоятельного вождения, «но вам придется изобретать, черт возьми, из этого».

Он считает, что такая перепроектированная технология автономного вождения будет чем-то таким же скрипучим и хрупким, как и все программы компьютерного зрения, которые устарели из-за глубокого обучения.

«В конечном счете, будет более удовлетворительное и, возможно, лучшее решение, включающее системы, которые лучше понимают, как устроен мир».

Попутно ЛеКун высказывает резкое мнение о своих крупнейших критиках, таких как профессор Нью-Йоркского университета Гэри Маркус — «он никогда ничего не делал для ИИ» — и Юрген Шмидхубер, содиректор Института исследований искусственного интеллекта Далле Молле — «это очень легко установить флаг».

Помимо критических замечаний, более важным моментом, сделанным ЛеКуном, является то, что перед всем ИИ стоят определенные фундаментальные проблемы, в частности, как измерять информацию.

«Вы должны сделать шаг назад и сказать: «Хорошо, мы построили эту лестницу, но мы хотим отправиться на Луну, и эта лестница никак не приведет нас туда», — говорит ЛеКун о своем желании переосмыслить основных понятий. «По сути, то, что я пишу здесь, это то, что нам нужно строить ракеты, я не могу рассказать вам подробности того, как мы строим ракеты, но вот основные принципы».

Бумагу и мысли ЛеКуна в интервью можно лучше понять, прочитав интервью ЛеКуна в начале этого года с ZDNet в котором он приводит доводы в пользу обучения с самоконтролем на основе энергии как пути к глубокому обучению. Эти размышления дают представление об основном подходе к тому, что он надеется построить в качестве альтернативы вещам, которые, как он утверждает, не дойдут до финиша. 

Далее следует слегка отредактированная стенограмма интервью.

ЗДНет: Тема нашего разговора — эта статья «Путь к автономному машинному интеллекту», версия 0.9.2 которой является существующей версией, да?

Ян ЛеКун: Да, я считаю это своего рода рабочим документом. Итак, я разместил его на Open Review, ожидая комментариев и предложений людей, возможно, дополнительных ссылок, а затем я выпущу исправленную версию. 

ЗДНет: Я вижу, что Юрген Шмидхубер уже добавил несколько комментариев в Open Review.

ЮЛ: Ну да, он всегда так делает. Я цитирую одну из его статей в своей статье. Я думаю, аргументы, которые он приводил в соцсетях, что он, по сути, все это выдумал в 1991 году, как и в других случаях, просто не соответствуют действительности. Я имею в виду, это очень легко сделатьустановка флага, и чтобы, как бы, написать идею без всяких экспериментов, без всякой теории, просто предположи, что ты мог бы сделать это так. Но, знаете ли, есть большая разница между тем, чтобы просто иметь идею и затем заставить ее работать над игрушечной проблемой, затем заставить ее работать над реальной проблемой, а затем создать теорию, которая показывает, почему она работает, а затем развертывание его. Существует целая цепочка, и его представление о научном признании состоит в том, что самый первый человек, который просто, вроде как, придумал это, должен получить все признание. И это смешно. 

ЗДНет: Не верьте всему, что вы слышите в социальных сетях. 

ЮЛ: Я имею в виду, что основная статья, которую, по его словам, я должен процитировать, не содержит ни одной из основных идей, о которых я говорю в этой статье. Он сделал это также с GAN и другими вещами, которые не подтвердились. Устанавливать флаги легко, гораздо сложнее внести свой вклад. И, кстати, в этой конкретной статье я прямо сказал, что это не научная статья в обычном смысле этого слова. Это скорее документ с изложением позиции о том, куда следует двигаться. И там есть пара идей, которые могут быть новыми, но большинство из них таковыми не являются. По сути, я не претендую на приоритет большей части того, что я написал в этой статье.

Янн-Лекун-сентябрь 2022-2

ЛеКун утверждает, что обучения с подкреплением также никогда не будет достаточно. Такие исследователи, как Дэвид Сильвер из DeepMind, разработавший программу AlphaZero, которая освоила шахматы, сёги и го, «очень основаны на действиях», — отмечает ЛеКун, — но «большую часть обучения, которое мы делаем, мы не делаем, фактически принимая действия, мы делаем это, наблюдая». 

ЗДНет: И это, пожалуй, хорошее место для начала, потому что мне любопытно, почему вы выбрали этот путь именно сейчас? Что заставило вас задуматься об этом? Почему вы захотели это написать?

ЮЛ: Итак, я очень долго думал об этом, о пути к интеллекту человеческого или животного уровня или обучению и способностям. И в своих выступлениях я довольно открыто говорил обо всем этом, что как контролируемое обучение, так и обучение с подкреплением недостаточны для имитации того типа обучения, которое мы наблюдаем у животных и людей. Я занимаюсь этим уже лет семь-восемь. Значит, не недавно. У меня был основной доклад на NeurIPS много лет назад, где я, по сути, говорил об этом, и различные выступления, есть записи. Теперь, зачем писать статью сейчас? Я подошел к сути — [исследователь Google Brain] Джефф Хинтон сделал что-то подобное — я имею в виду, конечно, он больше, чем я, мы видим, что время уходит. Мы не молоды.

ЗДНет: Шестьдесят — это новые пятьдесят. 

ЮЛ: Это правда, но дело в том, что мы видим много заявлений о том, что мы должны сделать, чтобы продвигаться вперед к человеческому уровню ИИ. И есть идеи, которые я считаю ошибочными. Итак, одна идея заключается в том, что мы должны просто добавить символические рассуждения поверх нейронных сетей. И я не знаю, как это сделать. Итак, возможно, то, что я объяснил в статье, может быть одним из подходов, который сделает то же самое без явного манипулирования символами. Таковы традиционно Гэри Маркусы мира. Гэри Маркус, между прочим, не человек с искусственным интеллектом, он психолог. Он никогда ничего не делал для ИИ. Он проделал действительно хорошую работу в области экспериментальной психологии, но никогда не писал рецензируемой статьи по ИИ. Итак, вот эти люди. 

Есть [главный научный сотрудник DeepMind] Дэвид Сильверс, который говорит, что вознаграждения достаточно, в основном, все дело в обучении с подкреплением, нам просто нужно сделать его немного более эффективным, хорошо? И я думаю, что они не ошибаются, но я думаю, что необходимые шаги к тому, чтобы сделать обучение с подкреплением более эффективным, по сути, отодвинули бы обучение с подкреплением в своего рода вишенку на торте. И главная недостающая часть — это изучение того, как устроен мир, в основном путем наблюдения без действия. Обучение с подкреплением очень основано на действиях, вы узнаете что-то о мире, совершая действия и видя результаты.

ЗДНет: И это ориентировано на вознаграждение.

ЮЛ: Он ориентирован на вознаграждение, а также на действие. Итак, вы должны действовать в мире, чтобы иметь возможность узнать что-то о мире. И основное утверждение, которое я делаю в своей статье об обучении с самоконтролем, состоит в том, что большую часть обучения, которое мы делаем, мы не делаем, фактически совершая действия, мы делаем это, наблюдая. И это очень неортодоксально, как для людей, обучающихся с подкреплением, в частности, так и для многих психологов и ученых-когнитивистов, которые думают, что действие — это... я не говорю, что действие не обязательно, оно is существенный. Но я думаю, что большая часть того, что мы узнаем, в основном касается структуры мира и включает в себя, конечно, взаимодействие, действие, игру и тому подобное, но многое из этого является наблюдением.

ЗДНет: Вы также сможете одновременно отметить людей-трансформеров, людей, изучающих язык. Как вы можете построить это без языка? Возможно, вам удастся поставить галочку на многих людях. 

ЮЛ: Да, я к этому привык. Итак, да, есть люди, предпочитающие язык, которые говорят, знаете ли, что интеллект — это язык, субстрат интеллекта — это язык, бла-бла-бла. Но это как бы игнорирует разум животных. Вы знаете, мы еще не дошли до того, чтобы у наших разумных машин было столько же здравого смысла, сколько у кошки. Итак, почему бы нам не начать отсюда? Что же позволяет кошке постигать окружающий мир, делать довольно умные вещи, планировать и тому подобное, а собакам еще лучше? 

Тогда есть все люди, которые говорят: «О, интеллект — это социальная вещь, верно?» Мы умны, потому что мы разговариваем друг с другом и обмениваемся информацией, и бла-бла-бла. Есть все виды несоциальных видов, которые никогда не встречаются со своими очень умными родителями, например, осьминоги или орангутаны.Я имею в виду, что их [орангутангов], безусловно, воспитывает их мать, но они не социальные животные. 

Но другая категория людей, которых я мог бы отметить, — это люди, которые говорят, что масштабирования достаточно. Так что, по сути, мы просто используем гигантские трансформеры, мы обучаем их на мультимодальных данных, которые включают, знаете ли, видео, текст, бла, бла, бла. Мы как бы окаменеваемвсе, и токенизировать все, а потом тренировать гигантскихмодели, чтобы делать дискретные прогнозы, в основном, и каким-то образом из этого возникнет ИИ. Они не ошибаются в том смысле, что это может быть компонентом будущей интеллектуальной системы. Но я думаю, что в нем отсутствуют важные части. 

Есть еще одна категория людей, которых я хочу отметить в этой статье. И это вероятностники, религиозные вероятностники. Итак, люди, которые думают, что теория вероятностей — единственная основа, которую можно использовать для объяснения машинного обучения. И, как я пытался объяснить в этой части, в основном слишком много просить, чтобы модель мира была полностью вероятностной. Мы не знаем, как это сделать. Есть вычислительная неразрешимость. Поэтому я предлагаю отказаться от всей этой идеи. И конечно, вы знаете, это огромный столп не только машинного обучения, но и всей статистики, которая претендует на звание нормального формализма для машинного обучения. 

Другое дело — 

ЗДНет: Ты в ударе…

ЮЛ: — это то, что называется генеративными моделями. Итак, идея о том, что вы можете научиться предсказывать, и, возможно, вы можете многое узнать о мире с помощью предсказаний. Итак, я даю вам кусок видео и прошу систему предсказать, что будет дальше в видео. И я могу попросить вас предсказать реальные кадры видео со всеми деталями. Но то, о чем я спорю в статье, это то, что на самом деле это слишком много и слишком сложно. И это то, о чем я передумал. Примерно два года назад я был сторонником того, что я называю генеративными моделями со латентными переменными, моделями, которые предсказывают, что произойдет дальше, или недостающую информацию, возможно, с помощью латентной переменной, если предсказание невозможно. детерминированный. И я отказался от этого. И причина, по которой я отказался от этого, основана на эмпирических результатах, когда люди пытались применить своего рода обучение на основе предсказания или реконструкции типа того, что используется в BERT.и большие языковые модели, они пытались применить это к изображениям, но потерпели полную неудачу. И причина полного провала опять же в ограничениях вероятностных моделей, где относительно легко предсказать дискретные токены, такие как слова, потому что мы можем вычислить распределение вероятностей по всем словам в словаре. Это просто. Но если мы попросим систему произвести распределение вероятностей по всем возможным видеокадрам, мы понятия не имеем, как его параметризовать, или у нас есть какое-то представление, как его параметризовать, но мы не знаем, как его нормализовать. Он сталкивается с неразрешимой математической проблемой, которую мы не знаем, как решить. 

Янн-Лекун-сентябрь 2022-3

«Мы еще не достигли того уровня, когда наши разумные машины обладают таким же здравым смыслом, как кошка», — отмечает Лекун. «Итак, почему бы нам не начать отсюда? Что же позволяет кошке постигать окружающий мир, делать довольно умные вещи, планировать и тому подобное, а собакам еще лучше?»

Вот почему я говорю, давайте откажемся от теории вероятностей или рамок для таких вещей, более слабых, моделей, основанных на энергии. Я также выступал за это на протяжении десятилетий, так что это не новость. Но при этом отказавшись от идеи генеративных моделей, потому что в мире много непонятного и не предсказуемого. Если вы инженер, вы называете это шумом. Если вы физик, вы называете это теплом. И если вы занимаетесь машинным обучением, вы называете это, знаете ли, несущественными деталями или как-то так.

Итак, пример, который я использовал в статье или в разговорах, таков: вам нужна система прогнозирования мира, которая помогла бы в самоуправляемом автомобиле, верно? Он хочет быть в состоянии предсказать заранее траектории всех других автомобилей, что произойдет с другими объектами, которые могут двигаться, пешеходами, велосипедами, ребенком, бегущим за футбольным мячом, и тому подобными вещами. Итак, все виды вещей о мире. Но у дороги могут быть деревья, а сегодня ветер, поэтому листья шевелятся на ветру, а за деревьями пруд, и в пруду рябь. И это, по сути, во многом непредсказуемые явления. И вы не хотите, чтобы ваша модель тратила значительное количество ресурсов на прогнозирование тех вещей, которые трудно предсказать и которые не имеют значения. Вот почему я выступаю за совместную архитектуру встраивания, когда переменная, которую вы пытаетесь смоделировать, вы не пытаетесь ее предсказать, вы пытаетесь ее смоделировать, но она проходит через кодировщик и этот кодировщик может удалить множество деталей о вводе, которые не имеют отношения к делу или слишком сложны — в основном, эквивалентно шуму.

ЗДНет: Ранее в этом году мы обсуждали энергетические модели JEPA и H-JEPA. В моем понимании, если я вас правильно понимаю, вы находите точку с низкой энергией, где эти два предсказания вложений X и Y наиболее похожи, а это означает, что если в одном из них есть голубь на дереве, а в другом есть что-то фон сцены, это могут быть не те существенные моменты, которые делают эти вложения близкими друг к другу.

ЮЛ: Верно. Таким образом, архитектура JEPA на самом деле пытается найти компромисс, компромисс между извлечением представлений, которые максимально информативны относительно входных данных, но также предсказуемы друг от друга с некоторым уровнем точности или надежности. Он находит компромисс. Итак, если у него есть выбор: потратить огромное количество ресурсов, включая детали движения листьев, и затем смоделировать динамику, которая определит, как листья будут двигаться через секунду, или просто бросить это на пол через просто запуская переменную Y через предиктор, который устраняет все эти детали, он, вероятно, просто устранит ее, потому что ее слишком сложно смоделировать и зафиксировать.

ЗДНет: Что меня удивило, так это то, что вы были ярым сторонником утверждения: «Это работает, позже мы придумаем теорию термодинамики, чтобы объяснить это». Здесь вы выбрали подход: «Я не знаю, как мы обязательно решим эту проблему, но я хочу выдвинуть некоторые идеи, чтобы подумать об этом», и, возможно, даже приблизились к теории или гипотезе, наименее. Это интересно, потому что есть много людей, тратящих много денег на работу над автомобилем, который может видеть пешехода независимо от того, есть ли у автомобиля здравый смысл. И я предполагаю, что некоторые из этих людей будут не отмечены галочкой, но скажут: «Все в порядке, нас не волнует, если это не имеет здравого смысла, мы построили симуляцию, симуляция потрясающая, и мы будем продолжать совершенствоваться, мы будем продолжать масштабировать симуляцию». 

И поэтому интересно, что теперь вы можете сказать: давайте сделаем шаг назад и подумаем о том, что мы делаем. И индустрия говорит, что мы просто собираемся масштабировать, масштабировать, масштабировать, масштабировать, потому что эта рукоятка действительно работает. Я имею в виду, что полупроводниковая рукоятка графических процессоров действительно работает.

ЮЛ: Там вроде пять вопросов. Итак, я имею в виду, что масштабирование необходимо. Я не критикую тот факт, что мы должны масштабироваться. Мы должны масштабироваться. Эти нейронные сети становятся лучше по мере того, как они становятся больше. Нет сомнений, что мы должны масштабироваться. И те, у кого будет хоть какой-то уровень здравого смысла, будут большими. Я думаю, что нет никакого способа обойти это. Так что масштабирование — это хорошо, оно необходимо, но недостаточно. Вот что я хочу сказать. Это не просто масштабирование. Это первый пункт. 

Во-вторых, стоит ли на первом месте теория и тому подобное. Итак, я думаю, что есть концепции, которые приходят первыми, что вы должны сделать шаг назад и сказать: хорошо, мы построили эту лестницу, но мы хотим отправиться на Луну, и эта лестница никоим образом не приведет нас туда. Итак, в основном, то, что я пишу здесь, это то, что нам нужно строить ракеты. Я не могу рассказать вам подробности того, как мы строим ракеты, но вот основные принципы. И я не пишу для этого теорию или что-то в этом роде, но это будет ракета, хорошо? Или космический лифт, или что-то в этом роде. У нас может не быть всех деталей всех технологий. Мы пытаемся заставить некоторые из этих вещей работать, как я работал над JEPA. Совместное встраивание действительно хорошо работает для распознавания изображений, но его использование для обучения модели мира сопряжено с трудностями. Мы работаем над этим, мы надеемся, что у нас все получится soon, но мы можем столкнуться там с некоторыми препятствиями, которые, возможно, не сможем преодолеть. 

Затем в статье есть ключевая идея о рассуждениях: если мы хотим, чтобы системы могли планировать, что вы можете рассматривать как простую форму рассуждений, они должны иметь скрытые переменные. Другими словами, вещи, которые не вычисляются никакой нейронной сетью, но вещи, которые вычисляются, значение которых выводится таким образом, чтобы минимизировать некоторую целевую функцию, некоторую функцию стоимости. Затем вы можете использовать эту функцию стоимости для управления поведением системы. И это вовсе не новая идея, верно? Это очень классический, оптимальный контроль, основа которого восходит к концу 50-х, началу 60-х годов. Так что на новизну здесь не претендую. Но я хочу сказать, что этот тип логического вывода должен быть частью интеллектуальной системы, способной к планированию, и чье поведение может определяться или контролироваться не запрограммированным поведением, не имитацией, а целевой функцией, которая управляет поведением — не обязательно управляет обучением, но управляет поведением. Вы знаете, это есть в нашем мозгу, и у каждого животного есть внутренняя стоимость или внутренняя мотивация для вещей. Это заставляет девятимесячных детей хотеть вставать. Стоимость того, чтобы быть счастливым, когда вы встаете, этот термин в функции стоимости жестко запрограммирован. А вот как встать не так, вот и учишься.

Янн-Лекун-сентябрь 2022-4

«Масштабирование — это хорошо, это необходимо, но недостаточно», — говорит Лекун о гигантских языковых моделях, таких как программы на основе Transformer разновидности GPT-3. Приверженцы Трансформера верят: «Мы символизируем все и тренируем гигантскихмодели, чтобы делать дискретные прогнозы, и каким-то образом из этого возникнет ИИ… но я думаю, что ему не хватает важных частей».

ЗДНет: Просто чтобы завершить этот момент, большая часть сообщества глубокого обучения, похоже, не возражает против чего-то, что не имеет здравого смысла. Кажется, вы приводите здесь довольно четкий аргумент, что в какой-то момент это становится тупиком. Некоторые люди говорят, что нам не нужен автономный автомобиль со здравым смыслом, потому что масштабирование сделает это. Похоже, вы говорите, что нельзя просто продолжать идти по этому пути?

ЮЛ: Знаете, я думаю, вполне возможно, что у нас будут автономные автомобили пятого уровня без здравого смысла. Но проблема с этим подходом в том, что это будет временным, потому что вам придется изобретать его к чертям собачьим. Итак, вы знаете, нанесите на карту весь мир, зафиксируйте все виды специфического поведения в крайних случаях, соберите достаточно данных, чтобы у вас были все, своего рода, странные ситуации, с которыми вы можете столкнуться на дорогах, бла, бла, бла. И я предполагаю, что с достаточными инвестициями и временем вы можете просто спроектировать это. Но, в конечном счете, будет найдено более удовлетворительное и, возможно, лучшее решение, включающее системы, которые лучше понимают, как устроен мир, и имеют, знаете ли, некоторый уровень того, что мы бы назвали здравым смыслом. Это не обязательно должен быть здравый смысл человеческого уровня, но некий тип знаний, которые система может получить, наблюдая, но не наблюдая за тем, как кто-то едет, просто наблюдая за движущимися объектами и понимая многое о мире, создавая основу фона. знания о том, как устроен мир, поверх которых можно научиться водить. 

Приведу исторический пример. Классическое компьютерное зрение было основано на множестве аппаратно спроектированных модулей, поверх которых у вас был своего рода тонкий слой обучения. Таким образом, материал, который был побежден AlexNet в 2012 году, имел в основном первый этап, своего рода, ручное извлечение признаков, таких как SIFT [масштабно-инвариантное преобразование признаков (SIFT), классическая техника зрения для идентификации выделяющихся объектов на изображении]. и HOG [Гистограмма ориентированных градиентов, еще одна классическая техника] и многое другое. А затем второй уровень функций среднего уровня, основанный на ядрах функций и т. д., и какой-то неконтролируемый метод. А затем поверх этого вы кладете машину опорных векторов или относительно простой классификатор. И это был своего рода стандартный пайплайн с середины 2000-х по 2012 год. И его заменили сквозные сверточные сети, где вы ничего не подключаете, у вас просто много данных, и вы тренируетесь от начала до конца, что является подходом, который я отстаивал в течение долгого времени, но вы знаете, что до этого он не был практичным для больших задач. 

Похожая история была и с распознаванием речи, где, опять же, было огромное количество детальной инженерной мысли о том, как вы предварительно обрабатываете данные, извлекаете массовый кепстр [инверсия быстрого преобразования Фурье для обработки сигналов], а затем у вас есть скрытые марковские модели с предустановленной архитектурой, бла, бла, бла, со смесью гауссианов. Итак, это немного та же архитектура, что и видение, где у вас есть созданный вручную внешний интерфейс, а затем несколько неконтролируемый, обученный средний уровень, а затем контролируемый слой сверху. И теперь это было, по сути, уничтожено сквозными нейронными сетями. Так что я вижу что-то похожее на попытки изучить все, но у вас должен быть правильный априор, правильная архитектура, правильная структура.

Янн-Лекун-сентябрь 2022-5

По его словам, сторонники беспилотных автомобилей, такие стартапы, как Waymo и Wayve, были «слишком оптимистичны», думая, что они могут «подбросить данные, и вы сможете узнать практически обо всем». Самоуправляемые автомобили на уровне 5 ADAS возможны, «но вам придется чертовски их проектировать» и будут «хрупкими», как ранние модели компьютерного зрения.

ЗДНет: Вы хотите сказать, что некоторые люди попытаются спроектировать то, что в настоящее время не работает с глубоким обучением, для применения, скажем, в промышленности, и они начнут создавать что-то, что устарело в компьютерном зрении?

ЮЛ: Верно. И отчасти поэтому люди, работающие над автономным вождением, были слишком оптимистичны в последние несколько лет, потому что, вы знаете, у вас есть такие общие вещи, как сверточные сети и трансформаторы, которые вы можете обработать данными. , и он может узнать практически все. Итак, вы говорите: «Хорошо, у меня есть решение этой проблемы». Первое, что вы делаете, это создаете демонстрацию, в которой машина едет сама в течение нескольких минут, никому не причиняя вреда. А потом вы понимаете, что есть много крайних случаев, и вы пытаетесь построить кривую того, насколько лучше я становлюсь, когда удваиваю тренировочный набор, и вы понимаете, что никогда не доберетесь до этого, потому что есть множество крайних случаев. . И вам нужна машина, которая будет вызывать аварии со смертельным исходом реже, чем каждые 200 миллионов километров, верно? Ну так что ты делаешь? Ну, вы идете в двух направлениях. 

Первое направление: как я могу уменьшить количество данных, необходимых моей системе для обучения? И вот тут-то и вступает в игру самоконтролируемое обучение. Таким образом, многие производители беспилотных автомобилей очень заинтересованы в самоконтролируемом обучении, потому что это способ по-прежнему использовать гигантские объемы контролируемых данных для имитации обучения, но получать более высокую производительность за счет Предварительная подготовка, по сути. И это еще не совсем реализовано, но будет. И еще есть другой вариант, который приняли большинство более продвинутых на данный момент компаний, а именно: хорошо, мы можем провести сквозное обучение, но есть много крайних случаев, которые мы можем». t, поэтому мы собираемся просто спроектировать системы, которые позаботятся об этих крайних случаях, и, по сути, обработают их как особые случаи, и запрограммируют управление, а затем запрограммируют множество базовых действий для обработки особых ситуаций. И если у вас есть достаточно большая команда инженеров, у вас может это получиться. Но это займет много времени, и, в конце концов, он все еще будет немного хрупким, может быть, достаточно надежным, чтобы его можно было развернуть, но с некоторым уровнем хрупкости, который с более основанным на обучении подходом, который может появиться в будущего у автомобилей не будет, потому что у них может быть некоторый уровень здравого смысла и понимания того, как устроен мир. 

В краткосрочной перспективе победит своего рода инженерный подход — он уже выигрывает. Это Waymo и Cruise мира и Wayveи что угодно, это то, что они делают. Кроме того, есть подход к обучению с самоконтролем, который, вероятно, поможет инженерному подходу добиться прогресса. Но затем, в долгосрочной перспективе, которая может быть слишком долгой для этих компаний, вероятно, будет более интегрированная автономная интеллектуальная система вождения.

ЗДНет: Мы говорим за пределами инвестиционного горизонта большинства инвесторов.

ЮЛ: Вот так. Итак, вопрос в том, потеряют ли люди терпение или закончатся деньги, прежде чем производительность достигнет желаемого уровня.

ЗДНет: Есть ли что-нибудь интересное, что можно сказать о том, почему вы выбрали некоторые из выбранных вами элементов в модели? Поскольку вы цитируете Кеннета Крейка [1943,Природа объяснения], а вы цитируете Брайсона и Хо [1969, Прикладной оптимальный контроль], и мне любопытно, почему вы начали с этих влияний, если вы особенно верили, что эти люди добились успеха в том, что они сделали. Почему вы начали там?

ЮЛ: Ну, я не думаю, конечно, что у них были прибиты все детали. Итак, Брайсон и Хо, эту книгу я прочитал в 1987 году, когда работал постдоком у Джеффри Хинтона в Торонто. Но я знал об этом направлении работы заранее, когда писал диссертацию, и, по сути, установил связь между оптимальным управлением и обратным распространением. Если бы вы действительно хотели быть, знаете ли, другим Шмидхубером, вы бы сказали, что настоящими изобретателями обратного движения были теоретики оптимального управления Генри Дж. Келли, Артур Брайсон и, возможно, даже Лев Понтрягин, российский теоретик оптимального управления задним ходом. в конце 50-х. 

Итак, они поняли это, и на самом деле вы можете видеть, что корень этого, математика, лежащая в основе этого, — это лагранжева механика. Таким образом, вы можете вернуться к Эйлеру и Лагранжу и найти что-то подобное в их определении лагранжевой классической механики. Итак, в контексте оптимального управления эти ребята интересовались в основном вычислением траекторий ракет. Вы знаете, это была ранняя космическая эра. А если у вас есть модель ракеты, то она подскажет вам вот какое состояние ракеты в данный момент t, а вот действие я собираюсь предпринять, так вот, тяги и исполнительные механизмы разного рода, вот состояние ракеты в момент времени т + 1.

ЗДНет: Модель состояния-действия, модель ценности.

ЮЛ: Правильно, основа контроля. Итак, теперь вы можете имитировать запуск своей ракеты, представляя себе последовательность команд, и тогда у вас есть некоторая функция стоимости, которая представляет собой расстояние ракеты до цели, космической станции или чего-то еще. А потом каким-то градиентным спуском можно придумать, как мне обновить свою последовательность действий, чтобы моя ракета действительно подошла как можно ближе к цели. И это должно происходить за счет обратного распространения сигналов назад во времени. И это обратное распространение, градиентное обратное распространение. Эти сигналы называются сопряженными переменными в лагранжевой механике, но на самом деле это градиенты. Итак, они изобрели обратное распространение, но не понимали, что этот принцип можно использовать для обучения многоступенчатой ​​системы, которая может распознавать образы или что-то в этом роде. На самом деле это не было реализовано, возможно, до конца 70-х, начала 80-х, а затем фактически не было реализовано и не работало до середины 80-х. Итак, вот где backprop действительно как бы взлетел, потому что люди показали здесь несколько строк кода, которые вы можете обучить нейронную сеть, от начала до конца, многослойно. И это снимает ограничения персептрона. И да, есть соединения с оптимальным контролем, но это нормально.

ЗДНет: Итак, это слишком длинный способ сказать, что те влияния, с которых вы начали, возвращались к обратному распространению, и это было важно в качестве отправной точки для вас?

ЮЛ: Да, но я думаю, что люди немного забыли об этом, в 90-х или даже 80-х годах над этим было проделано довольно много работы, в том числе такими людьми, как Майкл Джордан [MIT Dept. of Brain и Cognitive Sciences] и тому подобные люди, которые больше не занимаются нейросетями, а идею о том, что можно использовать нейросети для управления, а можно использовать классические идеи оптимального управления. Итак, такие вещи, как то, что называется управлением с прогнозированием модели, то, что сейчас называется управлением с прогнозированием модели, эта идея, что вы можете смоделировать или представить результат последовательности действий, если у вас есть хорошая модель системы, которую вы пытаетесь контролировать. и среда, в которой он находится. А затем с помощью градиентного спуска, по сути — это не обучение, это вывод — вы можете выяснить, какая последовательность действий лучше всего минимизирует мою цель. Итак, я думаю, что использование функции стоимости со скрытой переменной для логического вывода — это то, о чем сегодняшние урожаи крупномасштабных нейронных сетей забыли. Но долгое время это был очень классический компонент машинного обучения. Таким образом, каждая байесовская сеть или графическая модель или вероятностная графическая модель использовали этот тип вывода. У вас есть модель, которая фиксирует зависимости между набором переменных, вам сообщается значение некоторых переменных, а затем вы должны сделать вывод о наиболее вероятном значении остальных переменных. Это основной принцип логического вывода в графических моделях, байесовских сетях и тому подобном. И я думаю, что это в основном то, чем должны быть рассуждения, рассуждения и планирование.

ЗДНет: Вы тайный байесианец.

ЮЛ: Я невероятностный байесовец. Я пошутил раньше. На самом деле я был в NeurIPS несколько лет назад, я думаю, это было в 2018 или 2019 году, и меня заснял на видео байесовец, который спросил меня, байесианец ли я, и я сказал: «Да, я байесианец, но я Я невероятностный байесианец, своего рода байесианец, основанный на энергии, если хотите. 

ЗДНет: Что определенно звучит как что-то из Star Trek. Вы упомянули в конце этой статьи, что потребуются годы действительно тяжелой работы, чтобы реализовать то, что вы себе представляете. Расскажите мне о том, из чего состоит часть этой работы на данный момент.

ЮЛ: Итак, я объясняю, как вы тренируетесь и строите JEPA в статье. И критерий, за который я выступаю, состоит в том, чтобы каким-то образом максимизировать информационное содержание извлеченных представлений о входных данных. И второй — минимизация ошибки предсказания. И если у вас есть скрытая переменная в предсказателе, которая позволяет предсказателю быть недетерминированным, вы должны упорядочить и эту скрытую переменную, минимизировав ее информационное содержание. Итак, теперь у вас есть две проблемы: как максимизировать информативность вывода некоторой нейронной сети, а вторая — как минимизировать информативность некоторой скрытой переменной? И если вы не сделаете эти две вещи, система рухнет. Ничего интересного он не узнает. Это даст нулевую энергию всему, что-то в этом роде, что не является хорошей моделью зависимости. Я упоминаю проблему предотвращения коллапса. 

И я говорю, что из всего, что когда-либо делали люди, есть только две категории методов предотвращения коллапса. Один из них — контрастные методы, а другой — регуляризованные методы. Итак, эта идея максимизации информативности представлений двух входов и минимизации информативности скрытой переменной принадлежит регуляризованным методам. Но большая часть работы в этих совместных архитектурах встраивания использует контрастные методы. На самом деле, они, вероятно, самые популярные на данный момент. Итак, вопрос заключается в том, как именно вы измеряете информационный контент таким образом, чтобы его можно было оптимизировать или свести к минимуму? И здесь все усложняется, потому что мы на самом деле не знаем, как измерить содержание информации. Мы можем аппроксимировать его, мы можем ограничить его сверху, мы можем делать подобные вещи. Но на самом деле они не измеряют информационное содержание, которое, на самом деле, в какой-то степени даже не определено.

ЗДНет: Это не закон Шеннона? Это не теория информации? У вас есть определенное количество энтропии, хорошая энтропия и плохая энтропия, и хорошая энтропия — это работающая система символов, плохая энтропия — это шум. Разве это не все решает Шеннон?

ЮЛ: Вы правы, но за этим скрывается серьезный недостаток. Вы правы в том смысле, что если к вам приходят данные, и вы можете каким-то образом квантовать данные в дискретные символы, а затем измеряете вероятность каждого из этих символов, то максимальное количество информации, которую несут эти символы, равно сумма по возможным символам Пи войти Пи, Правильно? Где Pi вероятность символа я — это энтропия Шеннона. [Закон Шеннона обычно формулируется как H = – ∑ pi log pi.]

Но вот проблема: что такое Pi? Это легко, когда количество символов невелико и символы рисуются независимо друг от друга. Когда много символов и зависимостей, это очень тяжело. Итак, если у вас есть последовательность битов, и вы предполагаете, что биты независимы друг от друга, а вероятность равна между единицей и нулем или чем-то еще, то вы можете легко измерить энтропию, без проблем. Но если вещи, которые приходят к вам, представляют собой многомерные векторы, такие как фреймы данных или что-то в этом роде, что Pi? Что такое распределение? Сначала вы должны квантовать это пространство, которое является многомерным, непрерывным пространством. Вы понятия не имеете, как правильно квантовать это. Вы можете использовать k-means и т. д. Это то, что люди делают, когда сжимают видео и изображения. Но это только приближение. И тогда вы должны сделать предположения о независимости. Итак, ясно, что в видео последовательные кадры не являются независимыми. Есть зависимости, и этот кадр может зависеть от другого кадра, который вы видели час назад и который был изображением того же самого. Итак, вы знаете, вы не можете измерить Pi. Измерять Pi, у вас должна быть система машинного обучения, которая учится предсказывать. И вот вы вернулись к предыдущей проблеме. Таким образом, вы можете только приблизить меру информации, по существу. 

Янн-Лекун-сентябрь 2022-6

«Вопрос заключается в том, как именно вы измеряете информационный контент таким образом, чтобы его можно было оптимизировать или минимизировать?» говорит Лекун. «И здесь все усложняется, потому что мы на самом деле не знаем, как измерять информационный контент». Лучшее, что можно сделать на данный момент, это найти прокси, который «достаточно хорош для той задачи, которую мы хотим».

Приведу более конкретный пример. Один из алгоритмов, с которым мы играли и о котором я говорил в статье, называется VICReg, регуляризация дисперсии-инвариантности-ковариации. Это отдельная статья, опубликованная в ICLR, и это было размещено на arXiv примерно за год до 2021 года. И идея там в том, чтобы максимизировать информацию. Идея на самом деле возникла из более ранней статьи моей группы под названием Близнецы Барлоу. Вы максимизируете информационное содержание вектора, выходящего из нейронной сети, по сути, предполагая, что единственная зависимость между переменными — это корреляция, линейная зависимость. Итак, если вы предполагаете, что единственная возможная зависимость между парами переменных или между переменными в вашей системе — это корреляции между парами ценностей, что является чрезвычайно грубым приближением, то вы можете максимизировать информационный контент, выходящий из вашей системы. убедившись, что все переменные имеют ненулевую дисперсию — скажем, дисперсию один, неважно, какая она — и затем обратная корреляция их, тот же процесс, который называется отбеливанием, это тоже не ново. Проблема в том, что у вас вполне могут быть чрезвычайно сложные зависимости между группами переменных или даже просто парами переменных, которые не являются линейными зависимостями, и они не проявляются в корреляциях. Итак, например, если у вас есть две переменные, и все точки этих двух переменных выстраиваются в какую-то спираль, между этими двумя переменными существует очень сильная зависимость, верно? Но на самом деле, если вычислить корреляцию между этими двумя переменными, они не коррелированы. Итак, вот пример, когда информационное содержание этих двух переменных на самом деле очень мало, это только одна величина, потому что это ваше положение в спирали. Они декоррелированы, поэтому вы думаете, что у вас есть много информации, выходящей из этих двух переменных, когда на самом деле это не так, у вас есть только, знаете ли, вы можете предсказать одну из переменных по другой, по сути. Итак, это показывает, что у нас есть только очень приблизительные способы измерения содержания информации.

ЗДНет: И это одна из вещей, над которой вам нужно работать сейчас с этим? Это более важный вопрос: как мы узнаем, когда мы максимизируем и минимизируем информационный контент?

ЮЛ:  Или достаточно ли хорош прокси, который мы для этого используем, для задачи, которую мы хотим. Фактически, мы делаем это все время в машинном обучении. Функции стоимости, которые мы минимизируем, никогда не будут теми, которые мы действительно хотим минимизировать. Так, например, вы хотите сделать классификацию, хорошо? Функция стоимости, которую вы хотите минимизировать при обучении классификатора, — это количество ошибок, которые делает классификатор. Но это недифференцируемая, ужасная функция стоимости, которую вы не можете минимизировать, потому что вы знаете, что собираетесь изменить веса вашей нейронной сети, ничего не изменится, пока один из этих образцов не изменит свое решение, а затем скачок в ошибке, положительной или отрицательной.

ЗДНет: Итак, у вас есть прокси, который является целевой функцией, и вы можете определенно сказать, что мы можем определенно передавать градиенты этой вещи.

ЮЛ: Вот так. Итак, люди используют эту кросс-энтропийную потерю, или SOFTMAX, у вас есть несколько названий для этого, но это одно и то же. И это в основном плавная аппроксимация количества ошибок, которые делает система, где сглаживание выполняется, в основном, с учетом оценки, которую система дает каждой из категорий.

ЗДНет: Есть ли что-то, что мы не рассмотрели, что вы хотели бы рассказать?

ЮЛ: Наверное, акцентирует внимание на главном. Я думаю, что системы ИИ должны уметь рассуждать, и процесс, который я отстаиваю, заключается в минимизации некоторой цели по отношению к какой-то скрытой переменной. Это позволяет системам планировать и рассуждать. Я думаю, что мы должны отказаться от вероятностной структуры, потому что она неуправляема, когда мы хотим делать такие вещи, как захват зависимостей между многомерными непрерывными переменными. И я выступаю за отказ от генеративных моделей, потому что системе придется выделять слишком много ресурсов на предсказание вещей, которые слишком сложно предсказать и которые, возможно, потребляют слишком много ресурсов. И это почти все. Это основные сообщения, если хотите. А потом общая архитектура. Затем идут спекуляции о природе сознания и роли конфигуратора, но на самом деле это спекуляции.

ЗДНет: Мы вернемся к этому в следующий раз. Я собирался спросить вас, как вы оцениваете эту вещь? Но я предполагаю, что вы немного дальше от бенчмаркинга прямо сейчас?

ЮЛ: Не обязательно так далеко в своего рода упрощенных версиях. Вы можете делать то, что делают все при обучении под контролем или обучении с подкреплением, то есть вы тренируете эту вещь играть в игры Atari или что-то в этом роде, или какую-то другую игру, в которой есть некоторая неопределенность.

ЗДНет: Спасибо за ваше время, Янн.

Источник