«Гато» DeepMind посредственный, так зачем же они его построили?

Deepmind-gato-slash-image-closer-in.png

Нейронная сеть DeepMind «Gato» превосходно справляется с многочисленными задачами, включая управление роботами-манипуляторами, складывающими блоки, играя в игры Atari 2600 и подписывая изображения.


DeepMind

Мир привык видеть заголовки о последнем прорыве форм искусственного интеллекта с глубоким обучением. Однако последнее достижение подразделения DeepMind компании Google можно резюмировать так: «Одна программа искусственного интеллекта, которая во многом справляется так себе». 

Гато, как называется программа DeepMind, был представлен на этой неделе как так называемая мультимодальная программа, которая может играть в видеоигры, общаться в чате, писать композиции, подписывать изображения и управлять роботизированной рукой, укладывающей блоки. Это одна нейронная сеть, которая может работать с несколькими типами данных для выполнения нескольких видов задач. 

«С одним набором гирь Гато может участвовать в диалогах, подписывать изображения, складывать блоки с помощью настоящей руки робота, превосходить людей в играх Atari, перемещаться в смоделированных трехмерных средах, следовать инструкциям и т. д.», — пишет ведущий автор Скотт Рид. и коллеги в своей статье «Универсальный агент». размещен на сервере препринтов Arxiv

Соучредитель DeepMind Демис Хассабис поддержал команду, восклицание в твиттере, «Наш самый главный агент!! Фантастическая работа команды!» 

А также: Новый эксперимент: действительно ли ИИ знает кошек или собак — или что-то в этом роде?

Единственная загвоздка в том, что Гато на самом деле не так хорош в некоторых задачах. 

С одной стороны, программа может лучше, чем специализированная программа машинного обучения, управлять роботизированной рукой Sawyer, которая складывает блоки. С другой стороны, он создает подписи к изображениям, которые во многих случаях довольно плохие. Его способность к стандартному диалогу в чате с собеседником-человеком также посредственна, иногда вызывая противоречивые и бессмысленные высказывания. 

И его игра в видеоигры Atari 2600 ниже, чем у большинства специализированных программ машинного обучения, разработанных для конкуренции в тесте. Аркадная обучающая среда

Зачем вам делать программу, которая делает некоторые вещи очень хорошо, а кучу других не так хорошо? Прецедент и ожидание, по мнению авторов. 

Есть прецедент того, что более общие виды программ становятся современными в области ИИ, и есть надежда, что увеличение вычислительной мощности в будущем компенсирует недостатки. 

Универсальность может иметь тенденцию к торжеству в ИИ. Как отмечают авторы, цитируя ученого в области искусственного интеллекта Ричарда Саттона: «Исторически сложилось так, что общие модели, которые лучше используют вычисления, также имели тенденцию в конечном итоге вытеснять более специализированные предметно-ориентированные подходы».

Как писал Саттон в своем блоге, «Самый большой урок, который можно извлечь из 70 лет исследований ИИ, заключается в том, что общие методы, использующие вычисления, в конечном итоге являются наиболее эффективными и с большим отрывом».

Оформив формальный тезис, Рид и его команда пишут, что «здесь мы проверяем гипотезу о том, что возможно обучение агента, который в целом способен выполнять большое количество задач; и что этот общий агент может быть адаптирован с небольшими дополнительными данными для успешного выполнения еще большего количества задач».

А также: ИИ-светильник Meta Лекун исследует энергетический рубеж глубокого обучения

Модель в данном случае действительно очень общая. Это версия Трансформера, доминирующего типа модели, основанной на внимании, которая стала основой многих программ, включая GPT-3. Преобразователь моделирует вероятность некоторого элемента с учетом окружающих его элементов, таких как слова в предложении. 

В случае с Gato ученые DeepMind могут использовать один и тот же поиск условной вероятности для множества типов данных. 

Как Рид и его коллеги описывают задачу обучения Гато: 

На этапе обучения Gato данные из разных задач и модальностей сериализуются в плоскую последовательность токенов, группируются и обрабатываются нейронной сетью-преобразователем, аналогичной большой языковой модели. Потеря маскируется, поэтому Гато предсказывает только действия и текстовые цели.

Другими словами, Gato не относится к токенам по-разному, независимо от того, являются ли они словами в чате или векторами движения в упражнении по укладке блоков. Все то же самое. 

Deepmind-как-gato-is-trained.png

Сценарий тренировки Гато.


Рид и др. 2022

В гипотезе Рида и его команды скрыто следствие, а именно то, что в конечном итоге победит все больше и больше вычислительной мощности. Прямо сейчас Гато ограничен временем отклика робота-манипулятора Sawyer, который укладывает блоки. Имея 1.18 миллиарда сетевых параметров, Gato значительно меньше очень крупных моделей ИИ, таких как GPT-3. По мере того, как модели глубокого обучения становятся больше, выполнение логических выводов приводит к задержке, которая может привести к сбою в недетерминированном мире реального робота. 

Но Рид и его коллеги ожидают, что этот предел будет превышен, поскольку аппаратное обеспечение ИИ станет быстрее обрабатывать данные.

«Мы фокусируем наше обучение на рабочей точке масштаба модели, которая позволяет в реальном времени управлять реальными роботами, в настоящее время около 1.2 миллиарда параметров в случае Gato», — написали они. «По мере совершенствования аппаратного обеспечения и архитектуры моделей эта рабочая точка естественным образом будет увеличивать возможный размер модели, подталкивая универсальные модели выше по кривой закона масштабирования».

Следовательно, Gato действительно является моделью того, как масштаб вычислений будет оставаться основным вектором развития машинного обучения, делая общие модели все больше и больше. Другими словами, чем больше, тем лучше. 

Deepmind становится лучше с масштабом.png

Gato становится лучше по мере увеличения размера нейросети в параметрах.


Рид и др. 2022

И у авторов есть некоторые подтверждения этому. Гато, кажется, становится лучше, когда он становится больше. Они сравнивают усредненные баллы по всем тестовым задачам для трех размеров модели по параметрам: 79 миллионов, 364 миллиона и основной модели, 1.18 миллиарда. «Мы видим, что для эквивалентного количества токенов наблюдается значительное улучшение производительности с увеличением масштаба», — пишут авторы. 

Интересный вопрос будущего заключается в том, является ли универсальная программа более опасной, чем другие виды программ ИИ. Авторы тратят кучу времени в статье на обсуждение того факта, что существуют потенциальные опасности, которые еще недостаточно изучены.  

Идея программы, которая обрабатывает несколько задач, предполагает для неспециалиста своего рода человеческую приспособляемость, но это может быть опасным заблуждением. «Например, физическое воплощение может привести к тому, что пользователи антропоморфизируют агента, что приведет к неуместному доверию в случае неисправной системы или может быть использовано злоумышленниками», — пишут Рид и его команда. 

«Кроме того, хотя междисциплинарная передача знаний часто является целью исследований машинного обучения, она может привести к неожиданным и нежелательным результатам, если определенные действия (например, боевые действия в аркадных играх) переносятся в неправильный контекст».

Следовательно, они пишут: «Соображения этики и безопасности при передаче знаний могут потребовать новых существенных исследований по мере развития универсальных систем».

(Интересно, что в статье Гато используется схема описания рисков, разработанная бывшим исследователем искусственного интеллекта Google Маргарет Мичелл и ее коллегами, которая называется карточками моделей. Карточки моделей дают краткий обзор того, что представляет собой программа ИИ, что она делает и что факторы влияют на то, как он работает.В прошлом году Мичелл написала, что ее выгнали из Google за поддержку ее бывшего коллеги Тимнита Гебру, чьи этические опасения по поводу ИИ противоречат лидерству Google в области ИИ.)

Гато отнюдь не уникален в своей обобщающей тенденции. Это часть широкой тенденции к обобщению и более крупным моделям, использующим ведра лошадиных сил. Мир впервые почувствовал наклон Google в этом направлении прошлым летом с помощью нейронной сети Google «Perceiver», которая объединила задачи преобразования текста с изображениями, звуком и пространственными координатами LiDAR.

А также: Супермодель Google: DeepMind Perceiver — это шаг на пути к машине с искусственным интеллектом, которая могла бы обрабатывать что угодно и что угодно

Среди аналогов — PaLM, языковая модель Pathways, представили в этом году ученые Google, модель с 540 миллиардами параметров, в которой используется новая технология координации тысяч микросхем. известный как Пути, также изобретенный в Google. Нейронная сеть, выпущенная в январе компанией Meta под названием «data2vec», использует Transformers для данных изображений, речевых звуковых сигналов и представлений текстового языка — все в одном. 

Казалось бы, что нового в Gato, так это намерение взять ИИ, используемый для задач, не связанных с робототехникой, и подтолкнуть его к сфере робототехники.

Создатели Гато, отмечая достижения Pathways и других универсальных подходов, видят высшее достижение в ИИ, способном работать в реальном мире с любыми задачами. 

«В будущей работе следует рассмотреть вопрос о том, как объединить эти текстовые возможности в один полностью универсальный агент, который также может действовать в реальном времени в реальном мире, в различных средах и вариантах». 

Таким образом, вы могли бы рассматривать Gato как важный шаг на пути к решению самой сложной проблемы ИИ — робототехнике. 



Источник