«data2vec» от Meta — это следующий шаг к одной нейронной сети, чтобы управлять ими всеми

Идет гонка за создание одной нейронной сети, которая может обрабатывать несколько видов данных, понятие более общего искусственного интеллекта, который не различает типы данных, а вместо этого может обрабатывать их все в рамках одной базовой структуры.

Жанр мультимодальности, как называют эти нейронные сети, представляет собой поток активности, при котором различные данные, такие как изображение, текст и звуковая речь, передаются через один и тот же алгоритм для получения оценки в различных тестах, таких как распознавание изображений, понимание естественного языка или распознавание речи.

И эти амбидекстральные сети набирают баллы в эталонных тестах ИИ. Последним достижением является то, что называется «data2vec», разработанное исследователями из подразделения искусственного интеллекта компании Meta, родителя Facebook, Instagram и WhatsApp. 

Суть, как пишут ученые Меты, Алексей Баевский, Вей-Нинг Сюй, Цяньтун Сюй, Арун Бабу, Цзятао Гу и Майкл Аули, состоит в том, чтобы приблизиться к чему-то более похожему на общую способность к обучению, которую, кажется, охватывает человеческий разум.

«В то время как люди, похоже, учатся одинаково независимо от того, как они получают информацию — например, используют ли они зрение или слух», — пишут авторы. в блоге, «в настоящее время существуют большие различия в том, как» нейронные сети обрабатывают различные типы данных, такие как изображения, речь, текст, «и другие модальности».

«Основная идея этого подхода, — заявляют они о data2vec, — состоит в том, чтобы учиться в более общем плане: ИИ должен быть в состоянии научиться выполнять множество различных задач, в том числе совершенно незнакомых».

Генеральный директор Meta Марк Цукерберг предложил цитату о работе, связав ее с будущей Метавселенной:

Захватывающий прорыв: исследование мета-ИИ создало систему, которая учится на речи, зрении и тексте, не нуждаясь в помеченных обучающих данных. Люди познают мир с помощью комбинации зрения, звука и слов, и подобные системы однажды смогут понять мир так, как это делаем мы. Все это в конечном итоге будет встроено в очки дополненной реальности с помощником ИИ, поэтому, например, это может помочь вам приготовить ужин, заметив, если вы пропустите ингредиент, предложит вам выключить огонь или выполнить более сложные задачи.

Название data2vec — это игра названия программы для «встраивания» языка. разработан в Google в 2013 году под названием «word2vec». Эта программа предсказала, как слова группируются вместе, и поэтому word2vec представляет собой нейронную сеть, предназначенную для определенного типа данных, в данном случае текста. 

А также: Пожалуйста, откройте двери отсека для капсул, HAL: ИИ Меты имитирует чтение по губам

Однако в случае с data2vec Баевски и его коллеги используют стандартную версию так называемого Transformer, разработанную Ашишем Васвани и его коллегами. в Google в 2017 году и расширение его для использования с несколькими типами данных. 

Нейронная сеть Transformer изначально была разработана для языковых задач, но с тех пор она была широко адаптирована для многих видов данных. Баевский и др. показать, что Transformer можно использовать для обработки нескольких типов данных без каких-либо изменений, а обученная нейронная сеть, полученная в результате, может выполнять несколько различных задач. 

В официальном документе «data2vec: общая схема самоконтролируемого обучения речи, зрению и языку», Baevski et al., обучают Transformer для данных изображения, речевых звуковых сигналов и представлений текстового языка. 

Data2vec — это «первый высокопроизводительный алгоритм с самоконтролем, который работает с несколькими модальностями, а именно с речью, зрением и текстом», — пишут Баевски и команда в своем блоге.

Очень общий Transformer становится тем, что называется предварительным обучением, которое затем можно применять к конкретным нейронным сетям для выполнения конкретных задач. Например, авторы используют data2vec в качестве предварительного обучения для оснащения так называемого «ViT», «преобразователя зрения», нейронной сети, специально разработанной для задач, связанных со зрением. был представлен в прошлом году Алексей Досовицкий и его коллеги из Google. 

мета-2022-data2vec-scores-on-vit-test.jpg

Meta показывает высшие баллы в уважаемом соревновании по распознаванию изображений ImageNet.


Мета 2022

При использовании на ViT для решения стандартного теста ImageNet на распознавание изображений их результаты оказались в верхней части пакета с точностью 84.1%, что лучше, чем результат 83.2%, полученный командой Microsoft, которая прошла предварительное обучение. ViT под руководством Хангбо Бао, в прошлом году.

И тот же data2vec Transformer выдает результаты, которые являются современными для распознавания речи и конкурентоспособными, если не лучшими, для изучения естественного языка:

Экспериментальные результаты показывают, что data2vec эффективен во всех трех модальностях, устанавливая новый уровень техники для ViT-B и ViT-L в ImageNet-1K, улучшая лучшую предыдущую работу в области обработки речи при распознавании речи и работая наравне с RoBERTa. на тесте понимания естественного языка GLUE. 

Суть в том, что это происходит без какой-либо модификации нейронной сети для изображений, а также для речи и текста. Вместо этого каждый тип ввода входит в одну и ту же сеть и выполняет одну и ту же очень общую задачу. Это та же задача, которую всегда используют сети Transformer, известная как «маскированное предсказание». 

А также: Супермодель Google: DeepMind Perceiver — это шаг на пути к машине с искусственным интеллектом, которая могла бы обрабатывать что угодно и что угодно

Однако способ, которым data2vec выполняет маскированное предсказание, известен как «обучение с самоконтролем». В условиях самоконтроля нейронная сеть обучается или развивается, проходя несколько этапов. 

Во-первых, сеть строит представление совместной вероятности ввода данных, будь то изображения, речь или текст. Затем во второй версии сети некоторые из этих элементов входных данных «замаскированы», оставлены нераскрытыми. Он должен реконструировать совместную вероятность, которую построила первая версия сети, что заставляет его создавать все более и более лучшие представления данных, по существу заполняя пробелы. 

мета-2022-data2vec-сетевая-архитектура.jpg

Обзор подхода data2vec.


Мета 2022

Две сети, одна с полной моделью совместной вероятности, а другая с неполной версией, которую она пытается завершить, достаточно разумно называются «Учитель» и «Ученик». Студенческая сеть пытается развить свое понимание данных, если хотите, реконструируя то, чего уже достиг Учитель.

Вы можете см. код моделей на Github.

Как нейронная сеть работает с учителями и учениками для трех очень разных типов данных? Суть в том, что «целью» совместной вероятности во всех трех случаях данных не является конкретный тип выходных данных, как это имеет место в версиях Transformer для определенного типа данных, таких как BERT от Google или GPT-3 от OpenAI. . 

Скорее, data2vec захватывает несколько слоев нейронной сети, которые внутри нейронная сеть, где-то посередине, которая представляет данные до того, как они будут созданы в качестве конечного вывода. 

Как пишут авторы: «Одним из основных отличий нашего метода [...] помимо выполнения маскированного предсказания, является использование целей, которые основаны на усреднении нескольких слоев из сети учителей». В частности, «мы регрессируем несколько представлений слоя нейронной сети, а не только верхний слой», так что «data2vec предсказывает скрытые представления входных данных».

Они добавляют: «Обычно мы используем выходные данные FFN [сеть с прямой связью] до последнего остаточного соединения в каждом блоке в качестве цели», где «блок» — это преобразователь, эквивалентный уровню нейронной сети.

Дело в том, что каждый входящий тип данных становится для сети Ученика одной и той же задачей реконструкции чего-то внутри нейронной сети, составленной Учителем.

Это усреднение отличается от других недавних подходов к построению одной сети для обработки всех данных. Например, прошлым летом подразделение Google DeepMind предложило то, что оно называет «Perceiver», свою собственную мультимодальную версию Transformer. Обучение нейронной сети Perceiver — это более стандартный процесс получения вывода, который является ответом на помеченную контролируемую задачу, такую ​​как ImageNet. В самоконтролируемом подходе data2vec не использует эти метки, он просто пытается реконструировать внутреннее представление данных в сети. 

Впереди еще более амбициозные проекты. Джефф Дин, руководитель отдела искусственного интеллекта Google, в октябре дразнил «Пути», которые, по словам Дина, являются «архитектура искусственного интеллекта следующего поколения” для мультимодальной обработки данных.

Имейте в виду, что очень общий подход data2vec к одной нейронной сети для нескольких модальностей по-прежнему содержит много информации о различных типах данных. Изображение, речь и текст подготавливаются путем предварительной обработки данных. Таким образом, мультимодальный аспект сети по-прежнему зависит от подсказок о данных, которые команда называет «маленькими кодировщиками ввода, специфичными для модальности».

А также: Google представляет Pathways, искусственный интеллект следующего поколения, который можно обучить многозадачности

«Несмотря на унифицированный режим обучения, мы по-прежнему используем экстракторы признаков и стратегии маскирования для конкретных модальностей», — объясняют они.

Следовательно, мы еще не находимся в мире, где нейронная сеть обучается без какого-либо понимания типов входных данных. Мы также не находимся в том моменте времени, когда нейронная сеть может построить одно представление, объединяющее все различные типы данных, так что нейронная сеть изучает вещи в комбинации.

Этот факт становится очевидным из обмена между ZDNet и авторы. ZDNet обратился к Баевски и команде и спросил: «Являются ли скрытые репрезентации, которые служат целями, комбинированным кодированием всех трех модальностей на любом заданном временном шаге, или обычно это просто одна из модальностей?»

Баевски и команда отвечают, что это последний случай, и их reply интересно процитировать подробно:

Скрытые переменные не являются комбинированным кодированием трех модальностей. Мы обучаем отдельные модели для каждой модальности, но процесс обучения моделей идентичен. Это главное новшество нашего проекта, так как раньше существовали большие различия в том, как модели обучаются в разных модальностях. Нейробиологи также считают, что люди одинаково узнают о звуках и визуальном мире. Наш проект показывает, что обучение с самоконтролем также может работать одинаково для разных модальностей.

Учитывая ограничения data2vec, связанные с модальностью, нейронная сеть, которая действительно может быть Одна сеть, чтобы управлять ими всеми остается технологией будущего.

Источник