«data2vec» Meta — це наступний крок до створення однієї нейронної мережі, яка керуватиме всіма

Гонка триває, щоб створити одну нейронну мережу, яка може обробляти кілька видів даних, поняття більш загального штучного інтелекту, який не розрізняє типи даних, а натомість може обробляти їх усі в одній базовій структурі.

У жанрі мультимодальності, як називають ці нейронні мережі, спостерігається шквал активності, під час якої різні дані, такі як зображення, текст і звук мовлення, пропускаються через той самий алгоритм, щоб отримати оцінку в різних тестах, наприклад розпізнавання зображень, розуміння природної мови або розпізнавання мовлення.

І ці амбідекстричні мережі набирають бали на контрольних тестах ШІ. Останнім досягненням є те, що називається «data2vec», розроблене дослідниками з відділу штучного інтелекту Meta, батьківщини Facebook, Instagram і WhatsApp. 

Суть, як пишуть вчені Мета, Олексій Баєвський, Вей-Нін Сю, Цяньтун Сюй, Арун Бабу, Цзятао Гу та Майкл Аулі, полягає в тому, щоб підійти до чогось більше схожого на загальну здатність до навчання, яку, здається, охоплює людський розум.

«Хоча здається, що люди навчаються подібним чином, незалежно від того, як вони отримують інформацію — наприклад, використовують зір чи звук», — пишуть автори. у своєму блозі, «наразі існують великі відмінності в тому, як» нейронні мережі обробляють різні типи даних, такі як зображення, мова, текст «та інші способи».

«Основна ідея цього підходу, — заявляють вони з data2vec, — полягає в тому, щоб навчитися загальніше: ШІ повинен мати можливість навчитися виконувати багато різних завдань, у тому числі й зовсім незнайомих».

Генеральний директор Meta Марк Цукерберг запропонував цитату про роботу, пов’язуючи її з майбутнім Metaverse:

Захоплюючий прорив: дослідження Meta AI побудували систему, яка навчається з мови, зору та тексту, не потребуючи позначених навчальних даних. Люди відчувають світ за допомогою поєднання зору, звуку та слів, і подібні системи одного дня зможуть зрозуміти світ так, як ми. Все це в кінцевому підсумку буде вбудовано в окуляри AR з помічником AI, щоб, наприклад, він міг допомогти вам приготувати вечерю, помітивши, якщо ви пропустили інгредієнт, спонукаючи вас зменшити нагрівання або виконувати більш складні завдання.

Ім'я data2vec - це гра з назвою програми для мовного «вбудовування» розроблено в Google у 2013 році називається «word2vec». Ця програма передбачила, як слова об’єднуються, і тому word2vec є репрезентативним представником нейронної мережі, розробленої для певного типу даних, у цьому випадку тексту. 

А також: Відкрийте дверцята відсіку для капсул, будь ласка, HAL: AI Meta імітує читання по губах

У випадку з data2vec, однак, Баєвський та його колеги використовують стандартну версію того, що називається Transformer, розроблену Ашишем Васвані та його колегами. в Google у 2017 році і розширити його для використання для кількох типів даних. 

Нейронна мережа Transformer спочатку була розроблена для мовних завдань, але за останні роки вона була широко адаптована для багатьох видів даних. Баєвський та ін. показують, що Transformer можна використовувати для обробки різних видів даних без змін, а навчена нейронна мережа, яка в результаті може виконувати кілька різних завдань. 

У офіційному документі «data2vec: Загальна основа для самоконтрольованого навчання мовлення, зору та мови», Баєвський та ін., навчають Transformer для даних зображень, звукових сигналів мовлення та представлення мови тексту. 

Data2vec — це «перший високопродуктивний самоконтрольований алгоритм, який працює для кількох модальностей, а саме для мовлення, бачення та тексту», — пишуть Баєвський та команда у своєму блозі.

Дуже загальний трансформатор стає так званим попереднім навчанням, яке потім можна застосувати до конкретних нейронних мереж для виконання конкретних завдань. Наприклад, автори використовують data2vec як попереднє навчання для оснащення так званого «ViT», «трансформатора зору», нейронної мережі, спеціально розробленої для завдань зору, які було введено минулого року Олексій Досовицький та його колеги з Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta показує найкращі результати для масового змагання ImageNet з розпізнавання зображень.


Meta 2022

Коли вони використовуються на ViT, щоб спробувати вирішити стандартний тест ImageNet на розпізнавання зображень, їхні результати опиняються у верхній частині пакету з точністю 84.1%, що краще, ніж оцінка 83.2%, отримана командою Microsoft, яка пройшла попереднє навчання ViT, очолюваний Ханбо Бао, в минулому році.

І той самий data2vec Transformer видає результати, які є найсучаснішими для розпізнавання мовлення та є конкурентоспроможними, якщо не найкращими, для вивчення природної мови:

Експериментальні результати показують, що data2vec ефективний у всіх трьох методах, встановлюючи новий рівень техніки для ViT-B і ViT-L на ImageNet-1K, покращуючи попередню роботу в обробці мовлення з розпізнавання мовлення та продуктивність на рівні з RoBERTa. на еталоні розуміння природної мови GLUE. 

Суть полягає в тому, що це відбувається без будь-яких модифікацій нейронної мережі, щоб стосуватися зображень, і те саме для мови та тексту. Замість цього кожен тип входу входить в ту саму мережу і виконує те саме дуже загальне завдання. Це завдання — це те саме завдання, яке завжди використовують мережі Transformer, відоме як «замасковане передбачення». 

А також: Супермодель Google: DeepMind Perceiver — це крок на шляху до машини з штучним інтелектом, яка може обробляти все і все

Однак спосіб, за допомогою якого data2vec виконує масковане передбачення, відомий як «самоконтрольне» навчання. В умовах самоконтролю нейронна мережа тренується або розвивається шляхом проходження кількох етапів. 

По-перше, мережа створює уявлення спільної ймовірності введення даних, будь то зображення, мова чи текст. Потім у другій версії мережі деякі з цих елементів вхідних даних «замасковані», залишені нерозкритими. Він повинен відновити спільну ймовірність, яку створила перша версія мережі, що змушує її створювати все кращі представлення даних, по суті заповнюючи пробіли. 

meta-2022-data2vec-network-architecture.jpg

Огляд підходу data2vec.


Meta 2022

Дві мережі, одна з повним шаблоном спільної ймовірності, і та з неповною версією, яку вона намагається завершити, називаються, досить розумно, «Учитель» і «Студент». Мережа Студентів намагається розвинути своє відчуття даних, якщо хочете, реконструюючи те, чого вже досяг Учитель.

Ти можеш дивіться код для моделей на Github.

Як нейронна мережа працює вчителя та учня для трьох дуже різних типів даних? Ключом є те, що «ціль» спільної ймовірності у всіх трьох випадках даних не є конкретним типом вихідних даних, як це має місце у версіях Transformer для певного типу даних, таких як BERT Google або GPT-3 OpenAI. . 

Скоріше, data2vec захоплює деяку купу шарів нейронної мережі, які є всередині нейронна мережа, десь посередині, яка представляє дані до того, як вони будуть створені як кінцевий результат. 

Як пишуть автори: «Одна з основних відмінностей нашого методу […], крім виконання замаскованого передбачення, полягає у використанні цілей, які засновані на усередненні кількох шарів із мережі викладачів». Зокрема, «ми регресуємо кілька представлень рівня нейронної мережі, а не лише верхній шар», так що «data2vec прогнозує приховані уявлення вхідних даних».

Вони додають: «Ми зазвичай використовуємо вихід FFN [мережі з прямим зв’язком] до останнього залишкового з’єднання в кожному блоці як цільову», де «блок» є еквівалентом трансформатора рівня нейронної мережі.

Справа в тому, що кожен тип даних, який входить, стає для учнівської мережі однаковим завданням реконструювати щось всередині нейронної мережі, створеної Вчителем.

Це усереднення відрізняється від інших останніх підходів до побудови однієї мережі для обробки всіх даних. Наприклад, минулого літа підрозділ Google DeepMind запропонував те, що він називає «Perceiver», власну мультимодальну версію Transformer. Навчання нейронної мережі Perceiver — це більш стандартний процес виробництва результату, який є відповіддю на позначене контрольоване завдання, таке як ImageNet. У підході з самоконтролем data2vec не використовує ці мітки, він просто намагається відновити внутрішнє представлення даних мережі. 

Ще більш амбітні зусилля лежать у крилах. Джефф Дін, керівник відділу штучного інтелекту Google, у жовтні дражнив про «Шляхи», за словами Діна, «архітектура ШІ нового покоління” для мультимодальної обробки даних.

Майте на увазі, що дуже загальний підхід data2vec до єдиної нейронної мережі для кількох модальностей все ще містить багато інформації про різні типи даних. Зображення, мовлення та текст готуються шляхом попередньої обробки даних. Таким чином, мультимодальний аспект мережі все ще покладається на підказки щодо даних, які команда називає «невеликими кодерами введення для певної модальності».

А також: Google представляє 'Pathways', штучний інтелект наступного покоління, який можна навчити працювати в режимі багатозадачності

«Незважаючи на уніфікований режим навчання, ми все ще використовуємо специфічні для модальності екстрактори функцій і стратегії маскування», — пояснюють вони.

Отже, ми ще не перебуваємо в світі, де нейронну мережу тренують без жодного сенсу вхідних типів даних. Ми також не в той момент, коли нейронна мережа може побудувати одне представлення, яке поєднує всі різні типи даних, так що нейронна мережа вивчає речі в комбінації.

Цей факт стає зрозумілим з обміну між ZDNet і автори. ZDNet звернувся до Баєвського та команди й запитав: «Чи є приховані уявлення, які служать цілями, комбінованим кодуванням усіх трьох модальностей на будь-якому етапі часу, чи вони зазвичай лише одна з модальностей?»

Баєвський і команда відповідають, що це останній випадок, і їхній reply цікаво процитувати довго:

Приховані змінні не є комбінованим кодуванням для трьох модальностей. Ми навчаємо окремі моделі для кожної модальності, але процес навчання моделей ідентичний. Це головне нововведення нашого проекту, оскільки раніше існували великі відмінності в тому, як моделі навчаються в різних модальностях. Нейробиологи також вважають, що люди подібним чином дізнаються про звуки та візуальний світ. Наш проект показує, що самоконтрольне навчання також може працювати однаково для різних модальностей.

З огляду на специфічні для модальності обмеження data2vec, нейронна мережа, яка дійсно може бути такою Одна мережа, щоб керувати ними всіма залишається технологією майбутнього.

Source