«Gato» від DeepMind посередній, то чому вони створили його?

deepmind-gato-slash-image-closer-in.png

Нейронна мережа «Gato» від DeepMind відмінно справляється з багатьма завданнями, включаючи керування робототехнічними руками, які складають блоки, ігри Atari 2600 і підписування зображень.


Deepmind

Світ звик бачити заголовки про останній прорив глибоких форм навчання штучного інтелекту. Однак останнє досягнення підрозділу DeepMind від Google можна коротко описати так: «Одна програма штучного інтелекту, яка виконує так собі роботу в багатьох речах». 

Gato, як називається програма DeepMind, було представлено цього тижня як так звану мультимодальну програму, яка може грати у відеоігри, спілкуватися в чаті, писати композиції, створювати підписи до зображень і керувати робототехнічною рукою, яка укладає блоки. Це одна нейронна мережа, яка може працювати з різними видами даних для виконання різноманітних завдань. 

«Завдяки єдиному набору ваг Gato може вести діалог, підписувати зображення, складати блоки за допомогою справжньої руки робота, перевершувати людей у ​​грі в ігри Atari, переміщатися в змодельованих 3D-середовищах, виконувати інструкції тощо», — пише провідний автор Скотт Рід. та колеги у своїй статті «Агент широкого профілю» розміщено на сервері препринтів Arxiv

Співзасновник DeepMind Деміс Хассабіс підбадьорював команду, вигукує в твіті, «Наш найзагальніший агент!! Фантастична робота від команди!» 

А також: Новий експеримент: чи справді ШІ знає котів чи собак — чи щось таке?

Єдина заковика полягає в тому, що Гато насправді не такий чудовий у кількох завданнях. 

З одного боку, програма здатна краще, ніж спеціальна програма машинного навчання, керувати роботом Sawyer, який укладає блоки. З іншого боку, він створює підписи для зображень, які в багатьох випадках є досить поганими. Його здатність вести стандартний чат-діалог із людиною-співрозмовником так само посередня, іноді викликаючи суперечливі та безглузді висловлювання. 

І його гра у відеоігри Atari 2600 нижча, ніж у більшості спеціалізованих програм для машинного навчання, розроблених для конкуренції в тесті Навчальне середовище Arcade

Навіщо вам створювати програму, яка виконує деякі речі досить добре, а купу інших — не дуже? Прецедент і очікування, на думку авторів. 

Існує прецедент для більш загальних типів програм, які стають найсучаснішими у ШІ, і існує очікування, що збільшення обчислювальної потужності в майбутньому компенсуватиме недоліки. 

Загальність може мати тенденцію до перемоги в ШІ. Як зазначають автори, посилаючись на вченого зі штучного інтелекту Річарда Саттона, «історично склалося так, що загальні моделі, які краще використовують обчислення, з часом, як правило, витіснили більш спеціалізовані предметно-орієнтовані підходи».

Як написала Саттон у власному дописі в блозі, «Найбільший урок, який можна винести з 70 років досліджень штучного інтелекту, полягає в тому, що загальні методи, які використовують обчислення, зрештою є найефективнішими, і з великим відривом».

У формальній тезі Рід і команда пишуть, що «тут ми перевіряємо гіпотезу про те, що навчання агента, який загалом здатний виконувати велику кількість завдань, можливе; і що цей загальний агент може бути адаптований за допомогою невеликих додаткових даних для успішного виконання ще більшої кількості завдань».

А також: Світило штучного інтелекту Meta LeCun досліджує енергетичні межі глибокого навчання

Модель у цьому випадку дійсно дуже загальна. Це версія Transformer, домінуючого виду моделі на основі уваги, яка стала основою багатьох програм, включаючи GPT-3. Трансформатор моделює ймовірність певного елемента з урахуванням елементів, які його оточують, наприклад слів у реченні. 

У випадку з Gato вчені DeepMind можуть використовувати той самий пошук умовної ймовірності для багатьох типів даних. 

Як Рід та його колеги описують завдання навчання Гато, 

Під час фази навчання Gato дані з різних завдань і модальностей серіалізуються в плоску послідовність токенів, групуються та обробляються трансформаторною нейронною мережею, подібною до великої мовної моделі. Втрата замаскована, тому Гато передбачає лише дії та текстові цілі.

Іншими словами, Gato не обробляє токени по-різному, незалежно від того, чи є вони словами в чаті чи векторами руху у вправі зі складання блоків. Все одно. 

deepmind-how-gato-is-trained.png

Сценарій навчання Gato.


Рід та ін. 2022 рік

У гіпотезі Ріда та команди лежить наслідок, а саме те, що врешті-решт перемагатиме все більше й більше обчислювальної потужності. Наразі Гато обмежений часом відгуку робота-руки Сойєра, який укладає блоки. Маючи 1.18 мільярда мережевих параметрів, Gato значно менший за дуже великі моделі ШІ, такі як GPT-3. Оскільки моделі глибокого навчання стають більшими, виконання висновків призводить до затримки, яка може вийти з ладу в недетермінованому світі реального робота. 

Але Рід і його колеги очікують, що цей ліміт буде перевищено, оскільки обладнання штучного інтелекту стає швидшим при обробці.

«Ми зосереджуємо наше навчання на робочій точці масштабу моделі, яка дозволяє контролювати реальних роботів у реальному часі, наразі близько 1.2 B параметрів у випадку Gato», — написали вони. «З удосконаленням апаратної та модельної архітектури ця робоча точка природним чином збільшить можливий розмір моделі, підштовхнувши загальні моделі вище по кривій закону масштабування».

Таким чином, Gato дійсно є моделлю того, як масштаб обчислень і надалі залишатиметься основним вектором розвитку машинного навчання, збільшуючи загальні моделі. Іншими словами, що більше, то краще. 

deepmind-gets-better-with-scale.png

Gato стає кращим із збільшенням розміру нейронної мережі в параметрах.


Рід та ін. 2022 рік

І автори мають цьому певні докази. Здається, Gato покращується, коли стає більшим. Вони порівнюють усереднені бали за всіма контрольними завданнями для трьох розмірів моделі відповідно до параметрів, 79 мільйонів, 364 мільйонів, і основної моделі, 1.18 мільярда. «Ми бачимо, що для еквівалентної кількості токенів відбувається значне підвищення продуктивності зі збільшенням масштабу», — пишуть автори. 

Цікаве питання майбутнього полягає в тому, чи є програма загального профілю небезпечнішою за інші види програм ШІ. Автори витрачають багато часу на обговорення того факту, що існують потенційні небезпеки, які ще не добре зрозумілі.  

Ідея програми, яка виконує кілька завдань, наводить на думку неспеціаліста про людську здатність до адаптації, але це може бути небезпечним оманою. «Наприклад, фізичне втілення може призвести до того, що користувачі антропоморфізують агента, що призведе до недовіри у випадку несправної системи, або може бути використаним зловмисниками», — пишуть Рід і команда. 

«Крім того, хоча передача знань між доменами часто є метою досліджень ML, це може призвести до неочікуваних і небажаних результатів, якщо певну поведінку (наприклад, бійки аркадних ігор) перенести в неправильний контекст».

Тому вони пишуть: «Міркування етики та безпеки передачі знань можуть вимагати суттєвих нових досліджень у міру розвитку загальних систем».

(Як цікаве зауваження, у документі Гато використовується схема для опису ризику, розроблена колишнім дослідником Google AI Маргарет Мічелл та її колегами, яка називається «Картки моделей». Картки моделі дають стислий опис того, що таке програма AI, що вона робить і що Минулого року Мішелл написала, що була змушена піти з Google за підтримку свого колишнього колеги Тімніта Гебру, чиї етичні занепокоєння щодо штучного інтелекту суперечили керівництву Google щодо штучного інтелекту.)

Гато аж ніяк не унікальний у своїй тенденції узагальнення. Це частина широкої тенденції до узагальнення та більших моделей, які використовують відра кінських сил. Минулого літа світ уперше відчув нахил Google у цьому напрямку завдяки нейронній мережі Google Perceiver, яка поєднала завдання текстового трансформатора з зображеннями, звуком і просторовими координатами LiDAR.

А також: Супермодель Google: DeepMind Perceiver — це крок на шляху до машини з штучним інтелектом, яка може обробляти все і все

Серед аналогів PaLM, мовна модель Pathways, представлений цього року вченими Google, модель із 540 мільярдами параметрів, яка використовує нову технологію для координації тисяч мікросхем, відомі як Pathways, також винайдений у Google. Нейронна мережа, випущена в січні компанією Meta, під назвою «data2vec» використовує Transformers для даних зображень, мовних аудіосигналів і текстових мовних представлень в одному. 

Що нового в Gato, здавалося б, це намір взяти штучний інтелект, який використовується для неробототехнічних завдань, і підштовхнути його до сфери робототехніки.

Творці Gato, відзначаючи досягнення Pathways та інших загальних підходів, бачать найкраще досягнення в штучному інтелекті, який може працювати в реальному світі з будь-якими завданнями. 

«У майбутній роботі слід розглянути, як об’єднати ці текстові можливості в один повністю загальний агент, який також може діяти в режимі реального часу в реальному світі, у різноманітних середовищах і втіленнях». 

Тоді ви можете розглядати Gato як важливий крок на шляху до вирішення найскладнішої проблеми ШІ – робототехніки. 



Source