DeepMind-тің «Гатосы» орташа, сондықтан олар оны неліктен құрастырды?

deepmind-gato-slash-image-closer-in.png

DeepMind компаниясының «Gato» нейрондық желісі блоктарды жинақтайтын роботтық қаруларды басқару, Atari 2600 ойындарын ойнау және суреттерге жазу сияқты көптеген тапсырмаларды орындауда жақсы.


DeepMind

Әлем жасанды интеллект түрлерін терең меңгерудің соңғы жетістіктері туралы тақырыптарды көруге дағдыланған. Google компаниясының DeepMind бөлімшесінің соңғы жетістігі, алайда, «көп нәрседе осылай жұмыс істейтін бір AI бағдарламасы» деп қорытындылауға болады. 

Гато, DeepMind бағдарламасы осылай аталады, осы аптада ашылды мультимодальды деп аталатын бағдарлама ретінде бейне ойындар ойнауға, сөйлесуге, композициялар жазуға, суреттерге тақырып қоюға және робот қолды жинақтау блоктарын басқаруға болады. Бұл көптеген тапсырмаларды орындау үшін деректердің бірнеше түрлерімен жұмыс істей алатын бір нейрондық желі. 

«Бірыңғай салмақ жинағы арқылы Гато диалогқа қатыса алады, суретке түсіреді, нақты робот қолымен блоктарды жинай алады, Atari ойындарын ойнауда адамдардан асып түседі, имитацияланған 3D орталарында шарлай алады, нұсқауларды орындай алады және т.б.», - деп жазады жетекші автор Скотт Рид. және әріптестері «Генералист агент» атты мақаласында Arxiv алдын ала басып шығару серверінде орналастырылған

DeepMind негізін қалаушы Демис Хассабис команданы қолдады: деп жазды твиттерде, «Біздің ең жалпы агентіміз!! Командадан керемет жұмыс!» 

Сондай-ақ,: Жаңа эксперимент: AI шынымен мысықтарды немесе иттерді немесе басқа нәрсені біледі ме?

Жалғыз ұстанатын нәрсе - Гато бірнеше тапсырмаларды орындауда онша жақсы емес. 

Бір жағынан, бағдарлама блоктарды жинайтын роботты Сойер қолын басқаруда арнайы машиналық оқыту бағдарламасына қарағанда жақсырақ жұмыс істей алады. Екінші жағынан, ол көптеген жағдайларда өте нашар болатын суреттерге титрлер жасайды. Оның адам әңгімелесушімен стандартты чат диалогындағы қабілеті де орташа, кейде қарама-қайшы және мағынасыз сөздерді тудырады. 

Оның Atari 2600 бейне ойындарын ойнауы эталон бойынша бәсекелесуге арналған арнайы ML бағдарламаларының көпшілігінен төмен. Аркада оқу ортасы

Неліктен сіз кейбір нәрселерді өте жақсы орындайтын бағдарламаны жасайсыз, ал басқа көптеген нәрселерді онша жақсы емес? Авторлардың пікірінше, прецедент және күту. 

Бағдарламалардың жалпы түрлерінің AI-дағы соңғы деңгейге айналуының прецеденті бар және болашақта есептеу қуатының ұлғаюы кемшіліктерді толтырады деп күтілуде. 

Жалпылық АИ-де жеңіске жетуі мүмкін. Авторлар AI ғалымы Ричард Саттонға сілтеме жасай отырып, «Тарихи тұрғыдан есептеулерді қолдануда жақсырақ жалпы модельдер де сайып келгенде мамандандырылған доменге тән тәсілдерді басып озды» деп атап өтті.

Саттон жазғандай өзінің блогында, «70 жылдық AI зерттеулерінен оқуға болатын ең үлкен сабақ - есептеулерді пайдаланатын жалпы әдістер, сайып келгенде, ең тиімді және үлкен маржа болып табылады».

Ресми тезиске Рид пен команда былай деп жазады: «Біз мұнда әдетте көптеген тапсырмаларды орындауға қабілетті агентті дайындау мүмкін деген гипотезаны тексереміз; және бұл жалпы агентті көптеген тапсырмаларды орындау үшін қосымша деректермен бейімдеуге болады.

Сондай-ақ,: Meta компаниясының AI шамы LeCun терең оқытудың энергетикалық шекарасын зерттейді

Модель, бұл жағдайда, шын мәнінде, өте жалпы. Бұл Transformer нұсқасы, GPT-3 қоса алғанда, көптеген бағдарламалардың негізіне айналған зейінге негізделген модельдің басым түрі. Трансформатор сөйлемдегі сөздер сияқты оны қоршап тұрған элементтерді ескере отырып, кейбір элементтің ықтималдығын модельдейді. 

Гато жағдайында DeepMind ғалымдары көптеген деректер түрлерінде бірдей шартты ықтималдық іздеуді пайдалана алады. 

Рид пен оның әріптестері Гатоны оқыту міндетін сипаттайтындай, 

Гатоның жаттығу кезеңінде әртүрлі тапсырмалар мен модальділіктерден алынған деректер таңбалауыштардың тегіс тізбегіне серияланады, пакеттеледі және үлкен тілдік модельге ұқсас трансформаторлық нейрондық желі арқылы өңделеді. Гато тек әрекет пен мәтін мақсаттарын болжауы үшін жоғалту маскирленген.

Гато, басқаша айтқанда, таңбалауыштарды олар сөйлесудегі сөздер немесе блок-стекинг жаттығуларындағы қозғалыс векторлары болсын, басқаша қарастырмайды. Бәрі бірдей. 

deepmind-how-gato-is-trained.png

Гато жаттығуларының сценарийі.


Рид және т.б. 2022

Рид пен команданың гипотезасы осының нәтижесі болып табылады, атап айтқанда, барған сайын көбірек есептеу қуаты, сайып келгенде жеңеді. Дәл қазір Гато блоктарды жинақтауды орындайтын Sawyer робот қолының жауап беру уақытымен шектелген. 1.18 миллиард желі параметрлері бойынша Gato GPT-3 сияқты өте үлкен AI үлгілерінен әлдеқайда аз. Терең оқыту үлгілері үлкейген сайын, қорытынды жасау нақты әлемдегі роботтың детерминирленген емес әлемінде сәтсіздікке ұшырауы мүмкін кідіріске әкеледі. 

Бірақ, Рид пен әріптестер AI аппараттық құралдары өңдеуде жылдамырақ болғандықтан, бұл шектеуден асып түседі деп күтеді.

«Біз жаттығуларымызды нақты әлемдегі роботтарды нақты уақыт режимінде басқаруға мүмкіндік беретін модель масштабының жұмыс нүктесіне бағыттаймыз, қазіргі уақытта Гато жағдайында шамамен 1.2B параметрлері», - деп жазды олар. «Аппараттық және модельдік архитектуралар жақсарған сайын, бұл жұмыс нүктесі жалпы үлгілерді масштабтау заңының қисығын жоғарылатып, мүмкін болатын модель өлшемін ұлғайтады».

Демек, Гато жалпы үлгілерді үлкенірек және үлкенірек ету арқылы есептеу масштабының машиналық оқытуды дамытудың негізгі векторы болып қала беретін үлгісі болып табылады. Үлкенірек, басқаша айтқанда, жақсырақ. 

deepmind-gets-better-with-scale.png

Параметрлерде нейрондық желінің өлшемі ұлғайған сайын Гато жақсарады.


Рид және т.б. 2022

Ал авторлардың бұған дәлелдері бар. Гато үлкейген сайын жақсара түсетін сияқты. Олар параметрлерге сәйкес үлгінің үш өлшеміне, 79 миллион, 364 миллион және негізгі үлгі, 1.18 миллиард үшін барлық эталондық тапсырмалар бойынша орташа алынған ұпайларды салыстырады. «Біз эквивалентті таңбалауыштар саны үшін масштабтың ұлғаюымен өнімділіктің айтарлықтай жақсарғанын көреміз», - деп жазады авторлар. 

Болашақтағы қызықты сұрақ - бұл жалпылама бағдарлама AI бағдарламаларының басқа түрлеріне қарағанда қауіптірек пе? Авторлар мақалада әлі жақсы түсінілмеген ықтимал қауіптер бар екенін талқылауға көп уақыт жұмсайды.  

Бірнеше тапсырмаларды орындайтын бағдарлама идеясы қарапайым адамға адамның бейімделуінің бір түрін ұсынады, бірақ бұл қауіпті қате түсінік болуы мүмкін. «Мысалы, физикалық іске асыру пайдаланушылардың агентті антропоморфизациялауына әкелуі мүмкін, бұл дұрыс жұмыс істемейтін жүйе жағдайында дұрыс емес сенімге әкелуі мүмкін немесе нашар актерлердің пайдалануы мүмкін», - деп жазады Рид пен команда. 

«Сонымен қатар, кросс-домендік білім беру көбінесе ML зерттеуіндегі мақсат болғанымен, егер белгілі бір мінез-құлық (мысалы, аркада ойыны шайқасы) дұрыс емес контекстке ауыстырылса, ол күтпеген және қалаусыз нәтижелерді тудыруы мүмкін».

Демек, олар былай деп жазады: «Білім берудің этикасы мен қауіпсіздігі туралы ойлар жалпылама жүйелер алға жылжыған сайын елеулі жаңа зерттеулерді қажет етуі мүмкін».

(Қызықты қосымша ескертпе ретінде, Гато қағазында Google AI бойынша бұрынғы зерттеуші Маргарет Мишель мен әріптестері ойлап тапқан тәуекелді сипаттайтын схема қолданылады, үлгі карталар деп аталады. Үлгі карталар AI бағдарламасының не екенін, оның не істейтінін және не істейтінін қысқаша сипаттайды. оның жұмыс істеуіне факторлар әсер етеді.Мишелл өткен жылы өзінің бұрынғы әріптесі Тимнит Гебруға қолдау көрсеткені үшін Google-дан кетуге мәжбүр болғанын жазған, оның жасанды интеллектке қатысты этикалық алаңдаушылықтары Google компаниясының AI басшылығына нұқсан келтірген.)

Гато өзінің жалпылау тенденциясы бойынша ерекше емес. Бұл жалпылаудың кең тенденциясының бөлігі және ат күші шелектерін пайдаланатын үлкенірек модельдер. Әлем өткен жазда Google-дың осы бағыттағы еңкейтуінің алғашқы дәмін татты, Google-дың «Қабылдаушы» нейрондық желісі, ол мәтіндік Transformer тапсырмаларын кескіндер, дыбыс және LiDAR кеңістіктік координаталарымен біріктірді.

Сондай-ақ,: Google супермоделі: DeepMind Perceiver - кез келген нәрсені және бәрін өңдей алатын AI құрылғысына апаратын қадам.

Оның қатарластары арасында PaLM, Pathways Language Model, Google ғалымдары осы жылы енгізді, мыңдаған чиптерді үйлестіру үшін жаңа технологияны пайдаланатын 540 миллиард параметрлі модель, жолдар ретінде белгілі, сонымен қатар Google-да ойлап тапты. Қаңтар айында Meta шығарған «data2vec» деп аталатын нейрондық желі кескін деректері, сөйлеу дыбыстық толқын пішіндері және мәтіндік тілдің көрсетілімдері үшін трансформаторларды пайдаланады. 

Гатоның жаңалығы, роботтан тыс тапсырмалар үшін қолданылатын AI-ны алып, оны робототехника саласына итермелеу ниеті сияқты.

Гато жасаушылары Pathways жетістіктерін және басқа жалпыистік тәсілдерге назар аудара отырып, кез келген тапсырмалар түрімен нақты әлемде жұмыс істей алатын AI-дағы соңғы жетістікті көреді. 

«Болашақ жұмыс осы мәтін мүмкіндіктерін нақты әлемде, әртүрлі орталарда және нұсқаларда нақты уақытта әрекет ете алатын толық жалпылама агентке қалай біріктіру керектігін қарастыруы керек». 

Сонымен, сіз Гатоны AI-ның ең қиын мәселесін, робототехниканы шешу жолындағы маңызды қадам деп санай аласыз. 



қайнар көз