Meta-ның «data2vec» - барлығын басқару үшін бір нейрондық желіге қарай келесі қадам

Жарыс деректердің бірнеше түрін өңдей алатын бір нейрондық желіні құруда, бұл деректер түрлерін кемсітпейді, бірақ олардың барлығын бірдей негізгі құрылымда бұза алатын жалпы жасанды интеллект түсінігі.

Бұл нейрондық желілер деп аталатын мультимодальдік жанр әртүрлі сынақтарда ұпай алу үшін кескін, мәтін және сөйлеу дыбысы сияқты әртүрлі деректер бір алгоритм арқылы өтетін белсенділіктің толқынын көреді. кескінді тану, табиғи тілді түсіну немесе сөйлеуді анықтау.

Және бұл екі жақты желілер АИ-нің эталондық сынақтарында ұпай жинайды. Соңғы жетістік - Facebook, Instagram және WhatsApp-тың негізін қалаушы Meta компаниясының AI бөлімшесінің зерттеушілері әзірлеген «data2vec» деп аталады. 

Мета ғалымдары Алексей Баевски, Вэй-Нин Хсу, Цянтунг Сю, Арун Бабу, Цзятао Гу және Михаэль Аули жазғандай, адамның ақыл-ойы қамтитын жалпы оқу қабілетіне ұқсас нәрсеге жақындау.

«Адамдар ақпаратты қалай алатынына қарамастан, мысалы, көруді немесе дыбысты пайдалана ма, ұқсас жолмен үйренетін сияқты», - деп жазады авторлар. блог жазбасында, «Қазіргі уақытта нейрондық желілер кескіндер, сөйлеу, мәтін, «және басқа модальділер» сияқты деректердің әртүрлі түрлерін өңдеуде үлкен айырмашылықтар бар.

«Бұл тәсілдің негізгі идеясы, - деп мәлімдейді data2vec, - жалпы білім алу: AI көптеген әртүрлі тапсырмаларды, соның ішінде мүлдем бейтаныс тапсырмаларды орындауды үйренуі керек.

Meta компаниясының бас директоры Марк Цукерберг жұмыс туралы дәйексөз ұсынып, оны болашақ метаверспен байланыстырды:

Қызықты серпіліс: Meta AI зерттеулері таңбаланған оқу деректерін қажет етпестен сөйлеуден, көруден және мәтіннен үйренетін жүйені құрастырды. Адамдар әлемді көру, дыбыс және сөздердің тіркесімі арқылы сезінеді және мұндай жүйелер бір күні әлемді біз сияқты түсіне алады. Мұның бәрі ақырында AI көмекшісі бар AR көзілдіріктеріне қондырылады, сондықтан, мысалы, ол кешкі ас дайындауға көмектеседі, ингредиентті жіберіп алғаныңызды байқап, жылуды азайтуға немесе күрделірек тапсырмаларды орындауға көмектеседі.

Data2vec атауы – тілді «енгізуге» арналған бағдарламаның атауын ойнату. 2013 жылы Google компаниясында әзірленген «word2vec» деп аталады. Бұл бағдарлама сөздердің қалай топталатынын болжады, сондықтан word2vec ол деректердің белгілі бір түріне, бұл жағдайда мәтінге арналған нейрондық желінің өкілі болып табылады. 

Сондай-ақ,: Қондырғыштың есіктерін ашыңыз, HAL: Метаның AI ерінді оқуды имитациялайды

Data2vec жағдайында Баевски мен оның әріптестері Ашиш Васвани мен әріптестері әзірлеген Трансформатор деп аталатын стандартты нұсқасын алып жатыр. 2017 жылы Google-де және оны бірнеше деректер түрлері үшін пайдалану үшін кеңейту. 

Transformer нейрондық желісі бастапқыда тілдік тапсырмалар үшін әзірленген, бірақ содан бері деректердің көптеген түрлеріне кеңінен бейімделді. Баевский және т.б. Трансформаторды деректердің бірнеше түрін өзгертпей өңдеу үшін пайдалануға болатынын және нәтиже беретін үйретілген нейрондық желі бірнеше түрлі тапсырмаларды орындай алатынын көрсетеді. 

Ресми құжатта «data2vec: Сөйлеу, көру және тілде өзін-өзі бақылайтын оқытудың жалпы негізі,» Baevski et al., Transformer-ді кескін деректеріне, сөйлеудің дыбыстық толқын формаларына және мәтін тілінің көрсетіліміне үйретеді. 

Data2vec - бұл «сөз, көру және мәтін сияқты бірнеше модальділіктер үшін жұмыс істейтін бірінші жоғары өнімді өзін-өзі қадағалайтын алгоритм» деп жазады Баевски мен команда блогында.

Жалпы Трансформатор белгілі бір тапсырмаларды орындау үшін арнайы нейрондық желілерге қолданылуы мүмкін алдын ала дайындық деп аталады. Мысалы, авторлар көру тапсырмалары үшін арнайы жасалған нейрондық желіні «ViT» деп аталатын «көру трансформаторын» жабдықтау үшін алдын ала дайындық ретінде data2vec пайдаланады. өткен жылы енгізілді Алексей Досовицкий және Google-дағы әріптестері. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta беделді ImageNet кескінді тану байқауының ең жоғары ұпайларын көрсетеді.


Meta 2022

ViT жүйесінде кескінді танудың стандартты ImageNet тестін шешуге тырысқанда, олардың нәтижелері 84.1% дәлдікпен пакеттің жоғарғы жағында келеді, бұл Microsoft корпорациясында алдын ала дайындалған топ алған 83.2% ұпайдан жақсырақ. Ханбо Бао басқаратын ViT, өткен жылы.

Дәл сол data2vec Трансформаторы сөйлеуді танудағы ең озық және табиғи тілді үйрену үшін бәсекеге қабілетті, ең жақсы болмаса да, нәтижелерді шығарады:

Эксперименттік нәтижелер data2vec-тің барлық үш модальділікте де тиімді екенін, ImageNet-1K жүйесінде ViT-B және ViT-L техникасының жаңа деңгейін белгілейтінін, сөйлеуді танудағы сөйлеуді өңдеудегі ең жақсы алдыңғы жұмысты жақсартатынын және RoBERTa-мен тең орындайтынын көрсетеді. GLUE табиғи тілді түсіну эталоны бойынша. 

Ең бастысы, бұл нейрондық желіні кескіндерге қатысты өзгертусіз және сөйлеу мен мәтін үшін де солай болып жатыр. Оның орнына әрбір енгізу түрі бір желіге кіреді және бірдей жалпы тапсырманы орындайды. Бұл тапсырма Transformer желілері әрқашан қолданатын тапсырма болып табылады, ол «маскаланған болжау» деп аталады. 

Сондай-ақ,: Google супермоделі: DeepMind Perceiver - кез келген нәрсені және бәрін өңдей алатын AI құрылғысына апаратын қадам.

Data2vec жасырын болжауды орындау тәсілі, дегенмен, бұл тәсіл «өзін-өзі бақылайтын» оқыту ретінде белгілі. Өзін-өзі басқаратын ортада нейрондық желі бірнеше кезеңнен өту арқылы оқытылады немесе дамытылады. 

Біріншіден, желі сурет немесе сөз немесе мәтін болсын, деректерді енгізудің бірлескен ықтималдығының көрінісін жасайды. Содан кейін желінің екінші нұсқасында сол кіріс деректерінің кейбір элементтерінің «маскирленген» және ашылмаған күйінде қалдырылған. Ол желінің бірінші нұсқасы құрастырылған бірлескен ықтималдықты қайта құруы керек, бұл оны бос орындарды толтыру арқылы деректердің жақсырақ және жақсырақ ұсынуын жасауға мәжбүр етеді. 

meta-2022-data2vec-network-architecture.jpg

Data2vec тәсіліне шолу.


Meta 2022

Екі желі, біріккен ықтималдықтың толық үлгісі бар және ол аяқтауға тырысып жатқан толық емес нұсқасы бар желі, ақылға қонымды түрде «Мұғалім» және «Оқушы» деп аталады. Студенттік желі, егер қаласаңыз, Мұғалімнің қол жеткізген нәрселерін қайта құру арқылы деректерді түсінуді дамытуға тырысады.

Сен істей аласың Github сайтындағы үлгілердің кодын қараңыз.

Нейрондық желі үш түрлі деректер түрі үшін мұғалім мен студент қызметін қалай орындайды? Ең бастысы, ортақ ықтималдықтың «мақсаты» барлық үш деректер жағдайында, Google BERT немесе OpenAI GPT-3 сияқты белгілі бір деректер түріне арналған Трансформатор нұсқаларында болатындай нақты шығыс деректер түрі емес. . 

Керісінше, data2vec бірнеше нейрондық желі қабаттарын басып алады ішінде нейрондық желі, ортасында бір жерде, ол түпкілікті нәтиже ретінде шығарылғанға дейін деректерді көрсетеді. 

Авторлар жазғандай, «Біздің әдісіміздің […] жасырын болжауды орындаудан басқа басты айырмашылықтарының бірі мұғалімдер желісіндегі бірнеше қабаттарды орташалауға негізделген мақсаттарды пайдалану болып табылады». Атап айтқанда, «дата2vec кіріс деректерінің жасырын көрсетілімдерін болжауы үшін» біз «жоғарғы қабаттың орнына бірнеше нейрондық желілік деңгей көріністерін регрессиялаймыз».

Олар: «Әр блоктағы соңғы қалдық қосылымға дейін әдетте FFN [алға жіберу желісі] шығысын мақсат ретінде пайдаланамыз» деп қосады, мұндағы «блок» нейрондық желі деңгейінің Трансформатор эквиваленті болып табылады.

Мәселе мынада, енгізілген әрбір деректер түрі Студенттік желі үшін мұғалім құрастырған нейрондық желідегі бір нәрсені қайта құру үшін бірдей қиындыққа айналады.

Бұл орташа мән барлық деректерді бұзу үшін бір желіні құрудың басқа соңғы тәсілдерінен ерекшеленеді. Мысалы, өткен жазда Google-дың DeepMind блогы Transformer-тің өзінің мультимодальды нұсқасын «Қабылдаушы» деп атайтын нәрсені ұсынды. Perceiver нейрондық желісін оқыту ImageNet сияқты таңбаланған, бақыланатын тапсырмаға жауап болып табылатын шығысты шығарудың стандартты процесі болып табылады. Өзін-өзі бақылайтын тәсілде data2vec бұл белгілерді пайдаланбайды, ол жай деректердің желінің ішкі көрінісін қайта құруға тырысады. 

Одан да өршіл күштер қанатында жатыр. Джефф Дин, Google компаниясының AI күштерінің басшысы қазан айында «Жолдар» туралы мазақ етті, Дин «келесі буын AI архитектурасы” мультимодальды деректерді өңдеуге арналған.

Есіңізде болсын, data2vec-тің бірнеше модальділіктерге арналған бір нейрондық желіге жалпы көзқарасы әртүрлі деректер түрлері туралы әлі де көп ақпаратқа ие. Кескін, сөз және мәтіннің барлығы деректерді алдын ала өңдеу арқылы дайындалады. Осылайша, желінің мультимодальды аспектісі әлі де деректер туралы мәліметтерге сүйенеді, оны команда «шағын модальділікке тән енгізу кодтары» деп атайды.

Сондай-ақ,: Google көп тапсырманы орындауға үйретуге болатын келесі буын AI «Pathways» ұсынып отыр.

«Бірыңғай оқыту режиміне қарамастан, біз әлі де модальділікке тән мүмкіндікті экстракторларды және маска стратегияларын қолданамыз», - деп түсіндіреді олар.

Демек, біз әлі нейрондық желі енгізілген деректер түрлерінің мағынасыз оқытылатын әлемде емеспіз. Біз сондай-ақ нейрондық желі барлық әртүрлі деректер түрлерін біріктіретін бір өкілдік құра алатын уақытта емеспіз, осылайша нейрондық желі заттарды біріктіріп үйренеді.

Бұл факті арасындағы пікір алмасудан анық көрінеді ZDNet және авторлар. ZDNet Баевскиге және оның командасына хабарласып: «Нысандар ретінде қызмет ететін жасырын көріністер кез келген уақыт қадамындағы барлық үш модальділіктің біріктірілген кодтауы ма, әлде олар әдетте модальдықтардың бірі ғана ма?» Деп сұрады.

Баевский мен командасы бұл соңғы жағдай деп жауап береді және олардың reply ұзақ цитаталау қызықты:

Жасырын айнымалылар үш модальділік үшін біріктірілген кодтау емес. Біз әр модальділік үшін бөлек үлгілерді жаттықтырамыз, бірақ модельдерді үйрену процесі бірдей. Бұл біздің жобаның басты жаңалығы, өйткені бұрын әртүрлі модальділікте модельдерді оқытуда үлкен айырмашылықтар болған. Нейрологтар сонымен қатар адамдар дыбыстар мен көрнекі әлем туралы ұқсас тәсілдермен үйренеді деп санайды. Біздің жоба өзін-өзі қадағалайтын оқытудың әртүрлі әдістер үшін де бірдей жұмыс істей алатынын көрсетеді.

Data2vec-тің модальділікке қатысты шектеулерін ескере отырып, шынымен де болуы мүмкін нейрондық желі Олардың барлығын басқаратын бір желі болашақтың технологиясы болып қала береді.

қайнар көз