„Data2vec“ на Мета е следниот чекор кон Една невронска мрежа која ќе владее со сите нив

Трката е во тек да се создаде една невронска мрежа која може да обработува повеќе видови на податоци, поим за поопшта вештачка интелигенција која не прави дискриминација за типовите на податоци, туку може да ги смачка сите во иста основна структура.

Жанрот на мултимодалност, како што се нарекуваат овие невронски мрежи, е гледање на налет на активности во кои различни податоци, како што се слика, текст и говор аудио, се пренесуваат низ истиот алгоритам за да се добие резултат на различни тестови, како на пр. препознавање слика, разбирање природен јазик или откривање говор.

И овие двосмислени мрежи собираат резултати на репер тестовите на вештачката интелигенција. Најновото достигнување е она што се нарекува „data2vec“, развиено од истражувачи од одделот за вештачка интелигенција на Мета, родител на Facebook, Instagram и WhatsApp. 

Поентата, како што пишуваат научниците на Мета, Алексеј Баевски, Веи-Нинг Хсу, Кјантонг Ксу, Арун Бабу, Џиатао Гу и Мајкл Аули, е да се пријде на нешто повеќе како општата способност за учење што се чини дека ја опфаќа човечкиот ум.

„Додека луѓето се чини дека учат на сличен начин без оглед на тоа како добиваат информации - дали користат вид или звук, на пример“, пишуваат авторите. во блог пост„Во моментов има големи разлики во начинот на кој невронските мрежи ракуваат со различни типови на податоци како што се слики, говор, текст, „и други модалитети“.

„Основната идеја на овој пристап“, велат тие за data2vec, „е да се научи поопшто: вештачката интелигенција треба да може да научи да прави многу различни задачи, вклучително и оние што се целосно непознати“.

Извршниот директор на Мета, Марк Закерберг, понуди цитат за работата, поврзувајќи ја со идниот Метаверс:

Возбудливо откритие: Истражувањето на мета вештачката интелигенција изгради систем кој учи од говорот, видот и текстот без да има потреба од означени податоци за обука. Луѓето го доживуваат светот преку комбинација од вид, звук и зборови, а ваквите системи еден ден би можеле да го разберат светот на начинот на кој ние го разбираме. Сето ова на крајот ќе се вгради во очилата за AR со помошник со вештачка интелигенција, така што, на пример, може да ви помогне да готвите вечера, забележувајќи дали пропуштите некоја состојка, да ве поттикне да ја намалите топлината или посложени задачи.

Името data2vec е игра со името на програма за „вградување“ на јазик развиена во Google во 2013 година наречен „word2vec“. Таа програма предвиде како зборовите се групираат заедно, и затоа word2vec е претставник на невронска мрежа дизајнирана за специфичен тип на податоци, во тој случај текст. 

Значи: Отворете ги вратите на подлогата, ве молам, ХАЛ: вештачката интелигенција на Мета симулира читање од усни

Меѓутоа, во случајот на data2vec, Баевски и колегите земаат стандардна верзија на она што се нарекува трансформатор, развиен од Ашиш Васвани и неговите колеги. во Google во 2017 година и да се прошири за да се користи за повеќе типови на податоци. 

Невралната мрежа Трансформер првично беше развиена за јазични задачи, но во годините оттогаш беше широко прилагодена за многу видови податоци. Баевски и сор. покажуваат дека трансформаторот може да се користи за обработка на повеќе видови податоци без да се менува, а обучената невронска мрежа што резултира може да извршува повеќе различни задачи. 

Во формалниот труд, „data2vec: Општа рамка за само-надгледувано учење во говор, визија и јазик,“ Баевски и сор., го обучуваат Трансформерот за податоци за слики, говорни аудио бранови форми и репрезентации на текстуален јазик. 

Data2vec е „првиот само-надгледуван алгоритам со високи перформанси кој работи за повеќе модалитети, имено говор, визија и текст“, пишуваат Баевски и тимот во објавата на блогот.

Самиот општ Трансформер станува она што се нарекува пред-тренинг кој потоа може да се примени на специфични невронски мрежи со цел да се извршат одредени задачи. На пример, авторите користат data2vec како пред-тренинг за опремување на она што се нарекува „ViT“, „визионски трансформатор“, невронска мрежа специјално дизајнирана за задачи со видот што беше воведен минатата година од Алексеј Досовицки и колегите од Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Мета покажува врвни резултати за преподобниот натпревар за препознавање слики ImageNet.


Цел 2022 година

Кога се користат на ViT за да се обидат да го решат стандардниот тест за препознавање слики ImageNet, нивните резултати доаѓаат на врвот на пакетот, со точност од 84.1%, подобро од резултатот од 83.2% добиен од тимот на Microsoft кој претходно обучил ВиТ, предводен од Хангбо Бао, минатата година.

И истиот data2vec Transformer дава резултати кои се најсовремени за препознавање говор и кои се конкурентни, ако не и најдобри, за учење на природен јазик:

Експерименталните резултати покажуваат дека data2vec е ефикасен во сите три модалитети, поставувајќи нова состојба на уметност за ViT-B и ViT-L на ImageNet-1K, подобрувајќи ја најдобрата претходна работа во обработката на говорот за препознавање говор и перформанси на исто ниво со RoBERTa на репер за разбирање природен јазик GLUE. 

Суштината е во тоа што ова се случува без никаква модификација на невронската мрежа да биде за слики, а истото и за говорот и текстот. Наместо тоа, секој тип на влез оди во истата мрежа и ја завршува истата многу општа задача. Таа задача е истата задача што секогаш ја користат мрежите на Transformer, позната како „маскирано предвидување“. 

Значи: Супермоделот на Google: DeepMind Perceiver е чекор на патот кон машина за вештачка интелигенција која може да обработи се и сешто

Начинот на кој data2vec врши маскирано предвидување, сепак, е пристап е познат како „само-надгледувано“ учење. Во само-надгледувана поставка, невронската мрежа се обучува или се развива, така што мора да помине низ повеќе фази. 

Прво, мрежата конструира претстава на заедничката веројатност за внесување податоци, било да е тоа слики или говор или текст. Потоа, втората верзија на мрежата има некои од тие ставки на влезните податоци „маскирани“, оставени неоткриени. Треба да ја реконструира заедничката веројатност што ја конструирала првата верзија на мрежата, што ја принудува да создава подобри и подобри претстави на податоците со суштински пополнување на празнините. 

meta-2022-data2vec-network-architecture.jpg

Преглед на пристапот data2vec.


Цел 2022 година

Двете мрежи, онаа со целосна шема на заедничката веројатност и онаа со нецелосната верзија што се обидува да ја заврши, се нарекуваат, доволно разумно, „Учител“ и „Ученик“. Мрежата Студент се обидува да го развие своето чувство за податоците, ако сакате, со реконструкција на она што Наставникот веќе го постигнал.

Можете да ја видете го кодот за моделите на Github.

Како функционира невронската мрежа Наставник и ученик за три многу различни типови на податоци? Клучот е што „целта“ на заедничката веројатност, во сите три случаи на податоци, не е специфичен излезен тип на податоци, како што е случај во верзиите на Transformer за одреден тип на податоци, како што е BERT на Google или GPT-3 на OpenAI . 

Наместо тоа, data2vec зграпчува неколку слоеви на невронска мрежа кои се внатре невронската мрежа, некаде во средината, која ги претставува податоците пред да бидат произведени како финален излез. 

Како што пишуваат авторите, „Една од главните разлики на нашиот метод […], освен вршењето маскирано предвидување, е употребата на цели кои се засноваат на просечни повеќе слоеви од мрежата на наставниците“. Поточно, „ние регресираме повеќе репрезентации на слоеви на невронска мрежа наместо само горниот слој“, така што „data2vec ги предвидува латентните претстави на влезните податоци“.

Тие додаваат: „Генерално го користиме излезот од FFN [мрежата за пренасочување] пред последната преостаната врска во секој блок како цел“, каде што „блок“ е трансформаторски еквивалент на слој на невронска мрежа.

Поентата е дека секој тип на податоци што влегува станува ист предизвик за Студентската мрежа да реконструира нешто внатре во невронската мрежа што ја составил Наставникот.

Овој просек е различен од другите неодамнешни приоди за градење на една мрежа за прекршување на сите податоци. На пример, минатото лето, единицата DeepMind на Google го понуди она што го нарекува „Perceiver“, своја мулти-модална верзија на Transformer. Обуката на невронската мрежа Perceiver е постандарден процес на производство на излез што е одговор на означена, надгледувана задача како што е ImageNet. Во само-надгледуваниот пристап, data2vec не ги користи тие ознаки, туку само се обидува да ја реконструира внатрешната репрезентација на податоците на мрежата. 

Уште поамбициозните напори лежат во крилјата. Џеф Дин, шеф на напорите за вештачка интелигенција на Google, во октомври се зафркаваше за „Pathways“, она што Дин тврди дека е „следна генерација архитектура на вештачка интелигенција” за мултимодална обработка на податоци.

Имајте предвид, многу општиот пристап на data2vec кон една нервна мрежа за повеќе модалитети сè уште има многу информации за различните типови на податоци. Сликата, говорот и текстот се подготвени со претходна обработка на податоците. На тој начин, мултимодалниот аспект на мрежата сè уште се потпира на индиции за податоците, она што тимот го нарекува „мали влезни енкодери специфични за модалитетите“.

Значи: Google го претстави „Pathways“, следната генерација на вештачка интелигенција што може да се обучи да извршува повеќе задачи

„И покрај унифицираниот режим на учење, ние сè уште користиме извлекувачи на карактеристики специфични за модалитети и стратегии за маскирање“, објаснуваат тие.

Оттука, сè уште не сме во свет каде што нервната мрежа е обучена без никаква смисла за типовите на влезни податоци. Исто така, не сме во момент во времето кога невронската мрежа може да конструира една претстава која ги комбинира сите различни типови на податоци, така што невронската мрежа учи работи во комбинација.

Тој факт е јасно појавен од размената помеѓу ZDNet и авторите. ZDNet допре до Баевски и тимот и праша: „Дали латентните претстави кои служат како цели се комбинирано кодирање на сите три модалитети во секој даден временски чекор, или тие обично се само еден од модалитетите?

Баевски и тимот одговараат дека тоа е вториот случај, а нивни reply интересно е долго да се цитира:

Латентните променливи не се комбинирано кодирање за трите модалитети. Ние обучуваме посебни модели за секој модалитет, но процесот преку кој моделите учат е идентичен. Ова е главната иновација на нашиот проект бидејќи порано имаше големи разлики во тоа како моделите се обучуваат во различни модалитети. Невронаучниците исто така веруваат дека луѓето на сличен начин учат за звуците и за визуелниот свет. Нашиот проект покажува дека само-надгледуваното учење може да функционира на ист начин за различни модалитети.

Со оглед на ограничувањата специфични за модалитет на data2vec, невронска мрежа што навистина може да биде Една мрежа да владее со сите нив останува технологија на иднината.

извор