Мета 'дата2вец' је следећи корак ка једној неуронској мрежи која ће свима њима управљати

У току је трка у стварању једне неуронске мреже која може да обрађује више врста података, што је појам општије вештачке интелигенције која не дискриминише типове података, већ их уместо тога може све разбити унутар исте основне структуре.

Жанр мултимодалности, како се називају ове неуронске мреже, доживљава налет активности у којима се различити подаци, као што су слика, текст и звук говора, пролазе кроз исти алгоритам да би се произвео резултат на различитим тестовима, као што је нпр. препознавање слике, разумевање природног језика или детекција говора.

А ове амбидекстралне мреже прикупљају резултате на референтним тестовима АИ. Најновије достигнуће је оно што се зове 'дата2вец,' које су развили истраживачи у одељењу за вештачку интелигенцију компаније Мета, која је матична за Фацебоок, Инстаграм и ВхатсАпп. 

Поента је, како пишу Метини научници, Алексеј Баевски, Веи-Нинг Хсу, Ћиантонг Ксу, Арун Бабу, Ђијатао Гу и Мајкл Аули, да се приступи нечему што је више налик општој способности учења коју чини људски ум обухвата.

„Док се чини да људи уче на сличан начин без обзира на то како добијају информације – да ли користе вид или звук, на пример“, пишу аутори у блогу, „тренутно постоје велике разлике у начину на који“ неуронске мреже рукују различитим типовима података као што су слике, говор, текст, „и други модалитети“.

„Основна идеја овог приступа,” изјављују из дата2вец, „је да се учи уопштеније: АИ би требало да буде у стању да научи да ради много различитих задатака, укључујући и оне који су потпуно непознати.”

Извршни директор компаније Мета, Марк Зуцкерберг, понудио је цитат о раду, повезујући га са будућим Метаверсе:

Узбудљив пробој: Мета АИ истраживање је изградило систем који учи из говора, визије и текста без потребе за означеним подацима о обуци. Људи доживљавају свет кроз комбинацију вида, звука и речи, а системи попут овог би једног дана могли да разумеју свет на начин на који ми то разумемо. Све ово ће се на крају уградити у АР наочаре са АИ асистентом, тако да би вам, на пример, могло помоћи да кувате вечеру, приметивши да ли вам недостаје неки састојак, што ће вас подстаћи да смањите топлоту или сложеније задатке.

Име дата2вец је игра са именом програма за „уграђивање“ језика развијен у Гоогле-у 2013 под називом „ворд2вец“. Тај програм је предвидео како се речи групишу, па је ворд2вец репрезентативан за неуронску мрежу дизајнирану за одређену врсту података, у том случају текст. 

Такође: Отворите врата лежишта, молим, ХАЛ: Метин АИ симулира читање са усана

Међутим, у случају дата2вец, Баевски и колеге узимају стандардну верзију онога што се зове Трансформер, коју су развили Асхисх Васвани и колеге у Гоогле-у 2017 и проширити га тако да се користи за више типова података. 

Трансформерска неуронска мрежа је првобитно била развијена за језичке задатке, али је током година увелико прилагођена за многе врсте података. Баевски и др. показују да се Трансформер може користити за обраду више врста података без промене, а обучена неуронска мрежа која резултира може да обавља више различитих задатака. 

У званичном раду, „дата2вец: Општи оквир за самоконтролисано учење говора, визије и језика”, Баевски ет ал., обучавају Трансформер за сликовне податке, аудио таласне облике говора и представљање језика текста. 

Дата2вец је „први самонадзирани алгоритам високих перформанси који ради на више модалитета, односно говора, визије и текста“, пишу Баевски и тим у посту на блогу.

Веома општи Трансформер постаје оно што се зове прет-тренинг који се затим може применити на специфичне неуронске мреже како би се извршили одређени задаци. На пример, аутори користе дата2вец као пре-тренинг да би опремили оно што се зове „ВиТ“, „трансформатор вида“, неуронску мрежу посебно дизајнирану за задатке вида који уведен је прошле године од Алексеја Досовицког и колега у Гуглу. 

мета-2022-дата2вец-сцорес-он-вит-тест.јпг

Мета приказује најбоље резултате за угледно такмичење у препознавању слика ИмагеНет.


КСНУМКС циљ

Када се користе на ВиТ-у за покушај решавања стандардног ИмагеНет теста за препознавање слика, њихови резултати се налазе на врху пакета, са тачношћу од 84.1%, што је боље од резултата од 83.2% који је добио тим у Мицрософт-у који је претходно обучен ВиТ, коју води Хангбо Бао, прошле године.

И исти дата2вец Трансформер даје резултате који су најсавременији за препознавање говора и који су конкурентни, ако не и најбољи, за учење природног језика:

Експериментални резултати показују да је дата2вец ефикасан у сва три модалитета, постављајући ново стање технике за ВиТ-Б и ВиТ-Л на ИмагеНет-1К, побољшавајући у односу на најбољи претходни рад у обради говора на препознавању говора и перформансама на нивоу РоБЕРТа на ГЛУЕ стандарду разумевања природног језика. 

Суштина је у томе што се ово дешава без икаквих модификација неуронске мреже да се ради о сликама, а исто је и за говор и текст. Уместо тога, сваки тип улаза иде у исту мрежу и завршава исти веома општи задатак. Тај задатак је исти задатак који Трансформер мреже увек користе, познат као „маскирана предвиђања“. 

Такође: Гоогле-ов супермодел: ДеепМинд Перцеивер је корак на путу ка АИ машини која може да обрађује све и свашта

Међутим, начин на који дата2вец обавља маскирано предвиђање је приступ познат као учење „само-надгледано“. У окружењу са самонадзором, неуронска мрежа се обучава или развија тако што мора да прође кроз више фаза. 

Прво, мрежа конструише репрезентацију заједничке вероватноће уноса података, било да се ради о сликама, говору или тексту. Затим, друга верзија мреже има неке од тих ставки улазних података „прикривене“, остављене неоткривене. Мора да реконструише заједничку вероватноћу коју је изградила прва верзија мреже, што га приморава да ствара све боље и боље репрезентације података суштински попуњавајући празнине. 

мета-2022-дата2вец-нетворк-арцхитецтуре.јпг

Преглед дата2вец приступа.


КСНУМКС циљ

Две мреже, она са пуним шаблоном заједничке вероватноће и она са непотпуном верзијом коју покушава да доврши, зову се, довољно разумно, „Наставник“ и „Ученик“. Мрежа ученика покушава да развије свој осећај за податке, ако хоћете, реконструишући оно што је Учитељ већ постигао.

Иоу цан погледајте код за моделе на Гитхуб-у.

Како неуронска мрежа ради наставника и ученика за три веома различите врсте података? Кључно је да „циља“ заједничке вероватноће, у сва три случаја података, није специфичан тип излазних података, као што је случај у верзијама Трансформера за одређени тип података, као што је Гоогле-ов БЕРТ или ОпенАИ-ов ГПТ-3 . 

Уместо тога, дата2вец граби неку гомилу слојева неуронске мреже који су унутра неуронске мреже, негде у средини, које представљају податке пре него што се сваки произведе као коначни излаз. 

Као што аутори пишу, „Једна од главних разлика наше методе […] осим извођења маскираног предвиђања, је употреба циљева који су засновани на усредњавању више слојева из мреже наставника.“ Конкретно, „регресирамо вишеструке репрезентације слојева неуронске мреже уместо само горњег слоја“, тако да „дата2вец предвиђа латентне репрезентације улазних података.“

Они додају: „Ми генерално користимо излаз ФФН-а [мреже за напредовање] пре последње преостале везе у сваком блоку као циљ“, где је „блок“ трансформаторски еквивалент слоја неуронске мреже.

Поента је да сваки тип података који улази постаје исти изазов за Ученикову мрежу да реконструише нешто унутар неуронске мреже коју је Наставник саставио.

Ово усредњавање се разликује од других недавних приступа изградњи једне мреже за брушење свих података. На пример, прошлог лета, Гоогле-ова ДеепМинд јединица је понудила оно што назива „Перцеивер“, сопствену мултимодалну верзију Трансформера. Обука неуронске мреже Перцеивер је стандарднији процес производње резултата који је одговор на означени, надгледани задатак као што је ИмагеНет. У приступу са самонадзором, дата2вец не користи те ознаке, већ само покушава да реконструише интерну репрезентацију података у мрежи. 

Још амбициознији напори леже у крилима. Џеф Дин, шеф Гоогле-ових напора за вештачку интелигенцију, у октобру је задиркивао о „Путевима“, за шта Дин тврди да је „АИ архитектура нове генерације” за мултимодалну обраду података.

Имајте на уму да дата2вец-ов веома општи приступ једној неуронској мрежи за више модалитета још увек има много информација о различитим типовима података. Слика, говор и текст се припремају претходном обрадом података. На тај начин, мултимодални аспект мреже се и даље ослања на трагове о подацима, што тим назива „малим кодерима за унос података специфичним за модалитет“.

Такође: Гоогле представља 'Патхваис', вештачку интелигенцију следеће генерације која се може обучити за обављање више задатака

„Упркос јединственом режиму учења, и даље користимо екстракторе карактеристика специфичних за модалитет и стратегије маскирања“, објашњавају они.

Дакле, још нисмо у свету у коме се неуронска мрежа тренира без икаквог смисла за типове улазних података. Такође нисмо у тренутку када неуронска мрежа може да направи једну репрезентацију која комбинује све различите типове података, тако да неуронска мрежа учи ствари у комбинацији.

Та чињеница је разјашњена из размене између ЗДНет и аутори. ЗДНет дошао до Баевског и тима и упитао: „Да ли су латентне репрезентације које служе као мете комбиновано кодирање сва три модалитета у било ком временском кораку, или су обично само један од модалитета?“

Баевски и екипа одговарају да је у питању други случај и њихов reply занимљиво је опширно цитирати:

Латентне варијабле нису комбиновано кодирање за три модалитета. Ми обучавамо засебне моделе за сваки модалитет, али процес кроз који модели уче је идентичан. Ово је главна иновација нашег пројекта јер су раније постојале велике разлике у томе како се модели обучавају у различитим модалитетима. Неуронаучници такође верују да људи на сличан начин уче о звуковима и визуелном свету. Наш пројекат показује да самонадгледано учење такође може да функционише на исти начин за различите модалитете.

С обзиром на дата2вец-ова ограничења специфична за модалитет, неуронска мрежа која би заиста могла бити Једна мрежа да влада њима свима остаје технологија будућности.

извор