Ang 'data2vec' ng Meta ay ang susunod na hakbang tungo sa One Neural Network para Pamahalaan silang Lahat

Ang karera ay upang lumikha ng isang neural network na maaaring magproseso ng maraming uri ng data, ang paniwala ng isang mas pangkalahatang artificial intelligence na hindi nagtatangi tungkol sa mga uri ng data ngunit sa halip ay maaaring mag-crunch ng lahat sa loob ng parehong pangunahing istraktura.

Ang genre ng multi-modality, kung tawagin sa mga neural network na ito, ay nakakakita ng gulo ng aktibidad kung saan ang iba't ibang data, gaya ng imahe, text, at speech audio, ay ipinapasa sa parehong algorithm upang makagawa ng marka sa iba't ibang pagsubok gaya ng pagkilala sa larawan, natural na pag-unawa sa wika o speech detection.

At ang mga ambidextrous network na ito ay nakakakuha ng mga marka sa mga benchmark na pagsubok ng AI. Ang pinakahuling tagumpay ay tinatawag na 'data2vec," na binuo ng mga mananaliksik sa AI division ng Meta, magulang ng Facebook, Instagram, at WhatsApp. 

Ang punto, tulad ng isinulat ng mga siyentipiko ng Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, at Michael Auli, ay lapitan ang isang bagay na mas katulad ng pangkalahatang kakayahan sa pagkatuto na tila sinasaklaw ng isip ng tao.

"Habang ang mga tao ay lumilitaw na natututo sa isang katulad na paraan hindi alintana kung paano sila nakakakuha ng impormasyon - kung gumagamit sila ng paningin o tunog, halimbawa," isinulat ng mga may-akda sa isang blog post, "kasalukuyang may malalaking pagkakaiba sa paraan" ang mga neural network ay nangangasiwa ng iba't ibang uri ng data gaya ng mga larawan, pananalita, teksto, "at iba pang modalidad."

"Ang pangunahing ideya ng diskarteng ito," idineklara nila tungkol sa data2vec, "ay ang matuto nang higit sa pangkalahatan: Ang AI ay dapat na matutong gumawa ng maraming iba't ibang mga gawain, kabilang ang mga ganap na hindi pamilyar."

Ang CEO ng Meta, si Mark Zuckerberg, ay nag-alok ng isang quote tungkol sa trabaho, na tinali ito sa isang Metaverse sa hinaharap:

Nakatutuwang tagumpay: Ang Meta AI research ay bumuo ng isang sistema na natututo mula sa pagsasalita, paningin at teksto nang hindi nangangailangan ng may label na data ng pagsasanay. Nararanasan ng mga tao ang mundo sa pamamagitan ng kumbinasyon ng paningin, tunog at mga salita, at ang mga sistemang tulad nito ay mauunawaan balang araw ang mundo sa paraang ginagawa natin. Ang lahat ng ito sa kalaunan ay mabuo sa mga salamin sa AR na may isang AI assistant kaya, halimbawa, makakatulong ito sa iyong magluto ng hapunan, na mapansin kung may hindi ka nasagot na sangkap, na mag-uudyok sa iyong humina ng init, o mas kumplikadong mga gawain.

Ang pangalang data2vec ay isang laro sa pangalan ng isang programa para sa wikang "pag-embed" binuo sa Google noong 2013 tinatawag na "word2vec." Hinulaan ng program na iyon kung paano magkakasama ang mga salita, at kaya ang word2vec ay kumakatawan sa isang neural network na idinisenyo para sa isang partikular na uri ng data, sa kasong iyon, text. 

Ito: Buksan ang mga pinto ng pod bay, mangyaring, HAL: Ginagaya ng AI ng Meta ang pagbabasa ng labi

Sa kaso ng data2vec, gayunpaman, si Baevski at mga kasamahan ay kumukuha ng karaniwang bersyon ng tinatawag na Transformer, na binuo ni Ashish Vaswani at mga kasamahan. sa Google noong 2017 at pagpapalawak nito upang magamit para sa maraming uri ng data. 

Ang Transformer neural network ay orihinal na binuo para sa mga gawain sa wika, ngunit malawak itong inangkop sa mga taon mula noon para sa maraming uri ng data. Baevski et al. ipakita na ang Transformer ay maaaring gamitin upang magproseso ng maraming uri ng data nang hindi binabago, at ang sinanay na neural network na ang mga resulta ay maaaring gumanap sa maraming iba't ibang mga gawain. 

Sa pormal na papel, "data2vec: Isang Pangkalahatang Balangkas para sa Self-supervised Learning sa Pagsasalita, Pananaw at Wika,” Baevski et al., sanayin ang Transformer para sa data ng imahe, speech audio waveform, at representasyon ng text language. 

Ang Data2vec ay "ang unang high-performance na self-supervised algorithm na gumagana para sa maraming mga modalidad, katulad ng pagsasalita, paningin, at teksto," isulat ang Baevski at ang koponan sa post sa blog.

Ang pinakapangkalahatang Transformer ay nagiging tinatawag na pre-training na maaaring mailapat sa mga partikular na neural network upang maisagawa ang mga partikular na gawain. Halimbawa, ginagamit ng mga may-akda ang data2vec bilang pre-training para magbigay ng tinatawag na “ViT,” ang “vision Transformer,” isang neural network na partikular na idinisenyo para sa mga gawain sa paningin na ay ipinakilala noong nakaraang taon ni Alexey Dosovitskiy at mga kasamahan sa Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Ipinapakita ng Meta ang mga nangungunang marka para sa kagalang-galang na kumpetisyon sa pagkilala sa imahe ng ImageNet.


Layunin 2022

Kapag ginamit sa ViT upang subukang lutasin ang karaniwang ImageNet na pagsubok ng pagkilala sa imahe, ang kanilang mga resulta ay lumalabas sa tuktok ng pack, na may katumpakan na 84.1%, mas mahusay kaysa sa marka na 83.2% na natanggap ng isang team sa Microsoft na nag-pre-trained. ViT, pinangunahan ni Hangbo Bao, nakaraang taon.

At ang parehong data2vec Transformer ay naglalabas ng mga resultang makabago para sa speech recognition at mapagkumpitensya, kung hindi man ang pinakamahusay, para sa natural na pag-aaral ng wika:

Ang mga eksperimental na resulta ay nagpapakita na ang data2vec ay epektibo sa lahat ng tatlong mga modalidad, na nagtatakda ng isang bagong estado ng sining para sa ViT-B at ViT-L sa ImageNet-1K, na pagpapabuti sa pinakamahusay na naunang gawain sa pagproseso ng pagsasalita sa pagkilala sa pagsasalita at pagganap sa par sa RoBERTa sa GLUE natural language understanding benchmark. 

Ang pangunahing bagay ay na ito ay nangyayari nang walang anumang pagbabago ng neural network upang maging tungkol sa mga imahe, at pareho para sa pagsasalita at teksto. Sa halip, ang bawat uri ng input ay pupunta sa parehong network, at kinukumpleto ang parehong pangkalahatang gawain. Ang gawaing iyon ay ang parehong gawain na palaging ginagamit ng mga Transformer network, na kilala bilang "masked prediction." 

Ito: Supermodel ng Google: Ang DeepMind Perceiver ay isang hakbang sa daan patungo sa isang AI machine na maaaring magproseso ng anuman at lahat

Ang paraan kung paano gumaganap ang data2vec ng naka-mask na hula, gayunpaman, ay isang diskarte ay kilala bilang "self-supervised" na pag-aaral. Sa isang setting na pinangangasiwaan ng sarili, ang isang neural network ay sinanay, o binuo, sa pamamagitan ng pagdaan sa maraming yugto. 

Una, ang network ay bumubuo ng isang representasyon ng magkasanib na posibilidad ng pag-input ng data, maging ito ay mga imahe o pananalita o teksto. Pagkatapos, ang pangalawang bersyon ng network ay may ilan sa mga item ng data ng input na "naka-mask out," na hindi inihayag. Kailangan nitong muling buuin ang magkasanib na posibilidad na binuo ng unang bersyon ng network, na pumipilit dito na lumikha ng mas mahusay at mas mahusay na mga representasyon ng data sa pamamagitan ng mahalagang pagpuno sa mga blangko. 

meta-2022-data2vec-network-architecture.jpg

Isang pangkalahatang-ideya ng diskarte sa data2vec.


Layunin 2022

Ang dalawang network, ang isa na may buong pattern ng magkasanib na posibilidad, at ang isa na may hindi kumpletong bersyon na sinusubukan nitong kumpletuhin, ay tinatawag, sapat na matalino, "Guro" at "Mag-aaral." Sinusubukan ng network ng Mag-aaral na bumuo ng kahulugan nito sa data, kung gugustuhin mo, sa pamamagitan ng muling pagbuo kung ano ang nakamit na ng Guro.

Maaari mong tingnan ang code para sa mga modelo sa Github.

Paano gumaganap ang neural network ng Guro at Mag-aaral para sa tatlong magkakaibang uri ng data? Ang susi ay ang "target" ng magkasanib na posibilidad, sa lahat ng tatlong kaso ng data, ay hindi isang partikular na uri ng data ng output, tulad ng kaso sa mga bersyon ng Transformer para sa isang partikular na uri ng data, tulad ng BERT ng Google o GPT-3 ng OpenAI . 

Sa halip, ang data2vec ay kumukuha ng ilang grupo ng mga layer ng neural network na loob ang neural network, sa isang lugar sa gitna, na kumakatawan sa data bago ito gawin bilang panghuling output. 

Tulad ng isinulat ng mga may-akda, "Ang isa sa mga pangunahing pagkakaiba ng aming pamamaraan [...] maliban sa pagsasagawa ng naka-mask na hula, ay ang paggamit ng mga target na batay sa pag-average ng maraming layer mula sa network ng guro." Sa partikular, "binabawi namin ang maraming representasyon ng layer ng neural network sa halip na ang tuktok na layer lamang," upang "hulaan ng data2vec ang mga nakatagong representasyon ng data ng input."

Idinagdag nila, "Karaniwang ginagamit namin ang output ng FFN [feed-forward network] bago ang huling natitirang koneksyon sa bawat block bilang target," kung saan ang "block" ay ang Transformer na katumbas ng isang layer ng neural network.

Ang punto ay ang bawat uri ng data na pumapasok ay nagiging parehong hamon para sa network ng Mag-aaral na muling buuin ang isang bagay sa loob ng neural network na binuo ng Guro.

Ang pag-average na ito ay iba sa iba pang kamakailang mga diskarte sa pagbuo ng One Network To Crunch All Data. Halimbawa, noong nakaraang tag-araw, ang DeepMind unit ng Google ay nag-aalok ng tinatawag nitong "Perceiver," ang sarili nitong multi-modal na bersyon ng Transformer. Ang pagsasanay ng Perceiver neural network ay ang mas karaniwang proseso ng paggawa ng output na sagot sa isang may label, pinangangasiwaang gawain gaya ng ImageNet. Sa self-supervised approach, hindi ginagamit ng data2vec ang mga label na iyon, sinusubukan lang nitong buuin ang panloob na representasyon ng data ng network. 

Ang higit pang mga mapaghangad na pagsisikap ay nasa mga pakpak. Si Jeff Dean, pinuno ng mga pagsisikap sa AI ng Google, noong Oktubre ay tinukso ang tungkol sa "Mga Pathway," kung ano ang sinasabi ni Dean na "susunod na henerasyon ng arkitektura ng AI” para sa multi-modal na pagproseso ng data.

Bale, ang napaka-pangkalahatang diskarte ng data2vec sa isang neural net para sa maramihang mga modalidad ay mayroon pa ring maraming impormasyon tungkol sa iba't ibang uri ng data. Ang imahe, pananalita at teksto ay inihanda lahat sa pamamagitan ng paunang pagproseso ng data. Sa ganoong paraan, ang multi-modal na aspeto ng network ay umaasa pa rin sa mga pahiwatig tungkol sa data, kung ano ang tinutukoy ng team bilang "maliit na modality-specific na mga input encoder."

Ito: Inilabas ng Google ang 'Pathways', isang next-gen AI na maaaring sanayin sa multitask

"Sa kabila ng pinag-isang rehimen ng pag-aaral, gumagamit pa rin kami ng mga modality-specific na feature extractor at mga diskarte sa pag-mask," paliwanag nila.

Samakatuwid, wala pa tayo sa isang mundo kung saan ang isang neural net ay sinanay nang walang anumang kahulugan sa mga uri ng data ng input. Wala rin tayo sa punto ng oras na ang neural network ay makakagawa ng isang representasyon na pinagsasama ang lahat ng iba't ibang uri ng data, upang ang neural net ay natututo ng mga bagay sa kumbinasyon.

Ang katotohanang iyon ay ginawang malinaw mula sa isang palitan sa pagitan ZDNet at ang mga may-akda. ZDNet nakipag-ugnayan kay Baevski at sa koponan at nagtanong, "Ang mga nakatagong representasyon ba na nagsisilbing mga target ay pinagsama-samang pag-encode ng lahat ng tatlong modalidad sa anumang partikular na yugto ng panahon, o kadalasan ay isa lang sila sa mga modalidad?"

Tumugon si Baevski at ang koponan na ito ang huling kaso, at ang kanilang reply ay kagiliw-giliw na sipiin ang haba:

Ang mga nakatagong variable ay hindi isang pinagsamang pag-encode para sa tatlong modalidad. Nagsasanay kami ng hiwalay na mga modelo para sa bawat modality ngunit ang proseso kung saan natututo ang mga modelo ay magkapareho. Ito ang pangunahing inobasyon ng aming proyekto dahil bago nagkaroon ng malaking pagkakaiba sa kung paano sinasanay ang mga modelo sa iba't ibang modalidad. Naniniwala rin ang mga neuroscientist na natututo ang mga tao sa magkatulad na paraan tungkol sa mga tunog at sa visual na mundo. Ipinapakita ng aming proyekto na ang self-supervised na pag-aaral ay maaari ding gumana sa parehong paraan para sa iba't ibang modalidad.

Dahil sa mga limitasyong tukoy sa modality ng data2vec, isang neural network na maaaring tunay Isang Network Para Mamuno sa Lahat nananatiling teknolohiya ng hinaharap.

pinagmulan