Meta's 'data2vec' yog kauj ruam tom ntej mus rau One Neural Network los tswj lawv txhua tus

Cov haiv neeg tab tom tsim los tsim ib lub network neural uas tuaj yeem ua ntau hom ntaub ntawv, qhov kev xav ntawm kev txawj ntse ntau dua uas tsis muaj kev ntxub ntxaug txog hom ntaub ntawv tab sis tuaj yeem tsoo lawv tag nrho hauv tib lub qauv.

Lub hom phiaj ntawm ntau hom, raws li cov neural tes hauj lwm no hu ua, yog pom ib tug flurry ntawm kev ua ub no nyob rau hauv uas txawv cov ntaub ntawv, xws li cov duab, ntawv nyeem, thiab hais lus suab, tau dhau los ntawm tib algorithm los ua ib tug qhab nia ntawm txawv kev xeem xws li kev paub cov duab, kev nkag siab ntawm cov lus ntuj lossis kev paub hais lus.

Thiab cov ambidextrous tes hauj lwm no tab tom racking cov qhab nia ntawm qhov ntsuas ntsuas ntawm AI. Qhov kev ua tiav tshiab kawg yog qhov hu ua 'data2vec," tsim los ntawm cov kws tshawb fawb ntawm AI faib ntawm Meta, niam txiv ntawm Facebook, Instagram, thiab WhatsApp. 

Lub ntsiab lus, raws li Meta cov kws tshawb fawb, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, thiab Michael Auli, sau, yog los mus rau qee yam zoo li kev kawm dav dav uas tib neeg lub siab zoo li suav nrog.

"Thaum tib neeg tshwm sim los kawm zoo ib yam txawm hais tias lawv tau txais cov ntaub ntawv li cas - txawm tias lawv siv pom lossis suab, piv txwv li," cov kws sau ntawv sau nyob rau hauv ib qho blog post, "tam sim no muaj qhov sib txawv loj hauv txoj kev" neural tes hauj lwm tswj ntau hom ntaub ntawv xws li cov duab, hais lus, ntawv nyeem, "thiab lwm yam kev hloov."

"Lub tswv yim tseem ceeb ntawm txoj hauv kev no," lawv tshaj tawm ntawm data2vec, "yog kom kawm ntau dua: AI yuav tsum muaj peev xwm kawm ua ntau yam haujlwm, suav nrog cov uas tsis paub tag nrho."

Meta's CEO, Mark Zuckerberg, tau muab ib nqe lus hais txog kev ua haujlwm, khi nws mus rau Metaverse yav tom ntej:

Txaus siab rau kev ua tiav: Meta AI kev tshawb fawb tau tsim cov txheej txheem uas kawm los ntawm kev hais lus, lub zeem muag thiab cov ntawv tsis tas yuav tsum tau sau cov ntaub ntawv qhia. Tib neeg tau ntsib lub ntiaj teb los ntawm kev sib txuas ntawm qhov pom, lub suab thiab cov lus, thiab cov tshuab zoo li no tuaj yeem muaj ib hnub nkag siab lub ntiaj teb li peb ua. Qhov no thaum kawg yuav tau ua rau hauv AR tsom iav nrog AI tus pab yog li ntawd, piv txwv li, nws tuaj yeem pab koj ua noj hmo, ceeb toom yog tias koj tsis muaj cov khoom xyaw, ua rau koj poob qis, lossis ntau txoj haujlwm nyuaj.

Lub npe data2vec yog kev ua si ntawm lub npe ntawm qhov kev pab cuam rau hom lus "embedding" tsim los ntawm Google hauv 2013 hu ua "word2vec." Qhov kev zov me nyuam tau kwv yees li cas cov lus sib koom ua ke, thiab yog li word2vec nws yog tus sawv cev ntawm neural network tsim los rau ib hom ntaub ntawv tshwj xeeb, hauv cov ntawv ntawd. 

Tsis tas li ntawd: Qhib lub qhov rooj ntawm lub qhov rooj, thov, HAL: Meta's AI simulates di ncauj nyeem

Nyob rau hauv cov ntaub ntawv ntawm data2vec, txawm li cas los xij, Baevski thiab cov npoj yaig tau noj cov qauv ntawm qhov hu ua Transformer, tsim los ntawm Ashish Vaswani thiab cov npoj yaig. ntawm Google hauv 2017 thiab txuas ntxiv mus siv rau ntau hom ntaub ntawv. 

Lub Transformer neural network yog Ameslikas tsim los rau kev ua haujlwm ntawm cov lus, tab sis nws tau raug hloov kho nyob rau ntau xyoo txij li rau ntau yam ntaub ntawv. Baevski et al. qhia tau tias Transformer tuaj yeem siv los ua ntau hom ntaub ntawv yam tsis tau hloov pauv, thiab kev cob qhia neural network uas tau tshwm sim tuaj yeem ua rau ntau yam haujlwm sib txawv. 

Nyob rau hauv daim ntawv, "data2vec: Lub Hauv Paus Dav Dav rau Kev Kawm Tus Kheej Hauv Kev Hais Lus, Lub Zeem Muag thiab Lus,” Baevski li al., cob qhia Transformer rau cov ntaub ntawv duab, hais lus suab waveforms, thiab cov lus sawv cev. 

Data2vec yog "thawj qhov ua tau zoo ntawm tus kheej saib xyuas cov txheej txheem uas ua haujlwm rau ntau yam kev hloov pauv, uas yog hais lus, tsis pom kev, thiab ntawv nyeem," sau Baevski thiab pab pawg hauv blog ncej.

Lub Transformer dav dav dhau los ua qhov hu ua kev cob qhia ua ntej uas tuaj yeem siv rau cov neural network tshwj xeeb txhawm rau ua tiav cov haujlwm tshwj xeeb. Piv txwv li, cov kws sau ntawv siv data2vec raws li kev cob qhia ua ntej txhawm rau txhim kho qhov hu ua "ViT," "lub zeem muag Transformer," lub neural network tshwj xeeb tsim los rau kev ua haujlwm pom kev. tau nthuav tawm xyoo tas los los ntawm Alexey Dosovitskiy thiab cov npoj yaig ntawm Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta qhia cov qhab nia siab tshaj plaws rau kev sib tw ImageNet cov duab-paub txog kev sib tw.


2022 lub hom phiaj

Thaum siv los ntawm ViT los sim daws cov qauv ImageNet kev xeem ntawm cov duab paub, lawv cov txiaj ntsig tuaj rau saum pob, nrog qhov tseeb ntawm 84.1%, zoo dua li cov qhab nia ntawm 83.2% tau txais los ntawm pab pawg ntawm Microsoft uas tau kawm ua ntej. ViT, coj los ntawm Hangbo Bao, xyoo dhau los.

Thiab tib data2vec Transformer tso tawm cov txiaj ntsig uas yog lub xeev ntawm kev kos duab rau kev paub txog kev hais lus thiab qhov kev sib tw, yog tias tsis yog qhov zoo tshaj plaws, rau kev kawm lus ntuj:

Cov txiaj ntsig kev sim qhia tau hais tias data2vec yuav ua tau zoo nyob rau hauv tag nrho peb qhov kev hloov, teeb tsa lub xeev tshiab ntawm kev kos duab rau ViT-B thiab ViT-L ntawm ImageNet-1K, txhim kho tshaj qhov zoo tshaj plaws ua ntej ua haujlwm hauv kev hais lus ntawm kev paub hais lus thiab ua tau zoo ntawm RoBERTa ntawm GLUE natural language to taub benchmark. 

Lub crux yog qhov no tshwm sim yam tsis muaj kev hloov kho ntawm neural network los ntawm cov duab, thiab tib yam rau kev hais lus thiab ntawv. Hloov chaw, txhua hom kev nkag mus rau hauv tib lub network, thiab ua tiav tib txoj haujlwm dav dav. Txoj haujlwm ntawd yog tib txoj haujlwm uas Transformer tes hauj lwm ib txwm siv, hu ua "masked twv txiaj yuam pov." 

Tsis tas li ntawd: Google's Supermodel: DeepMind Perceiver yog ib kauj ruam ntawm txoj kev mus rau lub tshuab AI uas tuaj yeem ua txhua yam thiab txhua yam

Txoj kev uas data2vec ua qhov kev twv ua ntej npog, txawm li cas los xij, yog ib txoj hauv kev hu ua "kev saib xyuas tus kheej" kev kawm. Nyob rau hauv ib qho kev saib xyuas tus kheej, lub neural network raug cob qhia, lossis tsim, los ntawm kev mus dhau ntau theem. 

Ua ntej, lub network tsim ib qho kev sawv cev ntawm kev sib koom ua ke ntawm cov ntaub ntawv tawm tswv yim, yog nws cov duab lossis hais lus lossis ntawv. Tom qab ntawd, qhov thib ob version ntawm lub network muaj qee qhov ntawm cov ntaub ntawv tawm tswv yim "mask tawm," sab laug tsis qhia tawm. Nws yuav tsum rov tsim kho qhov kev sib koom ua ke uas thawj cov qauv ntawm lub network tau tsim, uas yuam nws los tsim kom zoo dua thiab zoo dua sawv cev ntawm cov ntaub ntawv los ntawm qhov tseem ceeb sau rau hauv qhov khoob. 

meta-2022-data2vec-network-architecture.jpg

Lub ntsiab lus ntawm data2vec mus kom ze.


2022 lub hom phiaj

Ob lub network, ib qho nrog tag nrho cov qauv ntawm kev sib koom ua ke, thiab ib qho uas tsis tiav version uas nws tab tom sim ua kom tiav, raug hu ua, sensibly txaus, "Xib Fwb" thiab "Student." Cov tub ntxhais kawm lub network sim txhim kho nws qhov kev nkag siab ntawm cov ntaub ntawv, yog tias koj xav tau, los ntawm kev rov tsim kho yam uas Xib Fwb tau ua tiav lawm.

koj ua tau saib cov cai rau cov qauv ntawm Github.

Neural network ua haujlwm li cas Xib Fwb thiab Tub Kawm rau peb hom ntaub ntawv sib txawv? Qhov tseem ceeb yog qhov "lub hom phiaj" ntawm kev sib koom ua ke, nyob rau hauv tag nrho peb cov ntaub ntawv kis, tsis yog ib hom ntaub ntawv tso tawm tshwj xeeb, xws li cov ntaub ntawv hauv cov qauv ntawm Transformer rau ib hom ntaub ntawv tshwj xeeb, xws li Google's BERT lossis OpenAI's GPT-3 . 

Hloov chaw, data2vec tab tom rub qee pawg ntawm neural network txheej uas yog hauv lub neural network, qhov chaw hauv nruab nrab, uas sawv cev rau cov ntaub ntawv ua ntej nws yog txhua qhov tsim tawm raws li qhov kawg tso tawm. 

Raws li cov kws sau ntawv sau, "Ib qho ntawm qhov sib txawv tseem ceeb ntawm peb txoj kev [...] uas tsis yog ua qhov kev twv ua ntej, yog kev siv lub hom phiaj uas yog nyob ntawm qhov nruab nrab ntau txheej los ntawm cov kws qhia ntawv network." Tshwj xeeb, "peb regress ntau neural network txheej sawv cev es tsis txhob tsuas yog sab saum toj txheej," yog li ntawd "data2vec kwv yees cov latent sawv cev ntawm cov ntaub ntawv tawm tswv yim."

Lawv hais ntxiv tias, "Peb feem ntau siv cov zis ntawm FFN [feed-forward network] ua ntej qhov kawg seem txuas hauv txhua qhov thaiv raws li lub hom phiaj," qhov "block" yog Transformer sib npaug ntawm cov txheej txheem neural network.

Lub ntsiab lus yog tias txhua hom ntaub ntawv uas nkag mus ua ib qho kev sib tw rau Tub Kawm Ntawv lub network ntawm kev tsim kho ib yam dab tsi hauv lub neural network uas tus Xib Fwb tau tsim.

Qhov nruab nrab no txawv ntawm lwm txoj hauv kev tsis ntev los no los tsim Ib Lub Network Kom Crunch Txhua Cov Ntaub Ntawv. Piv txwv li, lub caij ntuj sov dhau los, Google's DeepMind unit tau muab qhov nws hu ua "Perceiver," nws tus kheej ntau hom kev hloov pauv ntawm Transformer. Kev cob qhia ntawm Perceiver neural network yog cov txheej txheem ntau dua ntawm kev tsim cov khoom tsim tawm uas yog cov lus teb rau cov ntawv sau npe, saib xyuas haujlwm xws li ImageNet. Nyob rau hauv txoj kev saib xyuas tus kheej, data2vec tsis siv cov ntawv lo, nws tsuas yog sim rov tsim kho lub network sab hauv sawv cev ntawm cov ntaub ntawv. 

Txawm tias muaj kev mob siab rau ntau dua nyob rau hauv cov tis. Jeff Dean, tus thawj coj ntawm Google's AI kev siv zog, thaum Lub Kaum Hli teased txog "Pathways," dab tsi Dean thov yog "tiam tom ntej AI architecture"rau kev ua cov ntaub ntawv ntau yam.

Nco ntsoov koj, data2vec txoj hauv kev dav dav rau ib leeg neural net rau ntau qhov kev hloov pauv tseem muaj ntau cov ntaub ntawv hais txog cov ntaub ntawv sib txawv. Cov duab, hais lus thiab ntawv yog tag nrho cov kev npaj los ntawm kev ua ntej ntawm cov ntaub ntawv. Nyob rau hauv txoj kev ntawd, ntau qhov sib txawv ntawm lub network tseem tso siab rau cov lus qhia txog cov ntaub ntawv, dab tsi pab pawg hu ua "me me modality-specific input encoders."

Tsis tas li ntawd: Google nthuav tawm 'Pathways', qhov txuas ntxiv-gen AI uas tuaj yeem cob qhia rau ntau yam haujlwm

"Txawm hais tias txoj kev kawm sib koom ua ke, peb tseem siv cov qauv tshwj xeeb tshwj xeeb tshem tawm thiab cov tswv yim npog ntsej muag," lawv piav qhia.

Li no, peb tseem tsis tau nyob rau hauv lub ntiaj teb uas ib tug neural net raug cob qhia uas tsis muaj kev nkag siab dab tsi ntawm cov ntaub ntawv input hom. Peb kuj tsis yog nyob rau lub sijhawm thaum lub neural network tuaj yeem tsim ib qho kev sawv cev uas sib xyaw ua ke tag nrho cov ntaub ntawv sib txawv, kom cov neural net yog kawm tej yam ua ke.

Qhov tseeb ntawd yog qhia meej los ntawm kev sib pauv ntawm ZDNet thiab cov kws sau ntawv. ZDNet hu mus rau Baevski thiab pab neeg thiab nug, "Puas yog cov sawv cev latent uas ua lub hom phiaj sib koom ua ke ntawm tag nrho peb qhov kev hloov pauv ntawm txhua lub sijhawm, lossis lawv feem ntau tsuas yog ib qho ntawm cov qauv?"

Baevski thiab pab neeg teb tias nws yog qhov kawg, thiab lawv reply yog nthuav kom quote ntawm ntev:

Cov latent variables tsis yog ib qho kev sib koom ua ke rau peb qhov kev hloov pauv. Peb cob qhia cov qauv cais rau txhua tus qauv tab sis cov txheej txheem los ntawm cov qauv kawm yog tib yam. Qhov no yog lub ntsiab innovation ntawm peb qhov project txij li thaum ua ntej muaj qhov sib txawv loj nyob rau hauv yuav ua li cas cov qauv raug cob qhia nyob rau hauv txawv modalities. Neuroscientists kuj ntseeg hais tias tib neeg kawm zoo sib xws ntawm lub suab thiab lub ntiaj teb pom. Peb qhov project qhia tau hais tias kev saib xyuas tus kheej tuaj yeem ua haujlwm tib yam rau cov qauv sib txawv.

Muab data2vec's modality-specific limitations, a neural network that may really be Ib lub network los tswj lawv txhua tus tseem yog thev naus laus zis yav tom ntej.

Tau qhov twg los