'data2vec' ya Meta pêngava din a berbi Yek Tora Neuralî ye ku Hemî Serwer Bike

Pêşbazî li ser afirandina yek tora neuralî ye ku dikare gelek celeb daneyan pêvajoyê bike, têgîna îstîxbaratek çêkirî ya gelemperî ku cûdahiyê nade cûreyên daneyê lê li şûna wê dikare wan hemî di nav heman avahiyek bingehîn de bişkîne.

Cûreya pir-modalîteyê, wekî ku ji van torên neuralî re tê gotin, dîtina tevgerek çalakiyek e ku tê de daneyên cihêreng, wekî wêne, nivîs, û dengê axaftinê, di heman algorîtmayê re derbas dibin da ku li ser ceribandinên cihêreng encamek derxînin, wek mînak. naskirina wêneyê, têgihîştina zimanê xwezayî an tespîtkirina axaftinê.

Û van torgilokên dubendî li ser ceribandinên pîvanê yên AI-ê dereceyan berhev dikin. Serkeftina herî dawî ew e ku jê re 'data2vec' tê gotin, ku ji hêla lêkolînerên li beşa AI-ê ya Meta, dêûbavê Facebook, Instagram, û WhatsApp ve hatî pêşve xistin. 

Xal, wekî ku zanyarên Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, û Michael Auli, dinivîsin, ev e ku meriv nêzikî tiştek bêtir mîna şiyana fêrbûna giştî ya ku hişê mirov dixuye ku tê de ye.

"Dema ku mirov xuya dike ku bi rengek wekhev fêr dibin bêyî ku ew agahdarî çawa digirin - mînakî ew dîtin an deng bikar tînin," nivîskar dinivîsin. di posta blogê de, "di awayê de niha cûdahiyên mezin hene" torên neuralî cûreyên cûda yên daneyan wekî wêne, axaftin, nivîs, "û modalîteyên din digirin."

"Fikra bingehîn a vê nêzîkbûnê," ew ji data2vec re dibêjin, " fêrbûna gelemperî ye: AI divê bikaribe fêr bibe ku gelek karên cihêreng bike, tevî yên ku bi tevahî nenas in."

Rêvebirê Meta, Mark Zuckerberg, di derbarê xebatê de gotarek pêşkêş kir, û ew bi Metaverseyek pêşerojê ve girêda:

Serkeftina balkêş: Lêkolîna Meta AI pergalek çêkir ku ji axaftin, dîtin û nivîsê fêr dibe bêyî ku hewceyê daneyên perwerdehiya binavkirî be. Mirov cîhanê bi berhevdana dîtin, deng û peyvan diceribîne, û sîstemên bi vî rengî rojekê dikarin cîhanê bi awayê ku em fam dikin fam bikin. Dê ev hemî di dawiyê de bi arîkarek AI-ê re di nav qedehên AR-ê de werin çêkirin, ji ber vê yekê, mînakî, ew dikare ji we re bibe alîkar ku hûn şîvê çêkin, ka hûn bala xwe bidin ka hûn hêmanek ji bîr dikin, ji we re dibe alîkar ku hûn germê kêm bikin, an karên tevlihevtir.

Navê data2vec lîstikek li ser navê bernameyeke ji bo "binavkirina" ziman e. di sala 2013 de li Google hate pêşve xistin jê re "word2vec" tê gotin. Wê bernameyê pêşbînî kir ka peyvan çawa li hev kom dibin, û ji ber vê yekê word2vec ew nûnerê tora neuralî ye ku ji bo celebek daneya taybetî hatî çêkirin, di wê rewşê de nivîsar. 

Jî: Ji kerema xwe, deriyên bendera pod vekin, HAL: AI-ya Meta xwendina lêv simule dike

Lêbelê, di mijara data2vec de, Baevski û hevkarên xwe guhertoyek standard a ku jê re Transformer tê gotin, ku ji hêla Ashish Vaswani û hevkarên wî ve hatî pêşve xistin digirin. li Google di 2017 de û dirêjkirina wê ji bo gelek celebên daneyê were bikar anîn. 

Tora neuralî ya Transformer bi eslê xwe ji bo karên zimanî hate pêşve xistin, lê ew di salên dawî de ji bo gelek celeb daneyan bi berfirehî hate adaptekirin. Baevski et al. nîşan bidin ku Transformer dikare were bikar anîn da ku meriv gelek celeb daneyan bêyî ku were guheztin bişopîne, û tora neuralî ya perwerdekirî ya ku encam dide dikare li ser gelek karên cûda pêk bîne. 

Di kaxeza fermî de, "data2vec: Çarçoveyek Giştî ya Ji bo Xweseriya Xweseriya Axaftin, Dîtin û Ziman"Baevski et al., Transformer ji bo daneyên wêneyê, formên pêlên bihîstwerî yên axaftinê, û nûnerên zimanê nivîsê perwerde dikin. 

Data2vec "yekemîn algorîtmaya xwe-çavdêrî ya bi performansa bilind e ku ji bo gelek awayan, ango axaftin, dîtin, û nivîsê dixebite," Baevski û tîmê di posta blogê de binivîsin.

Transformerek pir gelemperî dibe ya ku jê re tê gotin pêş-perwerdekirin ku dûv re dikare li torên neuralî yên taybetî were sepandin da ku li ser karên taybetî pêk bîne. Mînakî, nivîskar data2vec wekî perwerdehiya pêşîn bikar tînin da ku tiştê ku jê re "ViT" tê gotin, "Vîzyonek Transformer", torgilokek neuralî ya ku bi taybetî ji bo karên dîtinê hatî çêkirin. sala borî hate nasandin ji hêla Alexey Dosovitskiy û hevalên xwe yên li Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta ji bo pêşbaziya nasîna wêneyê ya rêzdar ImageNet notên herî bilind nîşan dide.


Armanca 2022

Dema ku li ser ViT-ê tê bikar anîn da ku hewl bidin ku ceribandina standard ImageNet ya naskirina wêneyê çareser bikin, encamên wan di serê pakêtê de têne, bi rastbûna 84.1%, çêtir ji xala 83.2% ya ku ji hêla tîmek Microsoft-ê ve hatî perwerde kirin. ViT, bi pêşengiya Hangbo Bao, sala borî de.

Û heman data2vec Transformer encamên ku ji bo naskirina axaftinê di asta hunerî de ne û ji bo fêrbûna zimanê xwezayî, heke ne çêtirîn be, pêşbazî derdixe:

Encamên ceribandinê destnîşan dikin ku data2vec di her sê awayan de bandorker e, ji bo ViT-B û ViT-L rewşek nû ya hunerî li ser ImageNet-1K saz dike, di xebata pêşîn a çêtirîn de di pêvajoyek axaftinê de li ser naskirina axaftinê çêtir dike û li gorî RoBERTa performans dike. li ser pîvana têgihîştina zimanê xwezayî GLUE. 

Ya girîng ev e ku ev yek bêyî guhartina tora neuralî di derbarê wêneyan de, û heman tişt ji bo axaftin û nivîsê pêk tê. Di şûna wê de, her celeb têketinê diçe heman torê, û heman peywira gelemperî temam dike. Ew peywir heman peywirê ye ku torên Transformer her gav bikar tînin, ku wekî "pêşbîniya maskkirî" tê zanîn. 

Jî: Supermodelê Google: DeepMind Perceiver gavek e li ser riya makîneyek AI-ê ku dikare her tiştî û her tiştî pêvajoyê bike.

Awayê ku data2vec pêşbîniya maskkirî pêk tîne, lêbelê, nêzîkbûnek e ku wekî fêrbûna "xwe-çavdêrî" tê zanîn. Di mîhengek xwe-çavdêrkirî de, torgilokek neuralî tê perwerdekirin, an pêşve xistin, bi hewcedariya ku di gelek qonaxan re derbas bibe. 

Pêşîn, torgilok nûneriyek îhtîmala hevbeş a têketina daneyê ava dike, çi wêne be, çi axaftin û nivîs be. Dûv re, guhertoyek duyemîn a torê hin ji wan hêmanên daneya têketinê "maskekirî" hene, ne diyar hiştin. Pêdivî ye ku ew îhtîmala hevbeş a ku guhertoya yekem a torê çêkiribû ji nû ve ava bike, ya ku wê neçar dike ku bi bingehîn dagirtina valahiyan nûneratiyên çêtir û çêtir ên daneyan biafirîne. 

meta-2022-data2vec-network-architecture.jpg

Awirek li ser nêzîkatiya data2vec.


Armanca 2022

Ji her du şebekan re, ya ku bi şeklê tam îhtîmala hevbeş, û ya bi guhertoya netemam a ku hewl dide temam bike, bi têra xwe bi aqilmendî, "Mamoste" û "Xwendekar" tê gotin. Tora Xwendekar hewl dide ku hesta xwe ya daneyan pêş bixe, heke hûn bixwazin, bi nûavakirina tiştê ku Mamoste berê bi dest xistibû.

Hûn dikarin kodê ji bo modelên li ser Github bibînin.

Tora neuralî ji bo sê celeb daneyên pir cihêreng Mamoste û Xwendekar çawa pêk tîne? Ya sereke ev e ku "armanca" îhtîmala hevbeş, di her sê rewşên daneyê de, ne celebek daneya derketinê ya taybetî ye, wekî ku di guhertoyên Transformer-ê de ji bo celebek daneya taybetî, wekî BERT-ya Google an GPT-3-ya OpenAI-yê ye. . 

Berevajî, data2vec çend qatên tora neuralî yên ku hene digire nav tora neuralî, li deverek navîn, ku daneya berî ku her wekî encamek dawîn were hilberandin temsîl dike. 

Wekî ku nivîskar dinivîsin, "Yek ji ciyawaziyên sereke yên rêbaza me […] ji bilî pêkanîna pêşbîniya maskekirî, karanîna armancên ku li ser bingeha navînîkirina gelek qatan ji tora mamosteyê ne." Bi taybetî, "em li şûna tenê qata jorîn nûneratiyên pirjimara tora neuralî paşde vedigerînin," ji ber vê yekê "data2vec nûneratiyên dereng ên daneya têketinê pêşbîn dike."

Ew lê zêde dikin, "Em bi gelemperî hilberîna FFN [tora feed-pêşvebirinê] berî pêwendiya mayî ya paşîn a li her blokê wekî armanc bikar tînin," li ku derê "blok" wekheviya Transformer a qatek tora neuralî ye.

Mesele ev e ku her celeb daneya ku tê de ji bo tora Xwendekarê ji nû ve avakirina tiştek di hundurê tora neuralî ya ku Mamoste çêkiribû de dibe heman pirsgirêk.

Ev navînî ji nêzîkbûnên din ên vê dawiyê yên avakirina Yek Tora Ku Hemî Daneyên Crunch de cûda ye. Mînakî, havîna borî, yekîneya DeepMind ya Google ya ku jê re dibêjin "Perceiver," guhertoya xweya pir-modal a Transformer pêşkêşî kir. Perwerdehiya tora neuralî ya Perceiver pêvajoyek standardtir e ku hilberek hilberek e ku bersiva karek binavkirî, çavdêrîkirî ya wekî ImageNet e. Di nêzîkatiya xwe-çavdêrî de, data2vec ne wan etîketan bikar tîne, ew tenê hewl dide ku nûnertiya hundurê torê ya daneyan ji nû ve ava bike. 

Hewldanên hê bêtir ambargo di nav baskan de ne. Jeff Dean, serokê hewildanên AI-ê yên Google, di Cotmehê de li ser "Rêbazan" şîret kir, ya ku Dean îdîa dike "mîmariya AI-ê nifşê din”ji bo hilberandina daneya pir-modal.

Hiş bikin, nêzîkatiya pir gelemperî ya data2vec ji tora yekane ya neuralî ya ji bo gelek modalîteyên hîna jî di derheqê celebên daneyên cihêreng de gelek agahdarî heye. Wêne, axaftin û nivîs hemî bi pêş-pêvajoya daneyan têne amadekirin. Bi vî rengî, hêmaya pir-modal a torê hîn jî xwe dispêre nîşaneyên di derbarê daneyan de, ya ku tîmê wekî "şîfrekerên têketinê yên modalîteyê yên piçûk" binav dike.

Jî: Google 'Pathways' eşkere dike, AI-ya nifşa paşîn ku dikare ji bo pir-peywiran were perwerde kirin

"Tevî rejîmek fêrbûna yekgirtî, em hîn jî hilkêşkerên taybetmendiya modalîteyê û stratejiyên maskkirinê bikar tînin," ew rave dikin.

Ji ber vê yekê, em hîna ne li cîhanek ne ku tora neuralî bê wate ji celebên daneya têketinê were perwerde kirin. Em di heman demê de ne di demek de ne ku tora neuralî bikaribe yek temsîlî ava bike ku hemî celebên daneya cihêreng tevdigere, da ku tora neuralî bi hev re tiştan fêr bibe.

Ev rastî ji danûstendina di navbera xwe de diyar dibe ZDNet û nivîskaran. ZDNet xwe gihand Baevskî û tîmê û jê pirsî, "Gelo nûnertiyên nepenî yên ku wekî armanc dixebitin kodkirina hevgirtî ya her sê modalîteyên di her gavek demkî de ne, an ew bi gelemperî tenê yek ji modalîteyan in?"

Baevski û tîmê bersiv didin ku ew doza paşîn e, û ya wan e reply balkêş e ku bi dirêjî vebêjin:

Guherbarên veşartî ji bo sê modalîteyên kodkirina hevgirtî ne. Em ji bo her modalîteyê modelên cihêreng perwerde dikin lê pêvajoya ku model tê de fêr dibin yek e. Ev nûbûniya sereke ya projeya me ye ji ber ku berê cûdahiyên mezin di awayê perwerdekirina modelan de di modalîteyên cihêreng de hebûn. Neuroscientists jî bawer dikin ku mirov bi awayên mîna deng û cîhana dîtbar hîn dibin. Projeya me nîşan dide ku fêrbûna xwe-serperiştiyê dikare ji bo modalîteyên cihêreng jî bi heman rengî bixebite.

Ji ber sînorkirinên modalîteyê yên data2vec, torgilokek neuralî ya ku dibe ku bi rastî be Yek Tora Ku Hemî Serwer Bike teknolojiya pêşerojê dimîne.

Kanî