Meta 'data2vec' on järgmine samm ühe närvivõrgu suunas, et neid kõiki valitseda

Võistlus on käimas selle nimel, et luua üks närvivõrk, mis suudab töödelda mitut tüüpi andmeid – üldisema tehisintellekti mõiste, mis ei tee vahet andmetüüpide osas, vaid suudab need kõik samas põhistruktuuris purustada.

Multimodaalsuse žanr, nagu neid närvivõrke kutsutakse, on tegevuste hoog, kus erinevad andmed, nagu pilt, tekst ja kõneheli, juhitakse läbi sama algoritmi, et saada tulemus erinevatel testidel, näiteks pildituvastus, loomuliku keele mõistmine või kõnetuvastus.

Ja need kahekäelised võrgud koguvad AI võrdlustestide tulemusi. Viimane saavutus on nn data2vec, mille on välja töötanud Facebooki, Instagrami ja WhatsAppi vanema Meta AI osakonna teadlased. 

Nagu Meta teadlased Aleksei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu ja Michael Auli kirjutavad, on mõte läheneda millelegi, mis sarnaneb üldisele õppimisvõimele, mida inimmõistus näib hõlmavat.

"Kuigi inimesed näivad õppivat sarnaselt olenemata sellest, kuidas nad teavet saavad - kas nad kasutavad näiteks nägemist või heli," kirjutavad autorid. In blogi postitus, "praegu on suured erinevused selles, kuidas närvivõrgud töötlevad erinevat tüüpi andmeid, nagu pildid, kõne, tekst ja muud viisid".

"Selle lähenemisviisi põhiidee," kinnitavad nad Data2veci kohta, "on õppida üldisemalt: tehisintellekt peaks suutma õppida tegema palju erinevaid ülesandeid, sealhulgas neid, mis on täiesti võõrad."

Meta tegevjuht Mark Zuckerberg pakkus töö kohta tsitaadi, sidudes selle tulevase Metaverse'iga:

Põnev läbimurre: Meta AI-uuringud lõid süsteemi, mis õpib kõnest, nägemisest ja tekstist, ilma et oleks vaja märgistatud treeningandmeid. Inimesed kogevad maailma nägemise, heli ja sõnade kombinatsiooni kaudu ning sellised süsteemid võivad ühel päeval mõista maailma nii, nagu meie seda teeme. See kõik integreeritakse lõpuks AR-prillidele koos AI-assistendiga, nii et see võib aidata teil näiteks õhtusööki valmistada, märgata, kui mõni koostisosa vahele jääb, paluda teil kuumust vaigistada või teha keerukamaid ülesandeid.

Nimi data2vec on mäng keele "manustamise" programmi nimele välja töötatud Google'is 2013. aastal nimega "word2vec". See programm ennustas, kuidas sõnad kokku koonduvad, ja seega esindab see word2vec närvivõrku, mis on loodud teatud tüüpi andmete, antud juhul teksti jaoks. 

Ka: Palun avage kapiuksed, HAL: Meta AI simuleerib huult lugemist

Data2veci puhul võtavad Baevski ja kolleegid aga Ashish Vaswani ja kolleegide välja töötatud transformaatori standardversiooni. Google'is 2017. aastal ja laiendades seda kasutamiseks mitme andmetüübi jaoks. 

Transformeri närvivõrk töötati algselt välja keeleülesannete jaoks, kuid seda on aastate jooksul laialdaselt kohandatud mitmesuguste andmete jaoks. Baevski jt. näitavad, et Transformerit saab kasutada erinevat tüüpi andmete töötlemiseks ilma muutmata ja väljaõppinud närvivõrk, mille tulemuseks on mitu erinevat ülesannet. 

Ametlikus dokumendis "data2vec: kõne, nägemise ja keele enesekontrolliga õppimise üldine raamistik”, Baevski jt koolitavad Transformerit pildiandmete, kõne heli lainekujude ja tekstikeele esituste jaoks. 

Data2vec on "esimene suure jõudlusega iseseisva järelevalvega algoritm, mis töötab mitmel viisil, nimelt kõne, nägemise ja teksti jaoks," kirjutavad Baevski ja meeskond ajaveebi postituses.

Väga üldisest transformaatorist saab nn eelkoolitus, mida saab seejärel rakendada konkreetsetes närvivõrkudes, et täita konkreetseid ülesandeid. Näiteks kasutavad autorid eelkoolitusena data2veci, et varustada nn ViT-ga, nägemistransformaatoriga, närvivõrguga, mis on spetsiaalselt loodud nägemisülesannete jaoks. võeti kasutusele eelmisel aastal autor Alexey Dosovitskiy ja kolleegid Google'ist. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta näitab auväärse ImageNeti pildituvastusvõistluse parimaid tulemusi.


Meta 2022

Kui seda kasutatakse ViT-is pildituvastuse standardse ImageNeti testi lahendamiseks, on nende tulemused komplekti ülaosas, 84.1% täpsusega, mis on parem kui 83.2% skoor, mille sai Microsofti eelkoolituse teinud meeskond. ViT, mida juhib Hangbo Bao, mullu.

Ja sama data2vec Transformer väljastab tulemusi, mis on kõnetuvastuse tipptasemel ja mis on loomuliku keele õppimise jaoks konkurentsivõimelised, kui mitte parimad:

Katsetulemused näitavad, et data2vec on tõhus kõigis kolmes režiimis, seades ViT-B ja ViT-L jaoks ImageNet-1K jaoks uue tehnika taseme, parandades kõnetuvastusega seotud kõnetöötluse parimat eelnevat tööd ja toimides samaväärselt RoBERTa-ga. GLUE loomuliku keele mõistmise etalonil. 

Tuum on selles, et see toimub ilma närvivõrku muutmata, et see hõlmaks pilte, samamoodi kõne ja teksti puhul. Selle asemel läheb iga sisenditüüp samasse võrku ja täidab sama väga üldist ülesannet. See ülesanne on sama ülesanne, mida Transformeri võrgud alati kasutavad, mida nimetatakse "maskeeritud ennustamiseks". 

Ka: Google'i supermudel: DeepMind Perceiver on samm teel AI-masina poole, mis suudab töödelda kõike ja kõike

Seda, kuidas data2vec varjatud ennustusi teostab, nimetatakse aga „enesejärelevalvega” õppimiseks. Enesejärelevalvega keskkonnas treenitakse või arendatakse närvivõrku, mis peab läbima mitu etappi. 

Esiteks konstrueerib võrk esituse andmete sisestamise ühisest tõenäosusest, olgu see siis pilt või kõne või tekst. Seejärel on võrgu teises versioonis mõned neist sisendandmetest "maskeeritud", jäetud avaldamata. See peab rekonstrueerima võrgu esimese versiooni koostatud ühise tõenäosuse, mis sunnib teda sisuliselt lünki täites looma üha paremaid andmete esitusi. 

meta-2022-data2vec-network-architecture.jpg

Ülevaade data2vec lähenemisviisist.


Meta 2022

Neid kahte võrku, üht, millel on täielik ühine tõenäosusmuster, ja seda, mille versioon on mittetäielik, mida see proovib täita, nimetatakse mõistlikult "õpetajaks" ja "õpilaseks". Õpilaste võrgustik püüab arendada oma andmete tajumist, kui soovite, rekonstrueerides seda, mida õpetaja oli juba saavutanud.

Võite vaadake mudelite koodi Githubis.

Kuidas toimib närvivõrk kolme väga erinevat tüüpi andmete puhul õpetajale ja õpilasele? Peamine on see, et kõigi kolme andmejuhtumi ühise tõenäosuse sihtmärk ei ole konkreetne väljundandmetüüp, nagu see on konkreetse andmetüübi jaoks mõeldud Transformeri versioonides, nagu Google'i BERT või OpenAI GPT-3. . 

Pigem haarab data2vec hunniku närvivõrgu kihte, mis on sees närvivõrk, kuskil keskel, mis esindab andmeid enne, kui need lõpliku väljundina genereeritakse. 

Nagu autorid kirjutavad: "Meie meetodi […] üks peamisi erinevusi peale maskeeritud ennustamise on sihtmärkide kasutamine, mis põhinevad õpetajavõrgustiku mitme kihi keskmistamisel." Täpsemalt, "me regresseerime mitme närvivõrgu kihi esituse, mitte ainult ülemise kihi", nii et "data2vec ennustab sisendandmete varjatud esitusi".

Nad lisavad: "Me kasutame tavaliselt sihtmärgina FFN-i [edasivooluvõrk] väljundit enne viimast jääkühendust igas plokis", kus "plokk" on närvivõrgu kihi transformaatori ekvivalent.

Asi on selles, et iga sissetulev andmetüüp muutub õpilaste võrgu jaoks samaks väljakutseks rekonstrueerida midagi õpetaja koostatud närvivõrgu sees.

See keskmistamine erineb teistest hiljutistest lähenemisviisidest One Network To Crunch All Data loomiseks. Näiteks eelmisel suvel pakkus Google'i üksus DeepMind välja nn Perceiver, mis on Transformeri enda multimodaalne versioon. Perceiveri närvivõrgu väljaõpe on standardsem protsess väljundi loomiseks, mis on vastus märgistatud, järelevalve all olevale ülesandele, nagu ImageNet. Enesejärelevalvega lähenemisviisis ei kasuta data2vec neid silte, vaid üritab lihtsalt rekonstrueerida võrgu sisemist andmete esitust. 

Veelgi ambitsioonikamad jõupingutused on tiibades. Google'i tehisintellekti jõupingutuste juht Jeff Dean kiusas oktoobris teemal "Pathways", mis Deani väitel on "järgmise põlvkonna AI arhitektuur” multimodaalseks andmetöötluseks.

Pidage meeles, et data2veci väga üldine lähenemine ühele närvivõrgule mitme modaalsuse jaoks sisaldab endiselt palju teavet erinevate andmetüüpide kohta. Pilt, kõne ja tekst valmistatakse ette andmete eeltöötlemise teel. Sel viisil tugineb võrgu multimodaalne aspekt endiselt vihjetele andmete kohta, mida meeskond nimetab "väikesteks modaalsusspetsiifilisteks sisendkooderiteks".

Ka: Google tutvustab 'Pathways', järgmise põlvkonna tehisintellekti, mida saab treenida multitegumtööks

"Hoolimata ühtsest õpperežiimist kasutame endiselt modaalsusspetsiifilisi funktsioonide ekstraktijaid ja maskeerimisstrateegiaid," selgitavad nad.

Seega ei ole me veel maailmas, kus närvivõrku treenitakse, ilma et sisendandmete tüüpidest oleks mingit mõtet. Me ei ole ka hetkel, mil närvivõrk suudab luua ühe esituse, mis ühendab kõik erinevad andmetüübid, nii et närvivõrk õpib asju kombineeritult.

See asjaolu selgub omavahelisest vahetusest ZDNet ja autorid. ZDNet pöördus Baevski ja meeskonna poole ning küsis: "Kas sihtmärkidena kasutatavad varjatud esitused on kõigi kolme modaalsuse kombineeritud kodeering igal ajahetkel või on need tavaliselt vaid üks modaalsustest?"

Baevski ja meeskond vastavad, et see on viimane juhtum ja nende reply on huvitav pikalt tsiteerida:

Varjatud muutujad ei ole kolme modaalsuse kombineeritud kodeering. Koolitame iga modaalsuse jaoks eraldi mudeleid, kuid protsess, mille kaudu mudelid õpivad, on identne. See on meie projekti peamine uuendus, kuna varem olid mudelite erinevatel viisidel väljaõppes suured erinevused. Neuroteadlased usuvad ka, et inimesed õpivad helide ja visuaalse maailma kohta sarnasel viisil. Meie projekt näitab, et iseseisvalt juhendatud õppimine võib toimida erinevatel viisidel samamoodi.

Arvestades data2veci modaalsuse spetsiifilisi piiranguid, võib tõesti olla närvivõrk Üks võrk nende kõigi valitsemiseks jääb tuleviku tehnoloogiaks.

allikas