Meta „data2vec“ yra kitas žingsnis link vieno neuroninio tinklo, kuris valdys juos visus

Lenktynės vyksta siekiant sukurti vieną neuroninį tinklą, galintį apdoroti kelių rūšių duomenis, ty bendresnio dirbtinio intelekto, kuris nediskriminuoja duomenų tipų, bet gali juos visus sutraiškyti toje pačioje pagrindinėje struktūroje, sąvoką.

Multimodalumo žanras, kaip šie neuroniniai tinklai vadinami, yra veiklos banga, kai skirtingi duomenys, pvz., vaizdas, tekstas ir kalbos garsas, perduodami naudojant tą patį algoritmą, kad būtų gautas rezultatas atliekant įvairius testus, pvz. vaizdo atpažinimas, natūralios kalbos supratimas ar kalbos aptikimas.

Ir šie abipusiai tinklai renka balus atliekant AI etaloninius testus. Naujausias pasiekimas yra vadinamasis „data2vec“, kurį sukūrė „Facebook“, „Instagram“ ir „WhatsApp“ patronuojančios įmonės „Meta“ AI padalinio mokslininkai.

Kaip rašo Metos mokslininkai Aleksejus Baevskis, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu ir Michael Auli, esmė yra priartėti prie kažko panašesnio į bendrąjį mokymosi gebėjimą, kurį, atrodo, apima žmogaus protas.

„Nors atrodo, kad žmonės mokosi panašiai, nepaisant to, kaip jie gauna informaciją – ar, pavyzdžiui, naudoja vaizdą, ar garsą“, – rašo autoriai. dienoraštyje, „šiuo metu yra didelių skirtumų, kaip“ neuroniniai tinklai apdoroja įvairių tipų duomenis, pvz., vaizdus, kalbą, tekstą ir kitus būdus.

„Pagrindinė šio požiūrio idėja“, – skelbia „data2vec“, „yra mokytis apskritai: AI turėtų išmokti atlikti daugybę skirtingų užduočių, įskaitant tas, kurios visiškai nepažįstamos“.

„Meta“ generalinis direktorius Markas Zuckerbergas pasiūlė citatą apie darbą, susiedamas jį su būsimu „Metaverse“:

Įspūdingas laimėjimas: Meta AI tyrimai sukūrė sistemą, kuri mokosi iš kalbos, regos ir teksto nereikalaujant žymėtų mokymo duomenų. Žmonės pasaulį patiria derindami vaizdą, garsą ir žodžius, o tokios sistemos vieną dieną galėtų suprasti pasaulį taip, kaip mes suprantame. Visa tai ilgainiui bus įmontuota į AR akinius su AI asistentu, todėl, pavyzdžiui, jis gali padėti jums gaminti vakarienę, pastebėti, jei praleidote ingredientą, paskatinti sumažinti šilumą arba atlikti sudėtingesnes užduotis.

Pavadinimas data2vec yra kalbos „įterpimo“ programos pavadinimo žaidimas. sukurta „Google“ 2013 m vadinamas „word2vec“. Ta programa numatė, kaip žodžiai susigrupuoja, todėl word2vec tai yra neuroninio tinklo, sukurto tam tikro tipo duomenims, tokiu atveju tekstui, atstovas.

Taip pat: Prašau, atidarykite ankšties skyriaus dureles, HAL: Meta AI imituoja skaitymą iš lūpų

Tačiau „data2vec“ atveju Baevskis ir kolegos naudoja standartinę „Transformerio“ versiją, kurią sukūrė Ashish Vaswani ir jo kolegos. „Google“ 2017 m ir išplėsti jį, kad būtų galima naudoti keliems duomenų tipams.

Transformatoriaus neuroninis tinklas iš pradžių buvo sukurtas kalbinėms užduotims, tačiau nuo to laiko jis buvo plačiai pritaikytas daugeliui duomenų. Baevskis ir kt. parodyta, kad transformatorius gali būti naudojamas įvairių rūšių duomenims apdoroti nepakeičiant, o išlavintas neuroninis tinklas gali atlikti kelias skirtingas užduotis.

Oficialiame dokumente „data2vec: Bendrieji savarankiškai prižiūrimo kalbos, regos ir kalbos mokymosi principai“, Baevski ir kt., moko Transformerį vaizdo duomenims, kalbos garso bangų formoms ir teksto kalbos atvaizdavimui.

„Data2vec“ yra „pirmasis didelio našumo savarankiškai prižiūrimas algoritmas, veikiantis įvairiems modalumams, būtent kalbai, regėjimui ir tekstui“, – rašo Baevski ir komanda tinklaraščio įraše.

Labai bendras transformatorius tampa vadinamuoju išankstiniu mokymu, kurį vėliau galima pritaikyti konkretiems neuroniniams tinklams, kad būtų galima atlikti konkrečias užduotis. Pavyzdžiui, autoriai naudoja „data2vec“ kaip išankstinį mokymą, kad sukurtų vadinamąjį „ViT“, „regėjimo transformatorių“, neuroninį tinklą, specialiai sukurtą regėjimo užduotims, buvo pristatytas pernai Aleksejus Dosovitskis ir kolegos iš Google.

Populiarus dabar
Wyze Switch apžvalga | PCMag

Meta rodo geriausius garbingo „ImageNet“ vaizdo atpažinimo konkurso balus.

Meta 2022

Naudojant ViT bandant išspręsti standartinį „ImageNet“ vaizdo atpažinimo testą, jų rezultatai patenka į paketo viršų, o jų tikslumas yra 84.1 %, geresnis nei 83.2 % balas, kurį gavo Microsoft komanda, kuri iš anksto apmokė. ViT, vadovaujamas Hangbo Bao, pernai.

Tas pats „data2vec Transformer“ išveda rezultatus, kurie yra moderniausi kalbos atpažinimo srityje ir yra konkurencingi, jei ne patys geriausi, mokantis natūralios kalbos:

Eksperimentiniai rezultatai rodo, kad „data2vec“ yra veiksmingas visais trimis būdais, sukuria naują ViT-B ir ViT-L technologijos lygį „ImageNet-1K“, pagerina ankstesnį kalbos apdorojimo darbą, susijusį su kalbos atpažinimu, ir veikia kaip RoBERTa. ant GLUE natūralios kalbos supratimo etalono.

Esmė ta, kad tai vyksta be jokių neuroninio tinklo modifikacijų, susijusių su vaizdais, taip pat kalbant ir tekste. Vietoj to, kiekvienas įvesties tipas patenka į tą patį tinklą ir atlieka tą pačią labai bendrą užduotį. Ši užduotis yra ta pati užduotis, kurią visada naudoja Transformatorių tinklai, žinoma kaip „užmaskuotas numatymas“.

Taip pat: „Google“ supermodelis: „DeepMind Perceiver“ yra žingsnis link dirbtinio intelekto mašinos, galinčios apdoroti bet ką ir viską

Tačiau būdas, kuriuo data2vec atlieka užmaskuotą numatymą, yra žinomas kaip „savarankiškas“ mokymasis. Savarankiškai prižiūrimoje aplinkoje neuroninis tinklas yra treniruojamas arba plėtojamas, kai reikia pereiti kelis etapus.

Pirma, tinklas sukuria bendros duomenų įvedimo tikimybės vaizdą, ar tai būtų vaizdai, kalba ar tekstas. Tada antrojoje tinklo versijoje kai kurie iš šių įvesties duomenų elementų yra „užmaskuoti“, liko neatskleistas. Ji turi atkurti bendrą tikimybę, kurią sukūrė pirmoji tinklo versija, o tai verčia kurti vis geresnius duomenų atvaizdus, iš esmės užpildant tuščias vietas.

Du tinklai, vienas su visa jungties tikimybės šablonu ir tas, kurio versija bandoma užbaigti, yra pakankamai protingai vadinami „mokytoju“ ir „mokiniu“. Mokinių tinklas bando ugdyti savo duomenų suvokimą, jei norite, rekonstruodamas tai, ką Mokytojas jau pasiekė.

Jūs galite žr. „Github“ modelių kodą.

Kaip neuroninis tinklas veikia mokytojui ir mokiniui, kai gaunami trys labai skirtingi duomenų tipai? Svarbiausia, kad bendros tikimybės „taikinys“ visais trimis duomenų atvejais nėra konkretus išvesties duomenų tipas, kaip yra konkretaus duomenų tipo transformatoriaus versijose, pvz., Google BERT arba OpenAI GPT-3. .

Atvirkščiai, data2vec paima kai kuriuos neuroninio tinklo sluoksnius viduje neuroninis tinklas, esantis kažkur viduryje, vaizduojantis duomenis prieš kiekvieną jų sukuriant kaip galutinę išvestį.

Kaip rašo autoriai: „Vienas pagrindinių mūsų metodo skirtumų, išskyrus užmaskuotą numatymą, yra taikinių, pagrįstų kelių mokytojų tinklo sluoksnių vidurkiu, naudojimas. Tiksliau, „mes regresuojame kelis neuroninio tinklo sluoksnio vaizdus, o ne tik viršutinį sluoksnį“, kad „data2vec numatytų latentinius įvesties duomenų vaizdus“.

Jie priduria: „Mes paprastai naudojame FFN [tiekimo pirmyn tinklas] išvestį prieš paskutinį likusį ryšį kiekviename bloke kaip tikslą“, kur „blokas“ yra neuroninio tinklo sluoksnio transformatoriaus atitikmuo.

Esmė ta, kad kiekvienas įeinantis duomenų tipas tampa tuo pačiu iššūkiu Mokinio tinklui rekonstruoti kažką Mokytojo sukurto neuroninio tinklo viduje.

Šis vidurkis skiriasi nuo kitų naujausių metodų kuriant „One Network To Crunch All Data“. Pavyzdžiui, praėjusią vasarą „Google“ padalinys „DeepMind“ pasiūlė tai, ką jis vadina „Perceiver“, savo daugiarūšę „Transformer“ versiją. Perceiver neuroninio tinklo mokymas yra labiau standartinis procesas, kai gaunama išvestis, kuri yra atsakymas į pažymėtą, prižiūrimą užduotį, pvz., „ImageNet“. Taikant savarankiškai prižiūrimą metodą, data2vec nenaudoja šių etikečių, ji tik bando atkurti tinklo vidinį duomenų atvaizdavimą.

Dar ambicingesnės pastangos slypi sparnuose. Jeffas Deanas, „Google“ AI pastangų vadovas, spalį erzino apie „Pathways“, ką Deanas teigia, kad „naujos kartos AI architektūra“ daugiarūšiam duomenų apdorojimui.

Atminkite, kad labai bendras „data2vec“ požiūris į vieną neuroninį tinklą keliems modalumams vis dar turi daug informacijos apie skirtingus duomenų tipus. Vaizdas, kalba ir tekstas paruošiami iš anksto apdorojant duomenis. Tokiu būdu daugiarūšis tinklo aspektas vis dar priklauso nuo užuominų apie duomenis, kuriuos komanda vadina „mažais specifinio modalumo įvesties kodavimo įrenginiais“.

Taip pat: „Google“ pristato „Pathways“ – naujos kartos dirbtinį intelektą, kurį galima išmokyti atlikti kelias užduotis

„Nepaisant vieningo mokymosi režimo, mes vis dar naudojame specifinių modalumo savybių ištraukiklius ir maskavimo strategijas“, – aiškina jie.

Vadinasi, dar nesame pasaulyje, kuriame neuroninis tinklas būtų treniruojamas be jokios prasmės įvesties duomenų tipams. Taip pat nesame tokio momento, kai neuroninis tinklas gali sukurti vieną atvaizdą, apjungiantį visus skirtingus duomenų tipus, kad neuroninis tinklas mokytųsi dalykų kartu.

Tas faktas paaiškėja iš tarpusavio mainų ZDNet ir autoriai. ZDNet kreipėsi į Baevskį ir komandą ir paklausė: „Ar latentinės reprezentacijos, kurios naudojamos kaip taikiniai, yra kombinuota visų trijų modalumo koduotė bet kuriuo laiko žingsniu, ar dažniausiai tai tik vienas iš modalumo?

Baevskis ir komanda atsako, kad tai yra pastarasis atvejis, o jų reply įdomu pacituoti ilgai:

Latentiniai kintamieji nėra kombinuota trijų modalų koduotė. Mes mokome atskirus modelius kiekvienam būdui, tačiau procesas, kurio metu modeliai mokosi, yra identiškas. Tai yra pagrindinė mūsų projekto naujovė, nes anksčiau buvo didelių skirtumų, kaip modeliai mokomi įvairiais būdais. Neurologai taip pat mano, kad žmonės panašiai mokosi apie garsus ir vizualinį pasaulį. Mūsų projektas rodo, kad savarankiškai prižiūrimas mokymasis taip pat gali veikti skirtingais būdais.

Atsižvelgiant į specifinius „data2vec“ modalumo apribojimus, neuroninis tinklas, kuris tikrai gali būti Vienas tinklas, valdantis juos visus išlieka ateities technologija.

Šaltinis

Ankstesnis

Kitas Rašyti

Meta „data2vec“ yra kitas žingsnis link vieno neuroninio tinklo, kuris valdys juos visus

Privaloma programinė įranga 2024 m

Populiariausios kategorijos

Naujausi atsiliepimai

„Samsung Galaxy Z Flip 5“ anonsinis vaizdo įrašas, prieš „Galaxy Unpacked“ renginį, rodomas naujas vyrių dizainas, spalvų parinktys

„Twitter“ riboja nepatvirtintų vartotojų galimų siųsti DM skaičių

Mano mėgstamiausias „Android“ telefonas gali daryti tai, ko negali mano „iPhone 14 Pro Max“.

„ChatGPT“, skirta „Android“, bus paleista kitą savaitę, todėl galite iš anksto užsiregistruoti dabar

„Xiaomi Smart TV 32A“, „Smart TV 40A“, „Smart TV 43A“ su „Google TV“, Indijoje pristatyti 20 W garsiakalbiai: : Kaina, specifikacijos

Ši valgoma baterija galėtų aprūpinti diagnostikos ir tvarios energijos pasaulį