'data2vec' Meta minangka langkah sabanjure menyang One Neural Network kanggo Mrentah Kabeh

Lomba kasebut bakal nggawe jaringan saraf sing bisa ngolah macem-macem jinis data, yaiku intelijen buatan sing luwih umum sing ora mbedakake jinis data, nanging bisa ngrusak kabeh ing struktur dhasar sing padha.

Genre multi-modalitas, kaya sing diarani jaringan saraf iki, ndeleng kerumitan aktivitas ing ngendi data sing beda, kayata gambar, teks, lan audio wicara, dilewati liwat algoritma sing padha kanggo ngasilake skor ing tes sing beda kayata pangenalan gambar, pangerten basa alam utawa deteksi wicara.

Lan jaringan ambidextrous iki entuk skor ing tes benchmark AI. Prestasi paling anyar yaiku sing diarani 'data2vec,' sing dikembangake dening peneliti ing divisi AI Meta, induk Facebook, Instagram, lan WhatsApp. 

Intine, kaya sing ditulis para ilmuwan Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, lan Michael Auli, yaiku nyedhaki kemampuan sinau umum sing katon ing pikiran manungsa.

"Nalika wong katon sinau kanthi cara sing padha, preduli saka cara entuk informasi - umpamane, nggunakake pandeleng utawa swara," panulis nulis. ing postingan blog, "Saiki ana bedane gedhe ing cara" jaringan saraf nangani macem-macem jinis data kayata gambar, wicara, teks, "lan modalitas liyane."

"Ide inti saka pendekatan iki," ujare data2vec, "yaiku sinau luwih umum: AI kudu bisa sinau nindakake macem-macem tugas, kalebu sing ora dingerteni."

CEO Meta, Mark Zuckerberg, nawakake kutipan babagan karya kasebut, nyambungake menyang Metaverse ing mangsa ngarep:

Terobosan sing nyenengake: Riset Meta AI nggawe sistem sing sinau saka wicara, sesanti lan teks tanpa mbutuhake data latihan sing dilabeli. Wong ngalami donya liwat kombinasi saka pandelengan, swara lan tembung, lan sistem kaya iki siji dina bisa ngerti donya cara kita apa. Iki kabeh pungkasane bakal dibangun ing kaca tingal AR karo asisten AI supaya, contone, bisa mbantu sampeyan masak nedha bengi, ngelingi yen sampeyan ora kejawab bahan, nyebabake sampeyan nyuda panas, utawa tugas sing luwih rumit.

Jeneng data2vec minangka dolanan saka jeneng program kanggo "embedding" basa dikembangake ing Google ing 2013 diarani "word2vec." Program kasebut prédhiksi carane tembung kluster bebarengan, lan word2vec minangka perwakilan saka jaringan saraf sing dirancang kanggo jinis data tartamtu, ing kasus kasebut teks. 

uga: Bukak lawang pod bay, mangga, HAL: Meta's AI simulasi maca lambe

Nanging ing kasus data2vec, Baevski lan kanca-kancane njupuk versi standar sing diarani Transformer, sing dikembangake dening Ashish Vaswani lan kanca-kancane. ing Google ing 2017 lan ndawakake kanggo digunakake kanggo macem-macem jinis data. 

Jaringan syaraf Transformer wiwitane dikembangake kanggo tugas basa, nanging wis diadaptasi kanthi akeh ing taun-taun kasebut kanggo macem-macem jinis data. Baevski et al. nuduhake yen Transformer bisa digunakake kanggo ngolah macem-macem jinis data tanpa diowahi, lan jaringan syaraf terlatih sing asile bisa nindakake macem-macem tugas. 

Ing koran resmi, "data2vec: A Framework Umum kanggo Self-supervised Learning ing Speech, Vision lan Language, "Baevski et al., nglatih Transformer kanggo data gambar, gelombang audio ucapan, lan representasi basa teks. 

Data2vec minangka "algoritma pengawasan dhiri kanthi kinerja dhuwur pisanan sing bisa digunakake kanggo macem-macem modalitas, yaiku wicara, sesanti, lan teks," tulis Baevski lan tim ing postingan blog.

Transformer sing umum banget dadi sing diarani pra-latihan sing banjur bisa ditrapake ing jaringan saraf tartamtu kanggo nindakake tugas tartamtu. Contone, penulis nggunakake data2vec minangka pra-training kanggo nglengkapi apa sing diarani "ViT," "Transformer visi," jaringan saraf sing dirancang khusus kanggo tugas visi. ditepangake taun kepungkur dening Alexey Dosovitskiy lan kolega ing Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta nuduhake skor paling dhuwur kanggo kompetisi pangenalan gambar ImageNet.


Gol 2022

Nalika digunakake ing ViT kanggo nyoba ngrampungake tes pangenalan gambar ImageNet standar, asile ana ing ndhuwur paket, kanthi akurasi 84.1%, luwih apik tinimbang skor 83.2% sing ditampa dening tim Microsoft sing wis dilatih. ViT, dipimpin dening Hangbo Bao, pungkasan taun.

Lan Transformer data2vec sing padha ngasilake asil sing canggih kanggo pangenalan wicara lan sing kompetitif, yen dudu sing paling apik, kanggo sinau basa alami:

Asil eksperimen nuduhake data2vec dadi efektif ing kabeh telung modalitas, nyetel kahanan anyar kanggo ViT-B lan ViT-L ing ImageNet-1K, ningkatake karya sadurunge sing paling apik ing pangolahan wicara ing pangenalan wicara lan kinerja sing padha karo RoBERTa ing pathokan pemahaman basa alam GLUE. 

Intine yaiku kedadeyan kasebut tanpa modifikasi jaringan saraf babagan gambar, lan padha karo ucapan lan teks. Nanging, saben jinis input mlebu ing jaringan sing padha, lan ngrampungake tugas umum sing padha. Tugas kasebut minangka tugas sing padha karo jaringan Transformer, sing dikenal minangka "prediksi topeng." 

uga: Supermodel Google: DeepMind Perceiver minangka langkah ing dalan menyang mesin AI sing bisa ngolah apa wae lan kabeh

Nanging, cara data2vec nindakake prediksi topeng, yaiku pendekatan sing dikenal minangka pembelajaran "diawasi dhewe". Ing setelan sing diawasi dhewe, jaringan saraf dilatih, utawa dikembangake, kanthi kudu ngliwati pirang-pirang tahapan. 

Kaping pisanan, jaringan nggawe perwakilan saka kemungkinan gabungan input data, yaiku gambar utawa ucapan utawa teks. Banjur, versi liya saka jaringan duwe sawetara item data input sing "ditutup", ora diungkapake. Sampeyan kudu mbangun maneh kemungkinan gabungan sing dibangun ing versi pisanan jaringan, sing meksa nggawe perwakilan data sing luwih apik lan luwih apik kanthi ngisi kekosongan. 

meta-2022-data2vec-network-architecture.jpg

Ringkesan pendekatan data2vec.


Gol 2022

Jaringan loro kasebut, siji kanthi pola lengkap kemungkinan gabungan, lan siji kanthi versi sing ora lengkap sing dicoba rampung, diarani, cukup akal, "Guru" lan "Mahasiswa." Jaringan Siswa nyoba ngembangake data kasebut, yen sampeyan pengin, kanthi mbangun maneh apa sing wis digayuh dening Guru.

sampeyan bisa ndeleng kode kanggo model ing Github.

Kepiye carane jaringan saraf nindakake Guru lan Siswa kanggo telung jinis data sing beda banget? Kuncine yaiku "target" kemungkinan gabungan, ing kabeh telung kasus data, dudu jinis data output tartamtu, kaya sing kedadeyan ing versi Transformer kanggo jinis data tartamtu, kayata BERT Google utawa OpenAI's GPT-3 . 

Nanging, data2vec njupuk sawetara lapisan jaringan saraf nang jaringan syaraf, nang endi wae ing tengah, sing makili data sadurunge saben diprodhuksi minangka output final. 

Minangka panulis nulis, "Salah sawijining prabédan utama metode kita [...] liyane saka nindakake prediksi topeng, yaiku nggunakake target sing adhedhasar rata-rata pirang-pirang lapisan saka jaringan guru." Khusus, "kita mbatalake sawetara perwakilan lapisan jaringan saraf tinimbang mung lapisan ndhuwur," supaya "data2vec prédhiksi perwakilan laten saka data input."

Dheweke nambahake, "Kita umume nggunakake output FFN [jaringan feed-forward] sadurunge sambungan sisa pungkasan ing saben blok minangka target," ing ngendi "blok" minangka Transformer sing padha karo lapisan jaringan saraf.

Intine saben jinis data sing mlebu dadi tantangan sing padha kanggo jaringan Siswa kanggo mbangun maneh soko ing jaringan saraf sing wis digawe dening Guru.

Rata-rata iki beda karo pendekatan anyar liyane kanggo mbangun One Network To Crunch All Data. Contone, musim panas pungkasan, unit DeepMind Google nawakake apa sing diarani "Perceiver," versi Transformer multi-modal dhewe. Pelatihan jaringan saraf Perceiver minangka proses sing luwih standar kanggo ngasilake output sing minangka jawaban kanggo tugas sing diawasi kanthi label kayata ImageNet. Ing pendekatan sing diawasi dhewe, data2vec ora nggunakake label kasebut, nanging mung nyoba mbangun maneh perwakilan internal jaringan data kasebut. 

Malah luwih ambisi efforts dumunung ing swiwi. Jeff Dean, kepala upaya AI Google, ing Oktober nggodha babagan "Pathways," sing diklaim Dean minangka "generasi sabanjure arsitektur AI"kanggo pangolahan data multi-modal.

Pikirane, pendekatan data2vec sing umum banget kanggo jaringan saraf siji kanggo macem-macem modalitas isih akeh informasi babagan macem-macem jinis data. Gambar, wicara lan teks kabeh disiapake kanthi pra-proses data. Kanthi cara kasebut, aspek multi-modal jaringan isih gumantung marang pitunjuk babagan data, sing diarani tim kasebut minangka "enkoder input khusus modalitas cilik."

uga: Google mbukak 'Pathways', AI generasi sabanjure sing bisa dilatih kanggo mbukak akeh tugas

"Sanajan rezim sinau sing manunggal, kita isih nggunakake extractors fitur khusus modalitas lan strategi masking," padha nerangake.

Mula, kita durung ana ing jagad sing neural net dilatih tanpa ngerti jinis data input. Kita uga ora ana ing wektu nalika jaringan saraf bisa mbangun siji perwakilan sing nggabungake kabeh jinis data sing beda-beda, supaya jaringan saraf sinau babagan kombinasi.

Kasunyatan iku digawe cetha saka ijol-ijolan antarane ZDNet lan penulis. ZDNet tekan Baevski lan tim lan takon, "Apa perwakilan laten sing dadi target minangka enkoding gabungan kabeh telung modalitas ing sembarang langkah wektu, utawa biasane mung salah siji saka modalitas?"

Baevski lan tim nanggapi yen iki kasus terakhir, lan dheweke reply menarik kanggo dikutip kanthi dawa:

Variabel laten dudu enkoding gabungan kanggo telung modalitas kasebut. Kita nglatih model sing kapisah kanggo saben modalitas nanging proses sinau model kasebut padha. Iki minangka inovasi utama proyek kita wiwit sadurunge ana beda gedhe babagan cara model dilatih ing macem-macem modalitas. Ilmuwan saraf uga percaya yen manungsa sinau kanthi cara sing padha babagan swara lan jagad visual. Proyek kita nuduhake manawa sinau sing diawasi dhewe uga bisa digunakake kanthi cara sing padha kanggo macem-macem modalitas.

Diwenehi watesan khusus modalitas data2vec, jaringan saraf sing bisa uga Siji Jaringan Kanggo Mrentah Kabeh tetep teknologi masa depan.

sumber