Meta's 'data2vec' jẹ igbesẹ t’okan si Nẹtiwọọki Neural Kan lati ṣe akoso Gbogbo wọn

Ere-ije naa wa lati ṣẹda nẹtiwọọki nkankikan kan ti o le ṣe ilana awọn iru data lọpọlọpọ, imọran ti oye itetisi atọwọda gbogbogbo diẹ sii ti ko ṣe iyatọ nipa awọn iru data ṣugbọn dipo le pa gbogbo wọn run laarin eto ipilẹ kanna.

Ẹya ti ọpọlọpọ-modality, bi a ti pe awọn nẹtiwọọki nkankikan wọnyi, n rii irusoke iṣẹ ṣiṣe ninu eyiti awọn data oriṣiriṣi, gẹgẹbi aworan, ọrọ, ati ohun ọrọ, ti kọja nipasẹ algorithm kanna lati ṣe agbejade Dimegilio lori awọn idanwo oriṣiriṣi bii bii idanimọ aworan, oye ede adayeba tabi wiwa ọrọ.

Ati pe awọn nẹtiwọọki ambidextrous wọnyi n gbe awọn ikun soke lori awọn idanwo ala-ilẹ ti AI. Aṣeyọri tuntun ni ohun ti a pe ni 'data2vec,' ni idagbasoke nipasẹ awọn oniwadi ni pipin AI ti Meta, obi ti Facebook, Instagram, ati WhatsApp. 

Ojuami, bi awọn onimọ-jinlẹ Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, ati Michael Auli, kọ, ni lati sunmọ nkan diẹ sii bi agbara ikẹkọ gbogbogbo ti ọkan eniyan dabi pe o yika.

"Lakoko ti awọn eniyan han lati kọ ẹkọ ni ọna kanna laibikita bi wọn ṣe gba alaye - boya wọn lo oju tabi ohun, fun apẹẹrẹ," awọn onkọwe kọ ni ipo ifiweranṣẹ kan, “Lọwọlọwọ awọn iyatọ nla wa ni ọna” awọn nẹtiwọọki nkankikan n ṣakoso awọn oriṣiriṣi iru data gẹgẹbi awọn aworan, ọrọ sisọ, ọrọ, “ati awọn ilana miiran.”

“Ero pataki ti ọna yii,” wọn kede data2vec, “ni lati ni imọ siwaju sii ni gbogbogbo: AI yẹ ki o ni anfani lati kọ ẹkọ lati ṣe ọpọlọpọ awọn iṣẹ ṣiṣe lọpọlọpọ, pẹlu awọn ti ko mọ patapata.”

Alakoso Meta, Mark Zuckerberg, funni ni agbasọ kan nipa iṣẹ naa, ti o so mọ Metaverse iwaju kan:

Aṣeyọri iwunilori: Iwadi Meta AI ṣe eto ti o kọ ẹkọ lati ọrọ, iran ati ọrọ laisi nilo data ikẹkọ aami. Awọn eniyan ni iriri agbaye nipasẹ apapọ oju, ohun ati awọn ọrọ, ati awọn ọna ṣiṣe bii eyi le loye ni ọjọ kan agbaye ni ọna ti a ṣe. Eyi yoo ṣe gbogbo rẹ nikẹhin sinu awọn gilaasi AR pẹlu oluranlọwọ AI nitoribẹẹ, fun apẹẹrẹ, o le ṣe iranlọwọ fun ọ lati ṣe ounjẹ alẹ, ṣe akiyesi ti o ba padanu eroja kan, ti nfa ọ lati yi ooru silẹ, tabi awọn iṣẹ ṣiṣe eka diẹ sii.

Orukọ data2vec jẹ ere lori orukọ eto kan fun ede “ifibọ” ni idagbasoke ni Google ni 2013 ti a npe ni "word2vec." Eto yẹn sọ asọtẹlẹ bii iṣupọ awọn ọrọ papọ, ati nitorinaa word2vec o jẹ aṣoju ti nẹtiwọọki nkankikan ti a ṣe apẹrẹ fun iru data kan pato, ninu ọran yẹn ọrọ. 

tun: Ṣii awọn ilẹkun pod bay, jọwọ, HAL: Meta's AI ṣe afarawe kika-ẹnu

Ninu ọran data2vec, sibẹsibẹ, Baevski ati awọn ẹlẹgbẹ n mu ẹya boṣewa ti ohun ti a pe ni Amunawa, ti Ashish Vaswani ati awọn ẹlẹgbẹ ti dagbasoke. Google ni ọdun 2017 ati ki o gbooro sii lati ṣee lo fun ọpọ data orisi. 

Nẹtiwọọki nkankikan ti Transformer jẹ idagbasoke ni akọkọ fun awọn iṣẹ ṣiṣe ede, ṣugbọn o ti ni iyipada jakejado ni awọn ọdun lati igba fun ọpọlọpọ iru data. Baevski et al. fihan pe Amunawa le ṣee lo lati ṣe ilana awọn iru data lọpọlọpọ laisi iyipada, ati nẹtiwọọki alakikan ti oṣiṣẹ ti awọn abajade le ṣe lori awọn iṣẹ ṣiṣe oriṣiriṣi lọpọlọpọ. 

Ninu iwe aṣẹ,data2vec: Ilana Gbogbogbo fun Ẹkọ Abojuto Ara-ẹni ni Ọrọ, Iran ati Ede, "Baevski et al., Kọ Oluyipada fun data aworan, awọn igbi ohun afetigbọ ọrọ, ati awọn aṣoju ede ọrọ. 

Data2vec jẹ "Algorithm ti iṣakoso ti ara ẹni ti o ga julọ ti o ṣiṣẹ fun awọn ọna ṣiṣe pupọ, eyun ọrọ, iran, ati ọrọ," kọ Baevski ati ẹgbẹ ninu bulọọgi bulọọgi.

Amunawa gbogbogbo di ohun ti a pe ni ikẹkọ iṣaaju ti o le ṣe lo si awọn nẹtiwọọki nkankikan pato lati le ṣe lori awọn iṣẹ ṣiṣe kan pato. Fun apẹẹrẹ, awọn onkọwe lo data2vec bi ikẹkọ iṣaaju lati pese ohun ti a pe ni “ViT,” “Ayipada iran,” nẹtiwọọki nkankikan ti a ṣe apẹrẹ pataki fun awọn iṣẹ ṣiṣe iran ti ti a ṣe ni odun to koja nipasẹ Alexey Dosovitskiy ati awọn ẹlẹgbẹ ni Google. 

meta-2022-data2vec-ikun-on-vit-test.jpg

Meta ṣe afihan awọn ikun oke fun idije idanimọ aworan ImageNet ọlá.


Afojusun 2022

Nigbati o ba lo lori ViT lati gbiyanju lati yanju idanwo boṣewa ImageNet ti idanimọ aworan, awọn abajade wọn wa ni oke idii naa, pẹlu deede ti 84.1%, dara julọ ju Dimegilio ti 83.2% ti ẹgbẹ kan gba ni Microsoft ti o kọkọ-kọṣẹ tẹlẹ. ViT, asiwaju nipasẹ Hangbo Bao, odun to koja.

Ati data2vec Transformer kanna ni awọn abajade abajade ti o jẹ ipo ti aworan fun idanimọ ọrọ ati ti o jẹ ifigagbaga, ti kii ba dara julọ, fun kikọ ẹkọ ede abinibi:

Awọn abajade esiperimenta fihan data2vec lati ni imunadoko ni gbogbo awọn ọna ṣiṣe mẹta, ṣeto ipo tuntun ti aworan fun ViT-B ati ViT-L lori ImageNet-1K, ilọsiwaju lori iṣẹ iṣaaju ti o dara julọ ni sisọ ọrọ sisọ lori idanimọ ọrọ ati ṣiṣe ni par to RoBERTa lori ipilẹ oye ede adayeba GLUE. 

Awọn crux ni pe eyi n ṣẹlẹ laisi iyipada eyikeyi ti nẹtiwọọki nkankikan lati jẹ nipa awọn aworan, ati kanna fun ọrọ ati ọrọ. Dipo, gbogbo iru titẹ sii n lọ sinu nẹtiwọọki kanna, ati pe o n pari iṣẹ-ṣiṣe gbogbogbo kanna. Iṣẹ-ṣiṣe yẹn jẹ iṣẹ-ṣiṣe kanna ti awọn nẹtiwọọki Transformer nigbagbogbo nlo, ti a mọ si “asọtẹlẹ ti o boju.” 

tun: Supermodel Google: DeepMind Perceiver jẹ igbesẹ kan ni opopona si ẹrọ AI ti o le ṣe ilana ohunkohun ati ohun gbogbo

Ọna ti data2vec ṣe n ṣe asọtẹlẹ iboju boju, sibẹsibẹ, jẹ ọna ti a mọ si ẹkọ “abojuto ti ara ẹni”. Ni eto alabojuto ti ara ẹni, netiwọki nkankikan ti ni ikẹkọ, tabi idagbasoke, nipa nini lati kọja nipasẹ awọn ipele pupọ. 

Ni akọkọ, nẹtiwọọki n ṣe aṣoju ti iṣeeṣe apapọ ti titẹ data, jẹ awọn aworan tabi ọrọ tabi ọrọ. Lẹhinna, ẹya keji ti nẹtiwọọki ni diẹ ninu awọn ohun kikọ sii data wọnyẹn “ti a boju jade,” ti a ko fi han. O ni lati tun ṣe iṣeeṣe apapọ ti ẹya akọkọ ti nẹtiwọọki ti ṣe, eyiti o fi ipa mu u lati ṣẹda awọn aṣoju ti o dara julọ ati ti o dara julọ ti data nipa kikun ni awọn ofifo. 

meta-2022-data2vec-nẹtiwọki-architecture.jpg

Akopọ ti ọna data2vec.


Afojusun 2022

Awọn nẹtiwọọki meji naa, eyiti o ni apẹrẹ kikun ti iṣeeṣe apapọ, ati ọkan pẹlu ẹya ti ko pe ti o n gbiyanju lati pari, ni a pe ni oye to, “Olukọni” ati “Akẹẹkọ.” Nẹtiwọọki Ọmọ ile-iwe ngbiyanju lati ṣe agbekalẹ oye rẹ ti data naa, ti o ba fẹ, nipa atunkọ ohun ti Olukọni ti ṣaṣeyọri tẹlẹ.

O le wo koodu fun awọn awoṣe lori Github.

Bawo ni nẹtiwọọki nkankikan n ṣe Olukọni ati Ọmọ ile-iwe fun awọn oriṣi data mẹta ti o yatọ pupọ? Bọtini naa ni pe “afojusun” ti iṣeeṣe apapọ, ni gbogbo awọn ọran data mẹta, kii ṣe iru data abajade kan pato, gẹgẹ bi ọran ninu awọn ẹya ti Amunawa fun iru data kan pato, gẹgẹbi Google's BERT tabi OpenAI's GPT-3 . 

Dipo, data2vec n gba diẹ ninu awọn opo ti awọn fẹlẹfẹlẹ nẹtiwọọki nkankikan ti o jẹ inu Nẹtiwọọki nkankikan, ibikan ni aarin, ti o ṣe aṣoju data ṣaaju ki o to ṣejade ni gbogbo bi abajade ipari. 

Gẹgẹbi awọn onkọwe ṣe kọwe, “Ọkan ninu awọn iyatọ akọkọ ti ọna wa […] miiran ju ṣiṣe asọtẹlẹ iboju boju, ni lilo awọn ibi-afẹde eyiti o da lori aropin awọn ipele ọpọ lati ọdọ nẹtiwọọki olukọ.” Ni pataki, “a tun ṣe awọn aṣoju Layer nẹtiwọki pupọ ti ara dipo kiki ipele oke,” nitorinaa “data2vec ṣe asọtẹlẹ awọn aṣoju wiwaba ti data igbewọle.”

Wọn ṣafikun, “A ni gbogbogbo lo iṣelọpọ ti FFN [nẹtiwọọki ifunni-siwaju] ṣaaju asopọ ti o kẹhin ninu bulọọki kọọkan bi ibi-afẹde,” nibiti “idinaki” kan jẹ Amunawa deede ti Layer nẹtiwọki neural.

Koko-ọrọ ni pe gbogbo iru data ti o wọle di ipenija kanna fun nẹtiwọọki Ọmọ ile-iwe ti atunṣe nkan kan ninu nẹtiwọọki nkankikan ti Olukọni ti kọ.

Iwọn aropin yii yatọ si awọn isunmọ aipẹ miiran si kikọ Nẹtiwọọki Kan Lati Crunch Gbogbo Data. Fun apẹẹrẹ, ni igba ooru to kọja, ẹyọ DeepMind ti Google funni ni ohun ti o pe ni “Oluwa,” ẹya ara ẹrọ pupọ-modal tirẹ ti Amunawa. Ikẹkọ ti nẹtiwọọki neural Perceiver jẹ ilana ti o ni iwọn diẹ sii ti iṣelọpọ ti o jẹ idahun si aami kan, iṣẹ ṣiṣe abojuto bii ImageNet. Ni ọna abojuto ti ara ẹni, data2vec kii ṣe lilo awọn aami wọnyẹn, o kan gbiyanju lati tun ṣe aṣoju inu nẹtiwọọki ti data naa. 

Ani diẹ ifẹ agbara akitiyan dubulẹ ninu awọn iyẹ. Jeff Dean, ori ti awọn akitiyan AI Google, ni Oṣu Kẹwa ṣe ẹlẹya nipa “Awọn ipa ọna,” kini Dean sọ jẹ “iran AI faaji"fun olona-modal data processing.

O lokan, ọna gbogbogbo data2vec si netiwọki nkankikan kan fun awọn ọna ṣiṣe lọpọlọpọ tun ni alaye pupọ nipa awọn oriṣi data oriṣiriṣi. Aworan, ọrọ ati ọrọ jẹ gbogbo ti pese sile nipasẹ ṣiṣe iṣaaju ti data naa. Ni ọna yẹn, abala ọpọlọpọ-modal ti nẹtiwọọki tun dale lori awọn amọ nipa data naa, kini ẹgbẹ naa tọka si bi “awọn koodu titẹ sii-pato modality-kekere.”

tun: Google ṣe afihan 'Awọn ipa ọna', AI ti o tẹle ti o le ṣe ikẹkọ si iṣẹ-ṣiṣe pupọ

“Pẹlu ilana ijọba isokan, a tun lo awọn ẹya ara ẹrọ ti o niiṣe pato ati awọn ilana iboju,” wọn ṣalaye.

Nitorinaa, a ko tii wa ni agbaye nibiti netiwọki nkankikan ti ni ikẹkọ laisi ori eyikeyi ti awọn iru data titẹ sii. A ko tun wa ni aaye kan ni akoko nigbati nẹtiwọọki nkankikan le ṣe agbero aṣoju kan ti o ṣajọpọ gbogbo awọn oriṣi data oriṣiriṣi, nitorinaa netiwọọki nkankikan n kọ awọn nkan ni apapọ.

Ti o daju ti wa ni ṣe ko o lati ẹya paṣipaarọ laarin ZDNet ati awọn onkọwe. ZDNet de ọdọ Baevski ati ẹgbẹ o beere pe, “Ṣe awọn aṣoju wiwaba ti o ṣiṣẹ bi awọn ibi-afẹde ni ifaminsi apapọ ti gbogbo awọn ọna iṣe mẹta ni igbesẹ akoko eyikeyi, tabi wọn nigbagbogbo jẹ ọkan ninu awọn ilana?”

Baevski ati egbe dahun wipe o jẹ igbehin nla, ati awọn ti wọn reply jẹ iyanilenu lati sọ ni ipari:

Awọn oniyipada wiwakọ kii ṣe ifaminsi apapọ fun awọn ọna iṣe mẹta naa. A ṣe ikẹkọ awọn awoṣe lọtọ fun ọna kọọkan ṣugbọn ilana nipasẹ eyiti awọn awoṣe kọ ẹkọ jẹ aami kanna. Eyi ni ĭdàsĭlẹ akọkọ ti iṣẹ akanṣe wa niwon ṣaaju ki awọn iyatọ nla wa ninu bawo ni a ṣe kọ awọn awoṣe ni awọn ọna oriṣiriṣi. Awọn onimo ijinlẹ sayensi tun gbagbọ pe awọn eniyan kọ ẹkọ ni awọn ọna kanna nipa awọn ohun ati aye wiwo. Ise agbese wa fihan pe ikẹkọ ti ara ẹni tun le ṣiṣẹ ni ọna kanna fun awọn ọna oriṣiriṣi.

Fifun data2vec's modality-pato awọn idiwọn, nẹtiwọki nkankikan ti o le jẹ nitõtọ Nẹtiwọọki kan Lati ṣe akoso Gbogbo wọn maa wa ọna ẹrọ ti ojo iwaju.

orisun