Метанын "data2vec" бардыгын башкаруу үчүн бир нейрондук тармакка карай кийинки кадам

Жарыш бир нече типтеги маалыматтарды иштете ала турган бир нейрондук тармакты түзүү үчүн баратат, бул жалпы жасалма интеллект түшүнүгү, ал маалыматтардын түрлөрүн дискриминациялабайт, тескерисинче, алардын бардыгын бир эле негизги структуранын ичинде талкалай алат.

Бул нейрондук тармактар ​​деп аталган мульти-модалдуулук жанры ар кандай тесттер боюнча упай алуу үчүн бир алгоритм аркылуу сүрөт, текст жана кептин аудиосу сыяктуу ар кандай маалыматтар өткөрүлүүчү активдүүлүктүн толкунун көрүүдө. сүрөт таануу, табигый тилди түшүнүү же кепти аныктоо.

Жана бул эки тараптуу тармактар ​​AIнын эталондук тесттеринде упайларды топтоп жатышат. Соңку жетишкендик - бул Facebook, Instagram жана WhatsAppтын ата-энеси болгон Meta компаниясынын AI бөлүмүнүн изилдөөчүлөрү тарабынан иштелип чыккан "data2vec" деп аталган нерсе. 

Метанын окумуштуулары Алексей Баевски, Вэй-Нин Ху, Цянтунг Сю, Арун Бабу, Цзятао Гу жана Майкл Аули жазгандай, адамдын акылы камтыган жалпы үйрөнүү жөндөмдүүлүгүнө көбүрөөк жакындоо.

"Адамдар, мисалы, көрүү же үндү колдонсо да, маалыматты кантип алганына карабастан, окшош жол менен үйрөнүшөт" деп жазат авторлор. өзүнүн блогунда да, "Учурда нейрон тармактарынын сүрөттөр, сүйлөө, текст, "жана башка модалдар" сыяктуу маалыматтардын ар кандай түрлөрүн иштетүүдө чоң айырмачылыктар бар.

"Бул ыкманын негизги идеясы, - дейт алар data2vec, "жалпысынан үйрөнүү: AI көптөгөн ар кандай тапшырмаларды, анын ичинде таптакыр тааныш эмес тапшырмаларды аткарууга үйрөнүшү керек."

Meta компаниясынын башкы директору Марк Цукерберг бул иш тууралуу цитата сунуштап, аны келечектеги Metaverse менен байланыштырды:

Кызыктуу ачылыш: Meta AI изилдөөсү сүйлөөдөн, көрүнүштөн жана тексттен үйрөнө турган системаны курду. Адамдар дүйнөнү көрүү, үн жана сөздөрдүн айкалышы аркылуу сезишет жана ушул сыяктуу системалар бир күнү дүйнөнү биз сыяктуу түшүнө алат. Мунун баары акыры AI жардамчысы менен AR көз айнектерине орнотулат, мисалы, ал кечки тамакты даярдоого жардам берип, ингредиентти өткөрүп жибергениңизди байкап, жылуулукту азайтууга же татаал тапшырмаларды аткарууга жардам берет.

data2vec аталышы тилди "киргизүү" үчүн программанын аталышындагы оюн. 2013-жылы Google тарабынан иштелип чыккан "word2vec" деп аталат. Бул программа сөздөрдүн кантип топтошорун алдын ала айткан, ошондуктан word2vec ал маалыматтардын белгилүү бир түрү үчүн иштелип чыккан нейрондук тармактын өкүлү, бул учурда текст. 

Ошондой эле: Под булуң эшиктерин ачыңыз, сураныч, HAL: Метанын AI эриндерин окууну симуляциялайт

Бирок data2vec учурда, Баевски жана анын кесиптештери Ашиш Васвани жана кесиптештери тарабынан иштелип чыккан Transformer деп аталган стандарттык версиясын алып жатышат. 2017-жылы Google'да жана аны бир нече маалымат түрлөрү үчүн колдонууга кеңейтүү. 

Transformer нейрон тармагы адегенде тил тапшырмалары үчүн иштелип чыккан, бирок ал көп жылдардан бери маалыматтардын көптөгөн түрлөрү үчүн кеңири ыңгайлаштырылган. Баевский жана башкалар. Трансформатор бир нече түрдөгү маалыматтарды өзгөртпөстөн иштетүү үчүн колдонулушу мүмкүн экенин жана натыйжада үйрөтүлгөн нейрондук тармак бир нече түрдүү тапшырмаларды аткара аларын көрсөтөт. 

Расмий кагазда "data2vec: Сүйлөө, көрүү жана тил боюнча өз алдынча билим алуунун жалпы негизи,” Baevski et al., Transformer-ди сүрөт маалыматтары, кептин аудио толкун формалары жана текст тилинин көрүнүштөрү үчүн үйрөтөт. 

Data2vec - бул "бир нече модальдерде, тактап айтканда, сүйлөө, көрүү жана текстте иштеген биринчи жогорку натыйжалуу өзүн-өзү көзөмөлдөгөн алгоритм" деп жазышат Баевски жана команда блогунда.

Өтө жалпы Transformer белгилүү бир тапшырмаларды аткаруу үчүн конкреттүү нейрон тармактарына колдонула турган алдын ала тренинг деп аталат. Мисалы, авторлор data2vecти алдын ала машыгуу катары “ViT” деп аталган нерсени, “көрүнүү Трансформаторун” жабдуу үчүн колдонушат. өткөн жылы киргизилген Алексей Досовицкий жана Google'дагы кесиптештери тарабынан. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta урматтуу ImageNet сүрөт таануу конкурсунун жогорку упайларын көрсөтөт.


Максат 2022

Сүрөттөрдү таануунун стандарттуу ImageNet сынагын чечүүгө аракет кылуу үчүн ViTде колдонулганда, алардын натыйжалары пакеттин башында келет, 84.1% тактык менен, Microsoftтун алдын ала машыккан командасы алган 83.2% упайдан жакшыраак. ViT, Ханбо Бао жетектеген өткөн жылы.

Жана ошол эле data2vec Transformer сөздү таануу үчүн эң заманбап жана табигый тилди үйрөнүү үчүн эң жакшы болбосо дагы, атаандаштыкка жөндөмдүү натыйжаларды чыгарат:

Эксперименттик жыйынтыктар data2vecтин бардык үч модальдуулукта эффективдүү экенин көрсөтүп турат, ImageNet-1K боюнча ViT-B жана ViT-L үчүн жаңы технологияны орнотуп, кепти таануу боюнча сүйлөө процессинде мурунку эң мыкты иштерди жакшыртат жана RoBERTa менен бирдей аткарат. GLUE табигый тилди түшүнүү эталонунда. 

Негизги нерсе, бул нейрондук тармактын сүрөттөлүштөрүн өзгөртүүсүз болуп жатат, ал эми сүйлөө жана текст үчүн. Анын ордуна, ар бир киргизүү түрү бир тармакка кирип, ошол эле жалпы тапшырманы аткарып жатат. Бул тапшырма Transformer тармактары ар дайым колдоно турган, "маскаланган болжолдоо" деп аталган тапшырма. 

Ошондой эле: Google'дун супермодели: DeepMind Perceiver - бул бардыгын жана баарын иштете ала турган AI машинасына карай кадам.

Бирок data2vecтин беткапталган алдын ала айтуу ыкмасы "өзүн-өзү көзөмөлдөгөн" окуу деп аталат. Өзүн-өзү көзөмөлдөгөн шартта, нейрон тармагы бир нече этаптан өтүү менен үйрөтүлөт же өнүгөт. 

Биринчиден, тармак сүрөттөр же сөз же текст болсун, маалыматтарды киргизүүнүн биргелешкен ыктымалдыгынын өкүлчүлүгүн түзөт. Андан кийин, тармактын экинчи версиясында ошол киргизилген маалыматтар элементтеринин айрымдары “маскаланып”, ачылбай калган. Ал тармактын биринчи версиясы курулган биргелешкен ыктымалдуулукту реконструкциялоосу керек, бул аны боштуктарды толтуруу менен маалыматтардын жакшыраак жана жакшыраак өкүлчүлүктөрүн түзүүгө мажбурлайт. 

meta-2022-data2vec-network-architecture.jpg

data2vec ыкмасына сереп салуу.


Максат 2022

Биргелешкен ыктымалдуулуктун толук үлгүсү бар эки тармак жана ал аягына чыгарууга аракет кылып жаткан толук эмес версиясы менен "Мугалим" жана "Студент" деп аталат. Студенттик тармагы, эгер кааласаңыз, Мугалим буга чейин жетишкен нерселерди кайра куруу менен, маалыматтардын сезимин өнүктүрүүгө аракет кылат.

Сенин колуңдан келет Githubдагы моделдердин кодун караңыз.

Нейрондук тармак үч түрдүү маалымат үчүн Мугалим менен Студентти кандай аткарат? Негизгиси, биргелешкен ыктымалдуулуктун "максаты", үч маалыматтын тең учурда да, Google'дун BERT же OpenAI's GPT-3 сыяктуу белгилүү бир маалымат түрү үчүн Трансформатордун версияларында болгондой, белгилүү бир чыгуу маалымат түрү эмес. . 

Тескерисинче, data2vec нейрондук тармак катмарларынын бир тобун кармап жатат ички Нейрондук тармак, ортодогу бир жерде, ал акыркы жыйынтык катары чыгарыла электе маалыматтарды чагылдырат. 

Авторлор жазгандай, "Биздин методубуздун негизги айырмачылыктарынын бири […] маскаланган болжолдоодон башка, мугалимдер тармагынын бир нече катмарын орточо эсепке алууга негизделген максаттарды колдонуу." Тактап айтканда, "биз үстүнкү катмардын ордуна бир нече нейрондук тармак катмарынын өкүлчүлүктөрүн регрессия кылабыз", ошентип "data2vec киргизилген маалыматтардын жашыруун өкүлчүлүктөрүн болжолдойт".

Алар кошумчалайт: "Биз жалпысынан FFN [алдыга берүү тармагынын] чыгышын максат катары ар бир блоктогу акыркы калдык байланышка чейин колдонобуз", мында "блок" нейрондук тармак катмарынын Transformer эквиваленти.

Кептин баары кирген маалымат түрү Мугалим түзгөн нейрондук тармактын ичиндеги бир нерсени реконструкциялоо Студенттик тармагы үчүн бирдей кыйынчылыкка айланат.

Бул орточо көрсөткүч бардык маалыматтарды кыйратуучу бир тармакты куруудагы башка акыркы ыкмалардан айырмаланып турат. Мисалы, өткөн жайда Google'дун DeepMind бирдиги Transformerдин өзүнүн мультимодалдык версиясын "Персеивер" деп атаган нерсени сунуштады. Perceiver нейрон тармагын окутуу - бул ImageNet сыяктуу этикеткаланган, көзөмөлдөнүүчү тапшырмага жооп берүүчү жыйынтык чыгаруунун стандарттуу процесси. Өзүн өзү көзөмөлдөгөн ыкмада data2vec ал энбелгилерди колдонбойт, ал жөн гана тармактын маалыматтардын ички өкүлчүлүгүн кайра курууга аракет кылууда. 

Андан да амбициялуу аракеттер канатта турат. Google'дун AI аракеттеринин жетекчиси Джефф Дин октябрда "Жолдор" жөнүндө шылдыңдаган, Диндин айтымындакийинки муун AI архитектурасы” мультимодалдык маалыматтарды иштетүү үчүн.

Эсиңизде болсун, data2vecтин бир нече модальдуулуктар үчүн бир нейрондук тармакка болгон жалпы мамилеси дагы эле ар кандай маалымат түрлөрү жөнүндө көп маалыматка ээ. Сүрөт, сүйлөө жана текст бардык маалыматтарды алдын ала иштетүү жолу менен даярдалат. Ошентип, тармактын көп модалдык аспектиси дагы эле команда "кичинекей модальдуулукка тиешелүү киргизүү коддору" деп атаган маалыматтарга таянат.

Ошондой эле: Google көп тапшырманы аткарууга үйрөтө турган кийинки муундагы AI "Pathways" ды ачат

"Бирдиктүү окуу режимине карабастан, биз дагы эле модальдүүлүккө тиешелүү өзгөчөлүктөрдү жана маскалоо стратегияларын колдонобуз" деп түшүндүрүшөт алар.

Демек, биз нейрондук желе киргизилген берилиштердин эч кандай түрүн түшүнбөй үйрөтүлгөн дүйнөдө элек. Биз ошондой эле нейрон тармак бардык ар кандай маалымат түрлөрүн бириктирген бир өкүлчүлүктү кура турган убакта эмеспиз, ошондуктан нейрон желе бир нерселерди айкалыштырып үйрөнөт.

Бул факт ортодогу пикир алмашуудан айкын көрүнүп турат ZDNet жана авторлор. ZDNet Баевскиге жана анын командасына кайрылып, мындай деп сурады: «Бута катары кызмат кылган жашыруун өкүлчүлүктөр кайсы бир убакыттын кадамында бардык үч модалдын бириккен коддолушубу же алар көбүнчө модалдардын бириби?»

Баевский жана командасы бул акыркы окуя деп жооп беришет жана алардын reply узун цитата кылуу кызыктуу:

Жашыруун өзгөрмөлөр үч модалдык үчүн бириккен коддоо эмес. Биз ар бир модаль үчүн өзүнчө моделдерди үйрөтөбүз, бирок моделдердин үйрөнүү процесси бирдей. Бул биздин долбоордун негизги инновациясы, анткени буга чейин моделдерди ар кандай модальдарда окутууда чоң айырмачылыктар болгон. Нейрологдор ошондой эле адамдар үндөрдү жана көрүү дүйнөсүн окшош жолдор менен үйрөнүшөт деп ишенишет. Биздин долбоор өзүн-өзү көзөмөлдөгөн окуу ар кандай ыкмалар үчүн бирдей иштей аларын көрсөтүп турат.

Data2vecтин модальдуулукка байланыштуу чектөөлөрүн эске алуу менен, нейрондук тармак чындап эле болушу мүмкүн. Алардын баарын башкаруу үчүн бир тармак келечектин технологиясы бойдон калууда.

булак