'data2vec' متا گام بعدی به سوی یک شبکه عصبی برای حکومت بر همه آنهاست

رقابت برای ایجاد یک شبکه عصبی که می‌تواند انواع مختلفی از داده‌ها را پردازش کند، در جریان است، مفهوم هوش مصنوعی عمومی‌تر که در مورد انواع داده‌ها تبعیض قائل نمی‌شود، اما در عوض می‌تواند همه آنها را در یک ساختار اولیه خرد کند.

ژانر چند وجهی، همانطور که این شبکه‌های عصبی نامیده می‌شوند، دیدن انبوهی از فعالیت‌ها است که در آن داده‌های مختلف مانند تصویر، متن و صوت گفتار از الگوریتم یکسانی عبور داده می‌شود تا در آزمون‌های مختلف امتیاز ایجاد شود. تشخیص تصویر، درک زبان طبیعی یا تشخیص گفتار.

و این شبکه‌های دوسویه در حال کسب امتیاز در تست‌های معیار هوش مصنوعی هستند. آخرین دستاورد چیزی است که 'data2vec' نامیده می شود که توسط محققان بخش هوش مصنوعی متا، مادر فیس بوک، اینستاگرام و واتس اپ توسعه یافته است. 

همانطور که دانشمندان متا، الکسی بایفسکی، وی-نینگ هسو، کیانتونگ ژو، آرون بابو، جیاتائو گو و مایکل اولی می نویسند، هدف نزدیک شدن به چیزی بیشتر شبیه توانایی یادگیری عمومی است که به نظر می رسد ذهن انسان آن را در بر می گیرد.

نویسندگان می نویسند: «در حالی که به نظر می رسد افراد بدون توجه به نحوه دریافت اطلاعات به روشی مشابه یاد می گیرند - مثلاً از بینایی یا صدا استفاده می کنند. در یک پست وبلاگ، "در حال حاضر تفاوت های زیادی در نحوه مدیریت شبکه های عصبی انواع مختلف داده ها مانند تصاویر، گفتار، متن، و سایر روش ها وجود دارد."

آنها در data2vec می گویند: «ایده اصلی این رویکرد یادگیری به طور کلی تر است: هوش مصنوعی باید قادر به یادگیری انجام کارهای مختلف، از جمله کارهای کاملاً ناآشنا باشد».

مدیرعامل متا، مارک زاکربرگ، نقل قولی در مورد این کار ارائه کرد و آن را به متاورس آینده گره زد:

پیشرفت مهیج: تحقیقات هوش مصنوعی متا سیستمی را ساخته است که از گفتار، بینایی و متن بدون نیاز به داده های آموزشی برچسب دار یاد می گیرد. مردم دنیا را از طریق ترکیبی از بینایی، صدا و کلمات تجربه می‌کنند، و سیستم‌هایی از این دست می‌توانند روزی دنیا را به روشی که ما انجام می‌دهیم درک کنند. همه اینها در نهایت با یک دستیار هوش مصنوعی در عینک‌های AR تعبیه می‌شوند، به‌عنوان مثال، می‌تواند به شما در پختن شام کمک کند، متوجه شوید که آیا یک ماده را از دست داده‌اید، و از شما می‌خواهد حرارت را کم کنید یا کارهای پیچیده‌تری را انجام دهید.

نام data2vec نمایش نام یک برنامه برای "جاسازی" زبان است. در سال 2013 در گوگل توسعه یافت به نام word2vec. آن برنامه پیش‌بینی کرد که کلمات چگونه با هم خوشه می‌شوند، و بنابراین word2vec آن نماینده یک شبکه عصبی است که برای نوع خاصی از داده‌ها، در آن متن، طراحی شده است. 

بنابراین: لطفاً درهای غلاف را باز کنید، HAL: هوش مصنوعی متا لب خوانی را شبیه سازی می کند

با این حال، در مورد data2vec، Baevski و همکارانش در حال استفاده از یک نسخه استاندارد از آنچه Transformer نامیده می شود، توسط آشیش واسوانی و همکارانش ساخته شده است. در گوگل در سال 2017 و گسترش آن برای استفاده برای انواع داده های متعدد. 

شبکه عصبی ترانسفورمر در ابتدا برای کارهای زبانی توسعه داده شد، اما در سال‌های اخیر به طور گسترده برای انواع داده‌ها سازگار شده است. بایفسکی و همکاران نشان می دهد که ترانسفورماتور را می توان برای پردازش انواع مختلف داده بدون تغییر استفاده کرد و شبکه عصبی آموزش دیده ای که نتیجه می گیرد می تواند چندین کار مختلف را انجام دهد. 

در مقاله رسمی، "data2vec: چارچوبی کلی برای یادگیری خود نظارتی در گفتار، بینایی و زبانBaevski و همکاران، Transformer را برای داده‌های تصویر، شکل‌های موج صوتی گفتار و بازنمایی زبان متن آموزش می‌دهند. 

Baevski و تیم در پست وبلاگ نوشتند Data2vec "اولین الگوریتم خود نظارتی با کارایی بالا است که برای چندین حالت مانند گفتار، دید و متن کار می کند."

ترانسفورماتور بسیار عمومی به چیزی تبدیل می شود که به آن یک پیش آموزش می گویند که می تواند برای انجام وظایف خاص در شبکه های عصبی خاص اعمال شود. برای مثال، نویسندگان از data2vec به عنوان پیش‌آموزش برای تجهیز آنچه «ViT» نامیده می‌شود، «ترانسفورماتور بینایی» استفاده می‌کنند، یک شبکه عصبی که به‌طور خاص برای وظایف بینایی طراحی شده است. سال گذشته معرفی شد توسط Alexey Dosovitskiy و همکارانش در Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta نمرات برتر را برای مسابقه معتبر تشخیص تصویر ImageNet نشان می دهد.


متا 2022

هنگامی که در ViT برای حل تست استاندارد تشخیص تصویر ImageNet استفاده می شود، نتایج آنها در بالای بسته قرار می گیرند، با دقت 84.1٪، بهتر از امتیاز 83.2٪ دریافت شده توسط تیمی در مایکروسافت که از قبل آموزش دیده اند. ViT به رهبری Hangbo Bao، پارسال.

و همان Transformer data2vec نتایجی را به دست می‌دهد که برای تشخیص گفتار پیشرفته هستند و برای یادگیری زبان طبیعی، اگر بهترین نباشند، رقابتی هستند:

نتایج تجربی نشان می‌دهد که data2vec در هر سه حالت مؤثر است، وضعیت جدیدی از هنر برای ViT-B و ViT-L در ImageNet-1K ایجاد می‌کند، نسبت به بهترین کار قبلی در پردازش گفتار در تشخیص گفتار بهبود می‌یابد و عملکردی برابر با RoBERTa دارد. در معیار درک زبان طبیعی GLUE. 

نکته اصلی این است که این اتفاق بدون هیچ گونه تغییری در شبکه عصبی در مورد تصاویر، و برای گفتار و متن یکسان است. در عوض، هر نوع ورودی به یک شبکه می رود و همان کار بسیار کلی را تکمیل می کند. این وظیفه همان وظیفه ای است که شبکه های ترانسفورماتور همیشه از آن استفاده می کنند و به عنوان "پیش بینی ماسک" شناخته می شود. 

بنابراین: Supermodel Google: DeepMind Perceiver گامی در مسیر یک ماشین هوش مصنوعی است که می تواند همه چیز و همه چیز را پردازش کند.

روشی که data2vec پیش‌بینی پنهان را انجام می‌دهد، روشی است که به عنوان یادگیری «خود نظارتی» شناخته می‌شود. در یک محیط تحت نظارت خود، یک شبکه عصبی با عبور از چندین مرحله آموزش داده می شود یا توسعه می یابد. 

ابتدا، شبکه نمایشی از احتمال مشترک ورودی داده ها، خواه تصاویر، گفتار یا متن، می سازد. سپس، در نسخه دوم شبکه، برخی از آن اقلام داده ورودی "نقاب" شده و آشکار نشده باقی مانده است. باید احتمال مشترکی را که نسخه اول شبکه ساخته بود بازسازی کند، که آن را مجبور می کند تا با پر کردن جاهای خالی، نمایش بهتر و بهتری از داده ها ایجاد کند. 

meta-2022-data2vec-network-architecture.jpg

مروری بر رویکرد data2vec.


متا 2022

دو شبکه، یکی با الگوی کامل احتمال مشترک، و دیگری با نسخه ناقصی که سعی در تکمیل آن دارد، به اندازه کافی معقول، "معلم" و "دانشجو" نامیده می شوند. اگر بخواهید، شبکه دانش‌آموز سعی می‌کند با بازسازی آنچه معلم قبلاً به دست آورده است، حس خود را از داده‌ها توسعه دهد.

تو می توانی کد مدل ها را در Github ببینید.

عملکرد شبکه عصبی معلم و دانشجو برای سه نوع داده بسیار متفاوت چگونه است؟ نکته کلیدی این است که "هدف" احتمال مشترک، در هر سه مورد داده، یک نوع داده خروجی خاص نیست، همانطور که در نسخه های Transformer برای یک نوع داده خاص، مانند BERT گوگل یا GPT-3 OpenAI وجود دارد. . 

در عوض، data2vec در حال گرفتن دسته ای از لایه های شبکه عصبی است داخل شبکه عصبی، جایی در وسط، که داده ها را قبل از اینکه هر کدام به عنوان خروجی نهایی تولید شود، نشان می دهد. 

همانطور که نویسندگان می نویسند، "یکی از تفاوت های اصلی روش ما [...] به غیر از انجام پیش بینی ماسک، استفاده از اهدافی است که بر اساس میانگین لایه های چندگانه از شبکه معلم است." به طور خاص، "ما به جای لایه بالایی، چندین لایه شبکه عصبی را رگرسیون می کنیم" به طوری که "data2vec نمایش های نهفته داده های ورودی را پیش بینی می کند."

آن‌ها اضافه می‌کنند، «ما معمولاً از خروجی FFN [شبکه پیش‌خور] قبل از آخرین اتصال باقی‌مانده در هر بلوک به عنوان هدف استفاده می‌کنیم، که در آن «بلوک» معادل ترانسفورماتور یک لایه شبکه عصبی است.

نکته این است که هر نوع داده ای که وارد می شود، برای شبکه دانشجویی برای بازسازی چیزی در داخل شبکه عصبی که معلم ساخته است، به همان چالش تبدیل می شود.

این میانگین‌گیری با سایر رویکردهای اخیر برای ایجاد یک شبکه برای خرد کردن همه داده‌ها متفاوت است. به عنوان مثال، تابستان گذشته، واحد DeepMind گوگل چیزی را که "Perceiver" می نامد، نسخه چند وجهی خود از Transformer را ارائه کرد. آموزش شبکه عصبی Perceiver فرآیند استانداردتر تولید خروجی است که پاسخی به یک کار برچسب‌گذاری شده و تحت نظارت مانند ImageNet است. در رویکرد خود نظارتی، data2vec از آن برچسب‌ها استفاده نمی‌کند، بلکه فقط در تلاش است تا نمایش داخلی داده‌ها را در شبکه بازسازی کند. 

حتی تلاش های بلندپروازانه تر در بال ها نهفته است. جف دین، رئیس تلاش‌های هوش مصنوعی گوگل، در ماه اکتبر در مورد «مسیرها»، چیزی که دین ادعا می‌کند «مسیر» است، صحبت کرد.نسل بعدی معماری هوش مصنوعی” برای پردازش داده های چند وجهی.

توجه داشته باشید، رویکرد بسیار کلی data2vec به یک شبکه عصبی منفرد برای چندین روش، هنوز اطلاعات زیادی در مورد انواع مختلف داده دارد. تصویر، گفتار و متن همه با پیش پردازش داده ها آماده می شوند. به این ترتیب، جنبه چند وجهی شبکه همچنان بر سرنخ‌هایی در مورد داده‌ها تکیه می‌کند، چیزی که تیم از آن به عنوان «رمزگذارهای ورودی مختص مدالیت کوچک» یاد می‌کند.

بنابراین: گوگل از "Pathways" رونمایی کرد، یک هوش مصنوعی نسل بعدی که می‌توان آن را برای چند کار آموزش داد

آنها توضیح می‌دهند: «علیرغم رژیم یادگیری یکپارچه، ما هنوز از استخراج‌کننده‌های ویژگی خاص و استراتژی‌های پوشش استفاده می‌کنیم.

بنابراین، ما هنوز در دنیایی نیستیم که شبکه عصبی بدون هیچ گونه حسی از انواع داده های ورودی آموزش داده شود. ما همچنین در نقطه‌ای از زمان نیستیم که شبکه عصبی بتواند یک نمایش را ایجاد کند که تمام انواع داده‌های مختلف را ترکیب کند، به طوری که شبکه عصبی در حال یادگیری چیزها در ترکیب باشد.

این واقعیت از مبادله بین آنها روشن می شود ZDNet و نویسندگان ZDNet با بافسکی و تیم تماس گرفت و پرسید: "آیا بازنمایی های پنهانی که به عنوان هدف عمل می کنند رمزگذاری ترکیبی از هر سه روش در هر مرحله زمانی معین هستند، یا معمولاً فقط یکی از روش ها هستند؟"

بایفسکی و تیم پاسخ می دهند که این مورد دوم است و آنها reply نقل قول طولانی جالب است:

متغیرهای پنهان یک رمزگذاری ترکیبی برای سه روش نیستند. ما مدل‌های جداگانه‌ای را برای هر روش آموزش می‌دهیم، اما فرآیندی که از طریق آن مدل‌ها یاد می‌گیرند یکسان است. این نوآوری اصلی پروژه ما است زیرا قبلاً تفاوت های زیادی در نحوه آموزش مدل ها در روش های مختلف وجود داشت. عصب شناسان همچنین معتقدند که انسان ها به روش های مشابهی در مورد صداها و دنیای بصری یاد می گیرند. پروژه ما نشان می‌دهد که یادگیری خود نظارتی نیز می‌تواند به همان روش برای روش‌های مختلف کار کند.

با توجه به محدودیت‌های مدالیته خاص data2vec، یک شبکه عصبی ممکن است واقعاً باشد یک شبکه برای حکومت بر همه آنها فناوری آینده باقی می ماند.

منبع