رقابت برای ایجاد یک شبکه عصبی که میتواند انواع مختلفی از دادهها را پردازش کند، در جریان است، مفهوم هوش مصنوعی عمومیتر که در مورد انواع دادهها تبعیض قائل نمیشود، اما در عوض میتواند همه آنها را در یک ساختار اولیه خرد کند.
ژانر چند وجهی، همانطور که این شبکههای عصبی نامیده میشوند، دیدن انبوهی از فعالیتها است که در آن دادههای مختلف مانند تصویر، متن و صوت گفتار از الگوریتم یکسانی عبور داده میشود تا در آزمونهای مختلف امتیاز ایجاد شود. تشخیص تصویر، درک زبان طبیعی یا تشخیص گفتار.
و این شبکههای دوسویه در حال کسب امتیاز در تستهای معیار هوش مصنوعی هستند. آخرین دستاورد چیزی است که 'data2vec' نامیده می شود که توسط محققان بخش هوش مصنوعی متا، مادر فیس بوک، اینستاگرام و واتس اپ توسعه یافته است.
همانطور که دانشمندان متا، الکسی بایفسکی، وی-نینگ هسو، کیانتونگ ژو، آرون بابو، جیاتائو گو و مایکل اولی می نویسند، هدف نزدیک شدن به چیزی بیشتر شبیه توانایی یادگیری عمومی است که به نظر می رسد ذهن انسان آن را در بر می گیرد.
نویسندگان می نویسند: «در حالی که به نظر می رسد افراد بدون توجه به نحوه دریافت اطلاعات به روشی مشابه یاد می گیرند - مثلاً از بینایی یا صدا استفاده می کنند. در یک پست وبلاگ، "در حال حاضر تفاوت های زیادی در نحوه مدیریت شبکه های عصبی انواع مختلف داده ها مانند تصاویر، گفتار، متن، و سایر روش ها وجود دارد."
آنها در data2vec می گویند: «ایده اصلی این رویکرد یادگیری به طور کلی تر است: هوش مصنوعی باید قادر به یادگیری انجام کارهای مختلف، از جمله کارهای کاملاً ناآشنا باشد».
مدیرعامل متا، مارک زاکربرگ، نقل قولی در مورد این کار ارائه کرد و آن را به متاورس آینده گره زد:
پیشرفت مهیج: تحقیقات هوش مصنوعی متا سیستمی را ساخته است که از گفتار، بینایی و متن بدون نیاز به داده های آموزشی برچسب دار یاد می گیرد. مردم دنیا را از طریق ترکیبی از بینایی، صدا و کلمات تجربه میکنند، و سیستمهایی از این دست میتوانند روزی دنیا را به روشی که ما انجام میدهیم درک کنند. همه اینها در نهایت با یک دستیار هوش مصنوعی در عینکهای AR تعبیه میشوند، بهعنوان مثال، میتواند به شما در پختن شام کمک کند، متوجه شوید که آیا یک ماده را از دست دادهاید، و از شما میخواهد حرارت را کم کنید یا کارهای پیچیدهتری را انجام دهید.
نام data2vec نمایش نام یک برنامه برای "جاسازی" زبان است. در سال 2013 در گوگل توسعه یافت به نام word2vec. آن برنامه پیشبینی کرد که کلمات چگونه با هم خوشه میشوند، و بنابراین word2vec آن نماینده یک شبکه عصبی است که برای نوع خاصی از دادهها، در آن متن، طراحی شده است.
بنابراین: لطفاً درهای غلاف را باز کنید، HAL: هوش مصنوعی متا لب خوانی را شبیه سازی می کند
با این حال، در مورد data2vec، Baevski و همکارانش در حال استفاده از یک نسخه استاندارد از آنچه Transformer نامیده می شود، توسط آشیش واسوانی و همکارانش ساخته شده است. در گوگل در سال 2017 و گسترش آن برای استفاده برای انواع داده های متعدد.
شبکه عصبی ترانسفورمر در ابتدا برای کارهای زبانی توسعه داده شد، اما در سالهای اخیر به طور گسترده برای انواع دادهها سازگار شده است. بایفسکی و همکاران نشان می دهد که ترانسفورماتور را می توان برای پردازش انواع مختلف داده بدون تغییر استفاده کرد و شبکه عصبی آموزش دیده ای که نتیجه می گیرد می تواند چندین کار مختلف را انجام دهد.
در مقاله رسمی، "data2vec: چارچوبی کلی برای یادگیری خود نظارتی در گفتار، بینایی و زبانBaevski و همکاران، Transformer را برای دادههای تصویر، شکلهای موج صوتی گفتار و بازنمایی زبان متن آموزش میدهند.
Baevski و تیم در پست وبلاگ نوشتند Data2vec "اولین الگوریتم خود نظارتی با کارایی بالا است که برای چندین حالت مانند گفتار، دید و متن کار می کند."
ترانسفورماتور بسیار عمومی به چیزی تبدیل می شود که به آن یک پیش آموزش می گویند که می تواند برای انجام وظایف خاص در شبکه های عصبی خاص اعمال شود. برای مثال، نویسندگان از data2vec به عنوان پیشآموزش برای تجهیز آنچه «ViT» نامیده میشود، «ترانسفورماتور بینایی» استفاده میکنند، یک شبکه عصبی که بهطور خاص برای وظایف بینایی طراحی شده است. سال گذشته معرفی شد توسط Alexey Dosovitskiy و همکارانش در Google.
هنگامی که در ViT برای حل تست استاندارد تشخیص تصویر ImageNet استفاده می شود، نتایج آنها در بالای بسته قرار می گیرند، با دقت 84.1٪، بهتر از امتیاز 83.2٪ دریافت شده توسط تیمی در مایکروسافت که از قبل آموزش دیده اند. ViT به رهبری Hangbo Bao، پارسال.
و همان Transformer data2vec نتایجی را به دست میدهد که برای تشخیص گفتار پیشرفته هستند و برای یادگیری زبان طبیعی، اگر بهترین نباشند، رقابتی هستند:
نتایج تجربی نشان میدهد که data2vec در هر سه حالت مؤثر است، وضعیت جدیدی از هنر برای ViT-B و ViT-L در ImageNet-1K ایجاد میکند، نسبت به بهترین کار قبلی در پردازش گفتار در تشخیص گفتار بهبود مییابد و عملکردی برابر با RoBERTa دارد. در معیار درک زبان طبیعی GLUE.
نکته اصلی این است که این اتفاق بدون هیچ گونه تغییری در شبکه عصبی در مورد تصاویر، و برای گفتار و متن یکسان است. در عوض، هر نوع ورودی به یک شبکه می رود و همان کار بسیار کلی را تکمیل می کند. این وظیفه همان وظیفه ای است که شبکه های ترانسفورماتور همیشه از آن استفاده می کنند و به عنوان "پیش بینی ماسک" شناخته می شود.
بنابراین: Supermodel Google: DeepMind Perceiver گامی در مسیر یک ماشین هوش مصنوعی است که می تواند همه چیز و همه چیز را پردازش کند.
روشی که data2vec پیشبینی پنهان را انجام میدهد، روشی است که به عنوان یادگیری «خود نظارتی» شناخته میشود. در یک محیط تحت نظارت خود، یک شبکه عصبی با عبور از چندین مرحله آموزش داده می شود یا توسعه می یابد.
ابتدا، شبکه نمایشی از احتمال مشترک ورودی داده ها، خواه تصاویر، گفتار یا متن، می سازد. سپس، در نسخه دوم شبکه، برخی از آن اقلام داده ورودی "نقاب" شده و آشکار نشده باقی مانده است. باید احتمال مشترکی را که نسخه اول شبکه ساخته بود بازسازی کند، که آن را مجبور می کند تا با پر کردن جاهای خالی، نمایش بهتر و بهتری از داده ها ایجاد کند.
دو شبکه، یکی با الگوی کامل احتمال مشترک، و دیگری با نسخه ناقصی که سعی در تکمیل آن دارد، به اندازه کافی معقول، "معلم" و "دانشجو" نامیده می شوند. اگر بخواهید، شبکه دانشآموز سعی میکند با بازسازی آنچه معلم قبلاً به دست آورده است، حس خود را از دادهها توسعه دهد.
تو می توانی کد مدل ها را در Github ببینید.
عملکرد شبکه عصبی معلم و دانشجو برای سه نوع داده بسیار متفاوت چگونه است؟ نکته کلیدی این است که "هدف" احتمال مشترک، در هر سه مورد داده، یک نوع داده خروجی خاص نیست، همانطور که در نسخه های Transformer برای یک نوع داده خاص، مانند BERT گوگل یا GPT-3 OpenAI وجود دارد. .
در عوض، data2vec در حال گرفتن دسته ای از لایه های شبکه عصبی است داخل شبکه عصبی، جایی در وسط، که داده ها را قبل از اینکه هر کدام به عنوان خروجی نهایی تولید شود، نشان می دهد.
همانطور که نویسندگان می نویسند، "یکی از تفاوت های اصلی روش ما [...] به غیر از انجام پیش بینی ماسک، استفاده از اهدافی است که بر اساس میانگین لایه های چندگانه از شبکه معلم است." به طور خاص، "ما به جای لایه بالایی، چندین لایه شبکه عصبی را رگرسیون می کنیم" به طوری که "data2vec نمایش های نهفته داده های ورودی را پیش بینی می کند."
آنها اضافه میکنند، «ما معمولاً از خروجی FFN [شبکه پیشخور] قبل از آخرین اتصال باقیمانده در هر بلوک به عنوان هدف استفاده میکنیم، که در آن «بلوک» معادل ترانسفورماتور یک لایه شبکه عصبی است.
نکته این است که هر نوع داده ای که وارد می شود، برای شبکه دانشجویی برای بازسازی چیزی در داخل شبکه عصبی که معلم ساخته است، به همان چالش تبدیل می شود.
این میانگینگیری با سایر رویکردهای اخیر برای ایجاد یک شبکه برای خرد کردن همه دادهها متفاوت است. به عنوان مثال، تابستان گذشته، واحد DeepMind گوگل چیزی را که "Perceiver" می نامد، نسخه چند وجهی خود از Transformer را ارائه کرد. آموزش شبکه عصبی Perceiver فرآیند استانداردتر تولید خروجی است که پاسخی به یک کار برچسبگذاری شده و تحت نظارت مانند ImageNet است. در رویکرد خود نظارتی، data2vec از آن برچسبها استفاده نمیکند، بلکه فقط در تلاش است تا نمایش داخلی دادهها را در شبکه بازسازی کند.
حتی تلاش های بلندپروازانه تر در بال ها نهفته است. جف دین، رئیس تلاشهای هوش مصنوعی گوگل، در ماه اکتبر در مورد «مسیرها»، چیزی که دین ادعا میکند «مسیر» است، صحبت کرد.نسل بعدی معماری هوش مصنوعی” برای پردازش داده های چند وجهی.
توجه داشته باشید، رویکرد بسیار کلی data2vec به یک شبکه عصبی منفرد برای چندین روش، هنوز اطلاعات زیادی در مورد انواع مختلف داده دارد. تصویر، گفتار و متن همه با پیش پردازش داده ها آماده می شوند. به این ترتیب، جنبه چند وجهی شبکه همچنان بر سرنخهایی در مورد دادهها تکیه میکند، چیزی که تیم از آن به عنوان «رمزگذارهای ورودی مختص مدالیت کوچک» یاد میکند.
بنابراین: گوگل از "Pathways" رونمایی کرد، یک هوش مصنوعی نسل بعدی که میتوان آن را برای چند کار آموزش داد
آنها توضیح میدهند: «علیرغم رژیم یادگیری یکپارچه، ما هنوز از استخراجکنندههای ویژگی خاص و استراتژیهای پوشش استفاده میکنیم.
بنابراین، ما هنوز در دنیایی نیستیم که شبکه عصبی بدون هیچ گونه حسی از انواع داده های ورودی آموزش داده شود. ما همچنین در نقطهای از زمان نیستیم که شبکه عصبی بتواند یک نمایش را ایجاد کند که تمام انواع دادههای مختلف را ترکیب کند، به طوری که شبکه عصبی در حال یادگیری چیزها در ترکیب باشد.
این واقعیت از مبادله بین آنها روشن می شود ZDNet و نویسندگان ZDNet با بافسکی و تیم تماس گرفت و پرسید: "آیا بازنمایی های پنهانی که به عنوان هدف عمل می کنند رمزگذاری ترکیبی از هر سه روش در هر مرحله زمانی معین هستند، یا معمولاً فقط یکی از روش ها هستند؟"
بایفسکی و تیم پاسخ می دهند که این مورد دوم است و آنها reply نقل قول طولانی جالب است:
متغیرهای پنهان یک رمزگذاری ترکیبی برای سه روش نیستند. ما مدلهای جداگانهای را برای هر روش آموزش میدهیم، اما فرآیندی که از طریق آن مدلها یاد میگیرند یکسان است. این نوآوری اصلی پروژه ما است زیرا قبلاً تفاوت های زیادی در نحوه آموزش مدل ها در روش های مختلف وجود داشت. عصب شناسان همچنین معتقدند که انسان ها به روش های مشابهی در مورد صداها و دنیای بصری یاد می گیرند. پروژه ما نشان میدهد که یادگیری خود نظارتی نیز میتواند به همان روش برای روشهای مختلف کار کند.
با توجه به محدودیتهای مدالیته خاص data2vec، یک شبکه عصبی ممکن است واقعاً باشد یک شبکه برای حکومت بر همه آنها فناوری آینده باقی می ماند.