«گاتو» DeepMind متوسط ​​است، پس چرا آنها آن را ساختند؟

deepmind-gato-slash-image-closer-in.png

شبکه عصبی «Gato» DeepMind در کارهای متعددی از جمله کنترل بازوهای روباتیک که بلوک‌ها را روی هم می‌گذارند، بازی‌های Atari 2600 و زیرنویس کردن تصاویر برتر است.


Deepmind

دنیا به دیدن سرفصل‌های جدیدترین دستاوردهای یادگیری عمیق هوش مصنوعی عادت کرده است. با این حال، آخرین دستاورد بخش DeepMind گوگل را می‌توان به این صورت خلاصه کرد: «یک برنامه هوش مصنوعی که در بسیاری از کارها به خوبی کار می‌کند». 

گاتو، به نام برنامه DeepMind، این هفته رونمایی شد به عنوان یک برنامه به اصطلاح چند وجهی، برنامه‌ای که می‌تواند بازی‌های ویدئویی، چت، نوشتن ترکیب‌بندی، عکس‌ها و کنترل یک بازوی روباتیک بر روی هم را کنترل کند. این یک شبکه عصبی است که می تواند با انواع مختلف داده کار کند تا چندین نوع کار را انجام دهد. 

اسکات رید، نویسنده اصلی این مقاله می‌نویسد: «با یک مجموعه وزن، گاتو می‌تواند در دیالوگ‌ها شرکت کند، تصاویر را زیرنویس کند، بلوک‌ها را با یک بازوی روباتی واقعی روی هم بگذارد، در بازی‌های آتاری از انسان‌ها پیشی بگیرد، در محیط‌های سه بعدی شبیه‌سازی‌شده حرکت کند، دستورالعمل‌ها را دنبال کند و موارد دیگر.» و همکاران در مقاله خود، "یک عامل عمومی"، در سرور پیش چاپ Arxiv ارسال شده است

دمیس حسابیس، بنیانگذار DeepMind تیم را تشویق کرد. در یک توییت فریاد زد"کلی ترین نماینده ما تا کنون!! کار فوق العاده تیم!” 

بنابراین: یک آزمایش جدید: آیا هوش مصنوعی واقعاً گربه‌ها یا سگ‌ها را می‌شناسد - یا هر چیز دیگری؟

تنها نکته این است که گاتو در بسیاری از کارها چندان عالی نیست. 

از یک طرف، این برنامه قادر است بهتر از یک برنامه یادگیری ماشین اختصاصی در کنترل یک بازوی روباتیک Sawyer که بلوک ها را روی هم چیده است، عمل کند. از سوی دیگر، برای تصاویری که در بسیاری از موارد بسیار ضعیف هستند، شرح هایی تولید می کند. توانایی آن در گفت و گوی استاندارد چت با یک همکار انسانی نیز به همین ترتیب متوسط ​​است و گاهی اوقات جملات متناقض و بی معنی را برمی انگیزد. 

و اجرای بازی‌های ویدیویی Atari 2600 کمتر از اکثر برنامه‌های اختصاصی ML است که برای رقابت در معیار طراحی شده‌اند. محیط یادگیری Arcade

چرا برنامه‌ای می‌سازید که برخی کارها را به خوبی انجام می‌دهد و یک سری چیزهای دیگر را به خوبی انجام نمی‌دهد؟ به گفته نویسندگان، پیشینه و انتظار. 

سابقه ای برای تبدیل شدن انواع برنامه های عمومی تر در زمینه هوش مصنوعی وجود دارد، و این انتظار وجود دارد که افزایش مقادیر توان محاسباتی در آینده کاستی ها را جبران کند. 

عمومیت می تواند در هوش مصنوعی پیروز شود. همانطور که نویسندگان به نقل از محقق هوش مصنوعی ریچارد ساتون اشاره می کنند، "از نظر تاریخی، مدل های عمومی که در محاسبات اهرمی بهتری دارند، در نهایت گرایش به سبقت گرفتن از رویکردهای تخصصی تری برای دامنه خاص دارند."

همانطور که ساتن نوشت در پست وبلاگ خودش"بزرگترین درسی که می توان از 70 سال تحقیق هوش مصنوعی خواند این است که روش های کلی که از محاسبات اهرمی استفاده می کنند، در نهایت موثرترین و با اختلاف زیادی هستند."

رید و تیمش در یک پایان نامه رسمی می نویسند که «ما در اینجا این فرضیه را آزمایش می کنیم که آموزش عاملی که عموماً قادر به انجام تعداد زیادی کار است امکان پذیر است. و اینکه این عامل عمومی را می توان با داده های اضافی کمی برای موفقیت در تعداد بیشتری از وظایف تطبیق داد.

بنابراین: LeCun، درخشان هوش مصنوعی متا، مرز انرژی یادگیری عمیق را بررسی می کند

مدل، در این مورد، در واقع، بسیار کلی است. این نسخه ای از Transformer است، نوع غالب مدل مبتنی بر توجه که اساس برنامه های متعدد از جمله GPT-3 شده است. یک ترانسفورماتور احتمال برخی از عناصر را با توجه به عناصری که آن را احاطه کرده اند، مانند کلمات در یک جمله، مدل می کند. 

در مورد گاتو، دانشمندان DeepMind می‌توانند از همان جستجوی احتمال شرطی در انواع داده‌های متعدد استفاده کنند. 

همانطور که رید و همکارانش وظیفه آموزش گاتو را توصیف می کنند، 

در طول مرحله آموزش گاتو، داده‌ها از وظایف و روش‌های مختلف در یک دنباله مسطح از نشانه‌ها، دسته‌بندی شده و توسط یک شبکه عصبی ترانسفورماتور شبیه به یک مدل زبان بزرگ پردازش می‌شوند. از دست دادن به گونه‌ای پوشانده شده است که گاتو فقط اهداف عمل و متن را پیش‌بینی می‌کند.

به عبارت دیگر، گاتو با توکن‌ها متفاوت رفتار نمی‌کند، چه آنها کلماتی در یک چت باشند و چه بردارهای حرکتی در یک تمرین انباشته بلوک. همش همینطوره 

deepmind-how-gato-is-trained.png

سناریوی تمرین گاتو


رید و همکاران 2022

در درون رید و فرضیه تیم مدفون یک نتیجه است، یعنی قدرت محاسباتی بیشتر و بیشتر در نهایت برنده خواهد شد. در حال حاضر، گاتو با زمان پاسخگویی بازوی ربات Sawyer که انباشتن بلوک را انجام می دهد، محدود شده است. با 1.18 میلیارد پارامتر شبکه، Gato بسیار کوچکتر از مدل های بسیار بزرگ هوش مصنوعی مانند GPT-3 است. با بزرگ‌تر شدن مدل‌های یادگیری عمیق، انجام استنتاج منجر به تأخیر می‌شود که می‌تواند در دنیای غیر قطعی ربات‌های دنیای واقعی شکست بخورد. 

اما رید و همکارانش انتظار دارند از این محدودیت فراتر رود زیرا سخت‌افزار هوش مصنوعی در پردازش سریع‌تر می‌شود.

آنها نوشتند: "ما آموزش خود را در نقطه عملیاتی مقیاس مدل متمرکز می کنیم که امکان کنترل در زمان واقعی ربات های دنیای واقعی را فراهم می کند، در حال حاضر حدود 1.2B پارامتر در مورد Gato." همانطور که سخت افزار و معماری مدل بهبود می یابد، این نقطه عملیاتی به طور طبیعی اندازه مدل قابل اجرا را افزایش می دهد و مدل های عمومی را بالاتر از منحنی قانون مقیاس بندی می برد.

از این رو، گاتو واقعاً مدلی است برای اینکه چگونه مقیاس محاسبات با بزرگ‌تر کردن و بزرگ‌تر کردن مدل‌های عمومی، بردار اصلی توسعه یادگیری ماشین است. به عبارت دیگر بزرگتر بهتر است. 

deepmind-gets-better-with-scale.png

گاتو با افزایش اندازه شبکه عصبی در پارامترها بهتر می شود.


رید و همکاران 2022

و نویسندگان شواهدی برای این موضوع دارند. به نظر می رسد گاتو با بزرگتر شدن بهتر می شود. آنها میانگین نمرات را در تمام وظایف معیار برای سه اندازه مدل با توجه به پارامترها، 79 میلیون، 364 میلیون، و مدل اصلی، 1.18 میلیارد، مقایسه کردند. نویسندگان می نویسند: "ما می توانیم ببینیم که برای تعداد توکن های معادل، بهبود عملکرد قابل توجهی با افزایش مقیاس وجود دارد." 

یک سوال جالب در آینده این است که آیا برنامه ای که عمومیت دارد از سایر انواع برنامه های هوش مصنوعی خطرناک تر است؟ نویسندگان زمان زیادی را در مقاله صرف بحث در مورد این واقعیت می کنند که خطرات احتمالی وجود دارد که هنوز به خوبی درک نشده است.  

ایده برنامه‌ای که وظایف متعددی را انجام می‌دهد به افراد غیرعادی نوعی سازگاری انسانی را نشان می‌دهد، اما ممکن است تصور اشتباه خطرناکی باشد. رید و تیم می‌نویسند: «برای مثال، تجسم فیزیکی می‌تواند منجر به انسان‌سازی عامل توسط کاربران شود، که منجر به اعتماد نابجا در مورد یک سیستم ناکارآمد شود، یا توسط بازیگران بد قابل بهره‌برداری شود». 

علاوه بر این، در حالی که انتقال دانش بین دامنه ای اغلب یک هدف در تحقیقات ML است، اگر رفتارهای خاصی (مانند مبارزه با بازی های آرکید) به زمینه اشتباه منتقل شود، می تواند نتایج غیرمنتظره و نامطلوبی ایجاد کند.

از این رو، آنها می نویسند، "مطالعات اخلاقی و ایمنی انتقال دانش ممکن است نیاز به تحقیقات جدید اساسی داشته باشد، زیرا سیستم های عمومی پیشرفت می کنند."

(به عنوان یک یادداشت جانبی جالب، مقاله گاتو از طرحی برای توصیف ریسک استفاده می‌کند که توسط محقق سابق هوش مصنوعی گوگل، مارگارت میشل و همکارانش طراحی شده است، به نام کارت‌های مدل. کارت‌های مدل خلاصه‌ای مختصر از چیستی یک برنامه هوش مصنوعی، چه کاری انجام می‌دهد و عواملی بر نحوه عملکرد آن تأثیر می‌گذارند. میشل سال گذشته نوشت که او به دلیل حمایت از همکار سابقش، تیمنیت گبرو، که نگرانی‌های اخلاقی او در مورد هوش مصنوعی با رهبری هوش مصنوعی گوگل در تضاد بود، از گوگل اخراج شد.)

گاتو به هیچ وجه در گرایش تعمیم خود منحصر به فرد نیست. این بخشی از گرایش گسترده به تعمیم و مدل های بزرگتر است که از سطل های اسب بخار استفاده می کنند. جهان تابستان گذشته اولین طعم شیب گوگل به این سمت را با شبکه عصبی "Perceiver" گوگل که وظایف Transformer متن را با تصاویر، صدا و مختصات فضایی LiDAR ترکیب می کرد، چشید.

بنابراین: Supermodel Google: DeepMind Perceiver گامی در مسیر یک ماشین هوش مصنوعی است که می تواند همه چیز و همه چیز را پردازش کند.

در میان همتایان آن، palm، مدل زبان مسیرها، است. امسال توسط دانشمندان گوگل معرفی شدیک مدل پارامتری 540 میلیاردی که از فناوری جدیدی برای هماهنگ کردن هزاران تراشه استفاده می کند. معروف به مسیرها، همچنین در گوگل اختراع شد. یک شبکه عصبی که در ژانویه توسط Meta منتشر شد، به نام "data2vec"، از ترانسفورماتورها برای داده‌های تصویر، شکل‌های موج صوتی گفتار و نمایش زبان متن استفاده می‌کند. 

به نظر می رسد آنچه در مورد Gato جدید است، قصد گرفتن هوش مصنوعی مورد استفاده برای کارهای غیر رباتیک و سوق دادن آن به حوزه رباتیک است.

سازندگان گاتو با اشاره به دستاوردهای Pathways و سایر رویکردهای کلی، دستاورد نهایی را در هوش مصنوعی می بینند که می تواند در دنیای واقعی و با هر نوع وظیفه ای عمل کند. 

کار آینده باید در نظر بگیرد که چگونه می‌توان این قابلیت‌های متن را در یک عامل کاملاً عمومی که می‌تواند در زمان واقعی در دنیای واقعی، در محیط‌ها و تجسم‌های متنوع عمل کند، یکی کند.» 

پس می توانید گاتو را به عنوان یک گام مهم در مسیر حل مشکل ترین مشکل هوش مصنوعی، رباتیک، در نظر بگیرید. 



منبع