دنیا به دیدن سرفصلهای جدیدترین دستاوردهای یادگیری عمیق هوش مصنوعی عادت کرده است. با این حال، آخرین دستاورد بخش DeepMind گوگل را میتوان به این صورت خلاصه کرد: «یک برنامه هوش مصنوعی که در بسیاری از کارها به خوبی کار میکند».
گاتو، به نام برنامه DeepMind، این هفته رونمایی شد به عنوان یک برنامه به اصطلاح چند وجهی، برنامهای که میتواند بازیهای ویدئویی، چت، نوشتن ترکیببندی، عکسها و کنترل یک بازوی روباتیک بر روی هم را کنترل کند. این یک شبکه عصبی است که می تواند با انواع مختلف داده کار کند تا چندین نوع کار را انجام دهد.
اسکات رید، نویسنده اصلی این مقاله مینویسد: «با یک مجموعه وزن، گاتو میتواند در دیالوگها شرکت کند، تصاویر را زیرنویس کند، بلوکها را با یک بازوی روباتی واقعی روی هم بگذارد، در بازیهای آتاری از انسانها پیشی بگیرد، در محیطهای سه بعدی شبیهسازیشده حرکت کند، دستورالعملها را دنبال کند و موارد دیگر.» و همکاران در مقاله خود، "یک عامل عمومی"، در سرور پیش چاپ Arxiv ارسال شده است.
دمیس حسابیس، بنیانگذار DeepMind تیم را تشویق کرد. در یک توییت فریاد زد"کلی ترین نماینده ما تا کنون!! کار فوق العاده تیم!”
بنابراین: یک آزمایش جدید: آیا هوش مصنوعی واقعاً گربهها یا سگها را میشناسد - یا هر چیز دیگری؟
تنها نکته این است که گاتو در بسیاری از کارها چندان عالی نیست.
از یک طرف، این برنامه قادر است بهتر از یک برنامه یادگیری ماشین اختصاصی در کنترل یک بازوی روباتیک Sawyer که بلوک ها را روی هم چیده است، عمل کند. از سوی دیگر، برای تصاویری که در بسیاری از موارد بسیار ضعیف هستند، شرح هایی تولید می کند. توانایی آن در گفت و گوی استاندارد چت با یک همکار انسانی نیز به همین ترتیب متوسط است و گاهی اوقات جملات متناقض و بی معنی را برمی انگیزد.
و اجرای بازیهای ویدیویی Atari 2600 کمتر از اکثر برنامههای اختصاصی ML است که برای رقابت در معیار طراحی شدهاند. محیط یادگیری Arcade.
چرا برنامهای میسازید که برخی کارها را به خوبی انجام میدهد و یک سری چیزهای دیگر را به خوبی انجام نمیدهد؟ به گفته نویسندگان، پیشینه و انتظار.
سابقه ای برای تبدیل شدن انواع برنامه های عمومی تر در زمینه هوش مصنوعی وجود دارد، و این انتظار وجود دارد که افزایش مقادیر توان محاسباتی در آینده کاستی ها را جبران کند.
عمومیت می تواند در هوش مصنوعی پیروز شود. همانطور که نویسندگان به نقل از محقق هوش مصنوعی ریچارد ساتون اشاره می کنند، "از نظر تاریخی، مدل های عمومی که در محاسبات اهرمی بهتری دارند، در نهایت گرایش به سبقت گرفتن از رویکردهای تخصصی تری برای دامنه خاص دارند."
همانطور که ساتن نوشت در پست وبلاگ خودش"بزرگترین درسی که می توان از 70 سال تحقیق هوش مصنوعی خواند این است که روش های کلی که از محاسبات اهرمی استفاده می کنند، در نهایت موثرترین و با اختلاف زیادی هستند."
رید و تیمش در یک پایان نامه رسمی می نویسند که «ما در اینجا این فرضیه را آزمایش می کنیم که آموزش عاملی که عموماً قادر به انجام تعداد زیادی کار است امکان پذیر است. و اینکه این عامل عمومی را می توان با داده های اضافی کمی برای موفقیت در تعداد بیشتری از وظایف تطبیق داد.
بنابراین: LeCun، درخشان هوش مصنوعی متا، مرز انرژی یادگیری عمیق را بررسی می کند
مدل، در این مورد، در واقع، بسیار کلی است. این نسخه ای از Transformer است، نوع غالب مدل مبتنی بر توجه که اساس برنامه های متعدد از جمله GPT-3 شده است. یک ترانسفورماتور احتمال برخی از عناصر را با توجه به عناصری که آن را احاطه کرده اند، مانند کلمات در یک جمله، مدل می کند.
در مورد گاتو، دانشمندان DeepMind میتوانند از همان جستجوی احتمال شرطی در انواع دادههای متعدد استفاده کنند.
همانطور که رید و همکارانش وظیفه آموزش گاتو را توصیف می کنند،
در طول مرحله آموزش گاتو، دادهها از وظایف و روشهای مختلف در یک دنباله مسطح از نشانهها، دستهبندی شده و توسط یک شبکه عصبی ترانسفورماتور شبیه به یک مدل زبان بزرگ پردازش میشوند. از دست دادن به گونهای پوشانده شده است که گاتو فقط اهداف عمل و متن را پیشبینی میکند.
به عبارت دیگر، گاتو با توکنها متفاوت رفتار نمیکند، چه آنها کلماتی در یک چت باشند و چه بردارهای حرکتی در یک تمرین انباشته بلوک. همش همینطوره
در درون رید و فرضیه تیم مدفون یک نتیجه است، یعنی قدرت محاسباتی بیشتر و بیشتر در نهایت برنده خواهد شد. در حال حاضر، گاتو با زمان پاسخگویی بازوی ربات Sawyer که انباشتن بلوک را انجام می دهد، محدود شده است. با 1.18 میلیارد پارامتر شبکه، Gato بسیار کوچکتر از مدل های بسیار بزرگ هوش مصنوعی مانند GPT-3 است. با بزرگتر شدن مدلهای یادگیری عمیق، انجام استنتاج منجر به تأخیر میشود که میتواند در دنیای غیر قطعی رباتهای دنیای واقعی شکست بخورد.
اما رید و همکارانش انتظار دارند از این محدودیت فراتر رود زیرا سختافزار هوش مصنوعی در پردازش سریعتر میشود.
آنها نوشتند: "ما آموزش خود را در نقطه عملیاتی مقیاس مدل متمرکز می کنیم که امکان کنترل در زمان واقعی ربات های دنیای واقعی را فراهم می کند، در حال حاضر حدود 1.2B پارامتر در مورد Gato." همانطور که سخت افزار و معماری مدل بهبود می یابد، این نقطه عملیاتی به طور طبیعی اندازه مدل قابل اجرا را افزایش می دهد و مدل های عمومی را بالاتر از منحنی قانون مقیاس بندی می برد.
از این رو، گاتو واقعاً مدلی است برای اینکه چگونه مقیاس محاسبات با بزرگتر کردن و بزرگتر کردن مدلهای عمومی، بردار اصلی توسعه یادگیری ماشین است. به عبارت دیگر بزرگتر بهتر است.
و نویسندگان شواهدی برای این موضوع دارند. به نظر می رسد گاتو با بزرگتر شدن بهتر می شود. آنها میانگین نمرات را در تمام وظایف معیار برای سه اندازه مدل با توجه به پارامترها، 79 میلیون، 364 میلیون، و مدل اصلی، 1.18 میلیارد، مقایسه کردند. نویسندگان می نویسند: "ما می توانیم ببینیم که برای تعداد توکن های معادل، بهبود عملکرد قابل توجهی با افزایش مقیاس وجود دارد."
یک سوال جالب در آینده این است که آیا برنامه ای که عمومیت دارد از سایر انواع برنامه های هوش مصنوعی خطرناک تر است؟ نویسندگان زمان زیادی را در مقاله صرف بحث در مورد این واقعیت می کنند که خطرات احتمالی وجود دارد که هنوز به خوبی درک نشده است.
ایده برنامهای که وظایف متعددی را انجام میدهد به افراد غیرعادی نوعی سازگاری انسانی را نشان میدهد، اما ممکن است تصور اشتباه خطرناکی باشد. رید و تیم مینویسند: «برای مثال، تجسم فیزیکی میتواند منجر به انسانسازی عامل توسط کاربران شود، که منجر به اعتماد نابجا در مورد یک سیستم ناکارآمد شود، یا توسط بازیگران بد قابل بهرهبرداری شود».
علاوه بر این، در حالی که انتقال دانش بین دامنه ای اغلب یک هدف در تحقیقات ML است، اگر رفتارهای خاصی (مانند مبارزه با بازی های آرکید) به زمینه اشتباه منتقل شود، می تواند نتایج غیرمنتظره و نامطلوبی ایجاد کند.
از این رو، آنها می نویسند، "مطالعات اخلاقی و ایمنی انتقال دانش ممکن است نیاز به تحقیقات جدید اساسی داشته باشد، زیرا سیستم های عمومی پیشرفت می کنند."
(به عنوان یک یادداشت جانبی جالب، مقاله گاتو از طرحی برای توصیف ریسک استفاده میکند که توسط محقق سابق هوش مصنوعی گوگل، مارگارت میشل و همکارانش طراحی شده است، به نام کارتهای مدل. کارتهای مدل خلاصهای مختصر از چیستی یک برنامه هوش مصنوعی، چه کاری انجام میدهد و عواملی بر نحوه عملکرد آن تأثیر میگذارند. میشل سال گذشته نوشت که او به دلیل حمایت از همکار سابقش، تیمنیت گبرو، که نگرانیهای اخلاقی او در مورد هوش مصنوعی با رهبری هوش مصنوعی گوگل در تضاد بود، از گوگل اخراج شد.)
گاتو به هیچ وجه در گرایش تعمیم خود منحصر به فرد نیست. این بخشی از گرایش گسترده به تعمیم و مدل های بزرگتر است که از سطل های اسب بخار استفاده می کنند. جهان تابستان گذشته اولین طعم شیب گوگل به این سمت را با شبکه عصبی "Perceiver" گوگل که وظایف Transformer متن را با تصاویر، صدا و مختصات فضایی LiDAR ترکیب می کرد، چشید.
بنابراین: Supermodel Google: DeepMind Perceiver گامی در مسیر یک ماشین هوش مصنوعی است که می تواند همه چیز و همه چیز را پردازش کند.
در میان همتایان آن، palm، مدل زبان مسیرها، است. امسال توسط دانشمندان گوگل معرفی شدیک مدل پارامتری 540 میلیاردی که از فناوری جدیدی برای هماهنگ کردن هزاران تراشه استفاده می کند. معروف به مسیرها، همچنین در گوگل اختراع شد. یک شبکه عصبی که در ژانویه توسط Meta منتشر شد، به نام "data2vec"، از ترانسفورماتورها برای دادههای تصویر، شکلهای موج صوتی گفتار و نمایش زبان متن استفاده میکند.
به نظر می رسد آنچه در مورد Gato جدید است، قصد گرفتن هوش مصنوعی مورد استفاده برای کارهای غیر رباتیک و سوق دادن آن به حوزه رباتیک است.
سازندگان گاتو با اشاره به دستاوردهای Pathways و سایر رویکردهای کلی، دستاورد نهایی را در هوش مصنوعی می بینند که می تواند در دنیای واقعی و با هر نوع وظیفه ای عمل کند.
کار آینده باید در نظر بگیرد که چگونه میتوان این قابلیتهای متن را در یک عامل کاملاً عمومی که میتواند در زمان واقعی در دنیای واقعی، در محیطها و تجسمهای متنوع عمل کند، یکی کند.»
پس می توانید گاتو را به عنوان یک گام مهم در مسیر حل مشکل ترین مشکل هوش مصنوعی، رباتیک، در نظر بگیرید.