إن لعبة "Gato" الخاصة بـ DeepMind متواضعة، فلماذا قاموا ببنائها؟

Deepmind-gato-slash-image- Closer-in.png

تتفوق الشبكة العصبية "Gato" الخاصة بـ DeepMind في العديد من المهام، بما في ذلك التحكم في الأذرع الآلية التي تقوم بتكديس الكتل، ولعب ألعاب Atari 2600، والتعليق على الصور.


العقل العميق

لقد اعتاد العالم على رؤية العناوين الرئيسية حول أحدث التطورات في أشكال التعلم العميق للذكاء الاصطناعي. ومع ذلك، يمكن تلخيص الإنجاز الأخير لقسم DeepMind في Google على النحو التالي: "برنامج ذكاء اصطناعي واحد يقوم بعمل بسيط في الكثير من الأشياء". 

جاتو، كما يسمى برنامج ديب مايند، تم كشف النقاب عنه هذا الأسبوع كبرنامج متعدد الوسائط، يمكنه تشغيل ألعاب الفيديو، والدردشة، وكتابة المقطوعات الموسيقية، والتسميات التوضيحية للصور، والتحكم في كتل تكديس الذراع الآلية. إنها شبكة عصبية واحدة يمكنها العمل مع أنواع متعددة من البيانات لأداء أنواع متعددة من المهام. 

"باستخدام مجموعة واحدة من الأوزان، يمكن لـ Gato المشاركة في الحوار، والصور التوضيحية، وتكديس الكتل باستخدام ذراع روبوت حقيقية، والتفوق على البشر في لعب ألعاب Atari، والتنقل في بيئات محاكاة ثلاثية الأبعاد، واتباع التعليمات، والمزيد،" كتب المؤلف الرئيسي سكوت ريد. وزملاؤه في ورقتهم "الوكيل العام"، تم نشره على خادم الطباعة المسبقة Arxiv

وهتف ديميس هاسابيس، المؤسس المشارك لشركة DeepMind، بالفريق قائلاً: مصيحا في تغريدة، "الوكيل الأكثر عمومية لدينا حتى الآن !! عمل رائع من الفريق!" 

أيضا: تجربة جديدة: هل يعرف الذكاء الاصطناعي حقًا القطط أو الكلاب - أو أي شيء آخر؟

المشكلة الوحيدة هي أن Gato في الواقع ليس جيدًا في العديد من المهام. 

فمن ناحية، فإن البرنامج قادر على القيام بعمل أفضل من برنامج التعلم الآلي المخصص في التحكم في ذراع سوير الآلية التي تقوم بتكديس الكتل. ومن ناحية أخرى، فإنه ينتج تسميات توضيحية للصور التي تكون في كثير من الحالات سيئة للغاية. كما أن قدرتها على إجراء حوار محادثة قياسي مع محاور بشري هي أيضًا متواضعة، وفي بعض الأحيان تثير كلامًا متناقضًا ولا معنى له. 

كما أن تشغيل ألعاب الفيديو Atari 2600 أقل من معظم برامج ML المخصصة والمصممة للتنافس في المعيار بيئة التعلم الممرات

لماذا تنشئ برنامجًا يقوم ببعض الأشياء بشكل جيد بينما يقوم بمجموعة من الأشياء الأخرى بشكل غير جيد؟ سابقة، وتوقع، وفقا للمؤلفين. 

هناك سابقة لأنواع أكثر عمومية من البرامج التي أصبحت أحدث ما توصلت إليه التكنولوجيا في مجال الذكاء الاصطناعي، وهناك توقع بأن الكميات المتزايدة من قوة الحوسبة ستعوض في المستقبل عن أوجه القصور. 

يمكن أن تميل العمومية إلى الانتصار في الذكاء الاصطناعي. وكما لاحظ المؤلفون، نقلاً عن عالم الذكاء الاصطناعي ريتشارد ساتون، "من الناحية التاريخية، كانت النماذج العامة الأفضل في الاستفادة من العمليات الحسابية تميل أيضًا إلى تجاوز الأساليب الأكثر تخصصًا في مجال محدد في نهاية المطاف."

كما كتب ساتون في تدوينة خاصة به"إن أكبر درس يمكن قراءته من 70 عامًا من أبحاث الذكاء الاصطناعي هو أن الأساليب العامة التي تستفيد من الحساب هي في النهاية الأكثر فعالية، وبهامش كبير."

كتب ريد وفريقه في أطروحة رسمية: "نحن هنا نختبر الفرضية القائلة بأن تدريب عميل قادر عمومًا على عدد كبير من المهام أمر ممكن؛ وأنه يمكن تكييف هذا الوكيل العام مع القليل من البيانات الإضافية للنجاح في عدد أكبر من المهام.

أيضا: يستكشف LeCun النجمي من Meta الذكاء الاصطناعي حدود طاقة التعلم العميق

النموذج، في هذه الحالة، هو في الواقع عام جدًا. إنها نسخة من المحول، وهو النوع السائد من النماذج القائمة على الاهتمام والتي أصبحت أساسًا للعديد من البرامج بما في ذلك GPT-3. يقوم المحول بنمذجة احتمالية بعض العناصر بالنظر إلى العناصر المحيطة به مثل الكلمات في الجملة. 

في حالة جاتو، يستطيع علماء DeepMind استخدام نفس البحث الاحتمالي المشروط على العديد من أنواع البيانات. 

كما وصف ريد وزملاؤه مهمة تدريب جاتو، 

أثناء مرحلة التدريب في Gato ، يتم تسلسل البيانات من المهام والطرائق المختلفة في تسلسل ثابت من الرموز ، مجمعة ومعالجة بواسطة شبكة عصبية محولات مشابهة لنموذج لغة كبير. يتم إخفاء الخسارة بحيث يتنبأ Gato فقط بأهداف العمل والنص.

بعبارة أخرى، لا يتعامل Gato مع الرموز المميزة بشكل مختلف سواء كانت كلمات في محادثة أو ناقلات حركة في تمرين تكديس الكتل. كل نفس. 

Deepmind-how-gato-is-trained.png

سيناريو تدريب جاتو.


ريد وآخرون. 2022

تعتبر فرضية ريد وفريقه نتيجة طبيعية، وهي أن المزيد والمزيد من القوة الحاسوبية ستفوز في النهاية. في الوقت الحالي، غاتو مقيد بوقت استجابة ذراع سوير الآلية التي تقوم بتكديس الكتل. مع 1.18 مليار معلمة للشبكة، يعد Gato أصغر بكثير من نماذج الذكاء الاصطناعي الكبيرة جدًا مثل GPT-3. مع تزايد حجم نماذج التعلم العميق، يؤدي إجراء الاستدلال إلى زمن انتقال يمكن أن يفشل في العالم غير الحتمي للروبوت في العالم الحقيقي. 

لكن ريد وزملاؤه يتوقعون تجاوز هذا الحد مع زيادة سرعة أجهزة الذكاء الاصطناعي في المعالجة.

وكتبوا: "نحن نركز تدريبنا على نقطة التشغيل على نطاق النموذج الذي يسمح بالتحكم في الوقت الفعلي للروبوتات في العالم الحقيقي، والتي تبلغ حاليًا حوالي 1.2 مليار معلمة في حالة جاتو". "مع تحسن بنيات الأجهزة والنماذج، ستعمل نقطة التشغيل هذه بشكل طبيعي على زيادة حجم النموذج الممكن، مما يدفع النماذج العامة إلى أعلى منحنى قانون القياس."

ومن ثم، يعد Gato نموذجًا حقيقيًا لكيفية استمرار حجم الحوسبة في كونها الناقل الرئيسي لتطوير التعلم الآلي، من خلال جعل النماذج العامة أكبر وأكبر. الأكبر هو الأفضل، بمعنى آخر. 

Deepmind-يصبح أفضل مع-scale.png

يتحسن Gato مع زيادة حجم الشبكة العصبية في المعلمات.


ريد وآخرون. 2022

ولدى المؤلفين بعض الأدلة على ذلك. يبدو أن جاتو يتحسن مع زيادة حجمه. وقاموا بمقارنة متوسط ​​الدرجات عبر جميع المهام المعيارية لثلاثة أحجام من النماذج وفقًا للمعلمات، 79 مليونًا، و364 مليونًا، والنموذج الرئيسي، 1.18 مليارًا. كتب المؤلفون: "يمكننا أن نرى أنه بالنسبة لعدد الرموز المكافئة، هناك تحسن كبير في الأداء مع زيادة الحجم". 

هناك سؤال مستقبلي مثير للاهتمام وهو ما إذا كان البرنامج العام أكثر خطورة من الأنواع الأخرى من برامج الذكاء الاصطناعي. يقضي المؤلفون وقتًا طويلاً في الورقة في مناقشة حقيقة وجود مخاطر محتملة لم يتم فهمها جيدًا بعد.  

إن فكرة البرنامج الذي يتعامل مع مهام متعددة توحي للشخص العادي بنوع من القدرة على التكيف البشري، ولكن هذا قد يكون فهما خاطئا خطيرا. "على سبيل المثال، يمكن أن يؤدي التجسيد المادي إلى قيام المستخدمين بتمثيل العامل، مما يؤدي إلى ثقة في غير محلها في حالة وجود خلل في النظام، أو يمكن استغلاله من قبل جهات فاعلة سيئة"، كما كتب ريد وفريقه. 

"بالإضافة إلى ذلك، في حين أن نقل المعرفة عبر المجالات غالبًا ما يكون هدفًا في أبحاث تعلم الآلة، إلا أنه يمكن أن يؤدي إلى نتائج غير متوقعة وغير مرغوب فيها إذا تم نقل سلوكيات معينة (مثل القتال في ألعاب الأركيد) إلى سياق خاطئ."

ومن ثم، فقد كتبوا: "قد تتطلب اعتبارات الأخلاق والسلامة المتعلقة بنقل المعرفة إجراء أبحاث جديدة جوهرية مع تقدم الأنظمة العامة".

(كملاحظة جانبية مثيرة للاهتمام، تستخدم ورقة جاتو مخططًا لوصف المخاطر الذي ابتكرته الباحثة السابقة في مجال الذكاء الاصطناعي في Google، مارغريت ميشيل وزملاؤها، يُسمى "البطاقات النموذجية". تقدم البطاقات النموذجية ملخصًا موجزًا ​​عن ماهية برنامج الذكاء الاصطناعي، وماذا يفعل، وماذا هناك عوامل تؤثر على كيفية عملها. كتبت ميشيل العام الماضي أنها أُجبرت على الخروج من شركة جوجل لدعمها زميلها السابق، تيمنيت جيبرو، الذي كانت مخاوفه الأخلاقية بشأن الذكاء الاصطناعي تتعارض مع قيادة جوجل للذكاء الاصطناعي).

جاتو ليس فريدًا بأي حال من الأحوال في ميله التعميمي. إنه جزء من الاتجاه الواسع للتعميم، والنماذج الأكبر التي تستخدم دلاء من القدرة الحصانية. وقد شهد العالم لأول مرة ميل جوجل في هذا الاتجاه في الصيف الماضي، مع شبكة جوجل العصبية "المُدرك" التي جمعت بين مهام محول النص والصور والصوت والإحداثيات المكانية بتقنية LiDAR.

أيضا: نموذج Google الفائق: DeepMind Perceiver هو خطوة على الطريق نحو آلة ذكاء اصطناعي يمكنها معالجة أي شيء وكل شيء

من بين أقرانه PaLM، نموذج لغة المسارات، قدمه علماء جوجل هذا العام، وهو نموذج مكون من 540 مليار معلمة يستخدم تقنية جديدة لتنسيق آلاف الرقائق، المعروفة باسم الممرات، تم اختراعه أيضًا في Google. تستخدم الشبكة العصبية التي أطلقتها شركة Meta في شهر يناير، والتي تسمى "data2vec"، المحولات لبيانات الصور، وأشكال الموجات الصوتية للكلام، وتمثيلات لغة النص، كلها في جهاز واحد. 

يبدو أن الجديد في Gato هو نية استخدام الذكاء الاصطناعي في المهام غير الروبوتية ودفعه إلى عالم الروبوتات.

يلاحظ منشئو Gato إنجازات Pathways والأساليب العامة الأخرى، ويرون الإنجاز النهائي في الذكاء الاصطناعي الذي يمكن أن يعمل في العالم الحقيقي، مع أي نوع من المهام. 

"يجب أن يأخذ العمل المستقبلي في الاعتبار كيفية توحيد قدرات النص هذه في وكيل عام واحد يمكنه أيضًا العمل في الوقت الفعلي في العالم الحقيقي، في بيئات وتجسيدات متنوعة." 

يمكنك إذن اعتبار جاتو خطوة مهمة على طريق حل أصعب مشكلة تواجه الذكاء الاصطناعي، ألا وهي الروبوتات. 



مصدر