قام الخبراء في OpenAI بتدريب شبكة عصبية للعب ماين كرافت بمستوى عالٍ مثل اللاعبين البشريين.
تم تدريب الشبكة العصبية على 70,000 ساعة من اللقطات المتنوعة داخل اللعبة ، مع استكمالها بقليل قاعدة بيانات من مقاطع الفيديو التي يؤدي فيها المقاولون مهام محددة داخل اللعبة ، باستخدام لوحة المفاتيح و فأر المدخلات المسجلة أيضا.
بعد الضبط الدقيق ، وجدت شركة OpenAI أن النموذج كان قادرًا على أداء جميع أنواع المهارات المعقدة ، من السباحة إلى صيد الحيوانات واستهلاك لحومها. كما استوعبت "قفزة العمود" ، وهي حركة يضع فيها اللاعب كتلة من المواد أسفل نفسه في منتصف القفزة من أجل الحصول على ارتفاع.
ربما كان الأمر الأكثر إثارة للإعجاب ، أن الذكاء الاصطناعي كان قادرًا على صنع أدوات ماسية (تتطلب سلسلة طويلة من الإجراءات ليتم تنفيذها بالتسلسل) ، والتي وصفتها شركة OpenAI بأنها إنجاز "غير مسبوق" لعامل كمبيوتر.
طفرة في الذكاء الاصطناعي؟
تكمن أهمية مشروع Minecraft في أنه يوضح فعالية تقنية جديدة تم نشرها بواسطة OpenAI في تدريب نماذج الذكاء الاصطناعي - تسمى Video PreTraining (VPT) - والتي تقول الشركة إنها يمكن أن تسرع من تطوير "وكلاء استخدام الكمبيوتر العام".
تاريخياً ، كانت صعوبة استخدام الفيديو الخام كمصدر لتدريب نماذج الذكاء الاصطناعي هي تلك الصعوبة ماذا ما حدث أمر بسيط بما يكفي لفهمه ، ولكن ليس بالضرورة كيف . في الواقع ، سوف يمتص نموذج الذكاء الاصطناعي النتائج المرجوة ، لكن ليس لديه فهم لتركيبات المدخلات المطلوبة للوصول إليها.
مع VPT ، مع ذلك ، تقوم OpenAI بإقران مجموعة بيانات فيديو كبيرة تم سحبها من مصادر الويب العامة مع مجموعة من اللقطات المنسقة بعناية مع حركات لوحة المفاتيح والماوس ذات الصلة لإنشاء النموذج التأسيسي.
لضبط النموذج الأساسي ، يقوم الفريق بعد ذلك بتوصيل مجموعات بيانات أصغر مصممة لتعليم مهام محددة. في هذا السياق ، استخدمت OpenAI لقطات للاعبين الذين يؤدون حركات اللعبة المبكرة ، مثل قطع الأشجار وبناء طاولات التصنيع ، والتي قيل إنها أدت إلى "تحسين هائل" في الموثوقية التي تمكن النموذج من أداء هذه المهام.
تتضمن تقنية أخرى "مكافأة" نموذج الذكاء الاصطناعي على تحقيق كل خطوة في سلسلة من المهام ، وهي ممارسة تُعرف باسم التعلم المعزز. هذه العملية هي التي سمحت للشبكة العصبية بجمع جميع مكونات معول الماس بمعدل نجاح على مستوى الإنسان.
"يمهد VPT الطريق نحو السماح للوكلاء بتعلم التصرف من خلال مشاهدة الأعداد الهائلة من مقاطع الفيديو على الإنترنت. مقارنةً بنمذجة الفيديو التوليدية أو الأساليب المتناقضة التي من شأنها أن تسفر فقط عن مقدمات تمثيلية ، توفر VPT إمكانية مثيرة لتعلم السلوكيات المسبقة على نطاق واسع بشكل مباشر في مجالات أكثر من مجرد اللغة "، أوضح OpenAI في بلوق وظيفة (يفتح في علامة تبويب جديدة) .
"بينما نجرب فقط في Minecraft ، فإن اللعبة مفتوحة للغاية والواجهة البشرية الأصلية (الماوس ولوحة المفاتيح) عامة جدًا ، لذلك نعتقد أن نتائجنا تبشر بالخير بالنسبة للمجالات الأخرى المماثلة ، مثل استخدام الكمبيوتر."
لتحفيز المزيد من التجارب في الفضاء ، دخلت OpenAI في شراكة مع مسابقة MineRL NeurIPS ، بالتبرع ببيانات المقاول ورمز النموذج للمتسابقين الذين يحاولون استخدام الذكاء الاصطناعي لحل مهام Minecraft المعقدة. الجائزة الكبرى: 100,000،XNUMX دولار.