أنفقت شركة OpenAI 160,000 ألف دولار على Upwork للاعبين في Minecraft لتدريب شبكة عصبية

صياغة الماس معول

من فيديو VPT الذي يسعى إلى صنع فأس بقطر في Minecraft. حقق برنامج الكمبيوتر هذا الإنجاز في عشر دقائق ، أي نصف الوقت الذي يستغرقه لاعب بشري ماهر للقيام بذلك.

ما مدى أهمية إتقان "أداة الماس" في Minecraft؟

أمر مهم بما يكفي لإنفاق 160,000 ألف دولار ، وفقًا لشركة OpenAI ، شركة الذكاء الاصطناعي الناشئة.

هذا هو المبلغ الذي أنفقه فريق في OpenAI لتوظيف لاعبين من Minecraft على منصة قوائم الوظائف عبر الإنترنت Upwork لإرسال مقاطع فيديو لأنفسهم وهم يلعبون اللعبة. 

أمازون برايم داي 2022: الصفقات المبكرة

In كشف النقاب عن ورقة هذا الأسبوع ، "تدريب ما قبل الفيديو (VPT): تعلم التصرف من خلال مشاهدة مقاطع فيديو غير مصنفة على الإنترنت" ، باحثو OpenAI Bowen Baker وفريق العمل في مجال استخدام مجموعات البيانات الكبيرة لتدريب شبكة عصبية لتقليد ضغطات المفاتيح البشرية لحل المهام المختلفة في الفيديو لعبه. (منشور مدونة تم نشره أيضًا بواسطة OpenAI.) 

لقد غزا عدد كبير من الشبكات العصبية أنواعًا مختلفة من الألعاب عبر ما يسمى بالتعلم المعزز في السنوات الأخيرة ، بما في ذلك DeepMind DeepMind's AlphaZero ، الذي لعب الشطرنج و Go و Shogi وما تلاه MuZero البرنامج الذي أضاف القدرة على التعامل مع ألعاب أتاري. 

أراد بيكر وفريقه تطوير شبكة عصبية لبيئة ألعاب "العالم المفتوح" الأكثر تعقيدًا في Minecraft ، حيث تتيح مجموعة من ضربات المفاتيح للاعبين درجات أكبر بكثير من الحرية مقارنة بألعاب الشطرنج أو ألعاب Atari. 

أيضا: الذكاء الاصطناعي في ستين ثانية 

كتب المؤلفون أن الأدبيات البحثية تتضمن "قدرًا هائلاً" من العمل على Minecraft. لكن عمل VPT فريد من نوعه ، كما كتبوا ، نظرًا لنطاقه وحجمه: "على حد علمنا ، لا يوجد عمل منشور يعمل في مساحة عمل بشرية كاملة وغير معدلة ، والتي تتضمن إدارة المخزون بالسحب والإفلات و صياغة العنصر ".

تم عمل بناء الشبكة العصبية ، المسماة VPT ، على مرحلتين. احتاجت المرحلة الأولى إلى لاعبين بشريين أو مقاولين جمّعوا 4,500 ساعة من اللعب. اكتشف الباحثون لاحقًا أنهم يحتاجون فقط حوالي 2,000 ساعة.

يصف بيكر والفريق العملية:

فتحنا باب التقديم ليوم واحد ، ثم اخترنا عشوائيًا 10 متقدمين للجولة الأولى من المقاولين. لاحقًا في المشروع ، نظرًا لأننا احتجنا إلى مزيد من البيانات ولما طلب بعض المقاولين إنهاء عقودهم ، أضفنا المزيد من المتقدمين من المجموعة الأصلية بالإضافة إلى الإحالات من المقاولين العاملين حاليًا. تم دفع 20 دولارًا لكل ساعة للمقاولين (مطروحًا منها رسوم منصة Upwork والضرائب المطبقة). تستند جميع النتائج المعروضة في هذه الورقة إلى حوالي 4,500 ساعة من البيانات (بما في ذلك البيانات المسجلة لجمع إحصائيات عن اللعب البشري الذي لم يتم استخدامه للتدريب) ، والتي كلفتنا حوالي 90,000 ألف دولار. على مدار المشروع ، قمنا بجمع بعض البيانات التي لم نستخدمها بسبب الأخطاء في المسجل وبالنسبة لبعض الأفكار التي لم نتابعها في النهاية. في المجموع ، أنفقنا حوالي 160 ألف دولار لتعويض المقاول على مدار المشروع. ومع ذلك ، كما نناقش في ثانية. 4.6 ، يمكننا على الأرجح الحصول على معظم نتائجنا من خلال برنامج IDM الذي تم تدريبه باستخدام بيانات بقيمة 2000 دولار فقط ، أي نموذج VPT الأساسي ، وضبط BC على مجموعة بيانات earlygame_keyword ، ونتائج ضبط RL. تبلغ تكلفة جمع مجموعة بيانات Contractor_house حوالي 8000 دولار. نظرًا لأننا استخدمنا برنامج IDM الذي تم تدريبه على حوالي 2000 ساعة من بيانات المقاول ، فإن التكلفة الفعلية لبيانات المقاول لتلك النتائج كانت حوالي 40,000 دولار.

خلال 4,500 ساعة ، قاموا بإرفاق ملصقات بإطارات فيديو اللعبة لإجراءات مثل "المخزون" للتحقق من مجموعة عناصر اللاعب ، باستخدام المفتاح "E" ؛ و "التسلل" للتحرك "بعناية" في الاتجاه الحالي باستخدام SHIFT مفتاح. يتم تسجيل هذه الإجراءات كسلاسل نصية JSON في كل لحظة من اللعب وتخزينها مع إطارات الفيديو. 

تم استخدام إطارات اللعب بأفعالها المصنفة لتدريب شبكة عصبية تسمى نموذج الديناميكيات العكسية ، أو IDM ، والتي تتعلم الإجراءات التي تتماشى مع الإطارات. إن IDM عبارة عن مزيج من عدة أنواع من الشبكات العصبية ، بما في ذلك شبكة عصبية تلافيفية ثلاثية الأبعاد وشبكة ResNet لتحليل إطارات الفيديو ، والعديد من شبكات الاهتمام المحولات للتنبؤ بإطار الفيديو التالي. 

أيضا: حساس؟ يبدو Google LaMDA وكأنه روبوت محادثة نموذجي

يتم بعد ذلك استخدام قدرة IDM المدربة على مجموعة أكبر بكثير من لقطات الفيديو ، أي ما مجموعه 70,000 ساعة من لقطات Minecraft غير المسماة التي تم جمعها من الويب. يطبق IDM "ملصقات زائفة" على تلك المجموعة الأكبر بشكل كبير. بعبارة أخرى ، فإن IDM ورسوم المقاول هي وسيلة لتمهيد مجموعة تدريب فيديو ضخمة. 

أوبناي- vpt- تدريب- 2022

نظام التدريب على VPT.

OpenAI

على الرغم من أن مدفوعات المقاول قد تبدو باهظة الثمن ، فإن هذا النهج يمثل توفيرًا كبيرًا في التكلفة ، كما كتب المؤلفون. إذا كان عليهم جمع بيانات مقاول تعادل 70,000 ساعة من مقاطع الفيديو على الويب ، فسيكون ذلك أكثر تكلفة بكثير.

"إذا تمكنا من جمع مجموعة بيانات مقاول مصنفة بترتيب مماثل من حيث الحجم مثل web_clean بتكلفة زهيدة ، فلن يكون هذا مهمًا ؛ ومع ذلك ، فإن جمع هذا الحجم من البيانات كان سيكلف ملايين الدولارات ".

باستخدام 70,000 ساعة ، قام المؤلفون بعد ذلك بتدريب شبكة عصبية ثانية ، تتكون أيضًا من طبقات المحولات ، لتقليد إجراءات المستخدم في مقاطع الفيديو ، وهي ممارسة شائعة تُعرف باسم "الاستنساخ السلوكي".

الهدف من العمل هو إيجاد طريقة لتدريب "وكيل" كمبيوتر للأغراض العامة يمكنه استخدام ثروة البيانات الموجودة على الإنترنت والتي لا تحتوي على تسميات لحل المهام التي تتضمن السببية والمعنى وتسلسل الإجراءات التي لها العلاقة الضرورية من واحد إلى آخر. 

وكتبوا: "تساعد النتائج المقدمة في هذه الورقة على تمهيد الطريق للاستفادة من ثروة البيانات غير المسماة على الويب في مجالات القرار المتسلسلة". 

يقترحون أنه يمكن استخدام العمل في العديد من مهام الكمبيوتر التي تتطلب تسلسل نقرات الماوس وغيرها من عناصر تحكم المشغل البشري. 

"بينما نجرب في Minecraft فقط ، نعتقد أن VPT يوفر وصفة عامة لتدريب السابقات السلوكية في مساحات العمل الصعبة ، ولكن العامة ، في أي مجال يحتوي على قدر كبير من البيانات غير المصنفة المتاحة مجانًا ، مثل استخدام الكمبيوتر."

تشتهر Open-AI ببرنامج اللغات الكبير المسمى GPT-3 ، والذي يستخدم أيضًا نهجًا "مدربًا مسبقًا" يعتمد على عدد كبير من بيانات الويب التي لم يتم تصنيفها. بمعنى ما ، تعمل لعبة Minecraft على توسيع هذا النهج لتقليد السلوك في مجال مهام الكمبيوتر المتسلسلة التي يتم التقاطها عبر الفيديو. 

أيضًا: ما هو GPT-3؟ كل ما يحتاج عملك لمعرفته حول برنامج لغة الذكاء الاصطناعي الخارق لـ OpenAI

يتمثل الإنجاز النهائي في بعض الحالات في تجاوز الوقت المطلوب للإنسان لتحقيق إحدى أصعب المهام ، وهو الحصول على معول ماسي.

في Minecraft ، تدوم الأدوات القائمة على الألماس لفترة أطول ويمكن أن تسبب المزيد من الضرر. الفؤوس الماسية هي الوحيدة التي تعتبر مهمة بشكل خاص لمعظم اللاعبين. أنت بحاجة إلى معول ماسي لتعدين حجر السج ومادة خيالية تسمى netherite ، وكلاهما مهم لأنشطة نهاية اللعبة مثل الطاولات الساحرة وصنع المعدات السفلية.

بعد تدريب VPT على تعلم جميع أنواع مهام Minecraft ، استخدم المؤلفون نهج "الضبط الدقيق" الذي طور شبكة عصبية لتعلم التعزيز لتصميم معول ماسي في وقت أسرع من المعتاد. 

كتبوا: "لإثبات فعالية الضبط الدقيق لـ RL ، اخترنا الهدف الصعب المتمثل في الحصول على معول ماسي في غضون 10 دقائق بدءًا من عالم Minecraft الجديد للبقاء على قيد الحياة". 

هذا يمثل تحديًا للبشر ، الذين عادة ما يستغرقون ضعف الوقت للقيام بذلك ، إذا كان بإمكانهم القيام بذلك على الإطلاق:

يتضمن القيام بذلك الحصول على سلسلة من العناصر التي يصعب الحصول عليها والتي تتطلب مهارات معقدة مثل التعدين وإدارة المخزون والصياغة مع وبدون طاولة التصنيع واستخدام الأدوات وتشغيل الفرن والتعدين في أدنى الأعماق ، حيث توجد العديد من المخاطر مثل الأعداء والحمم البركانية موجودة (الشكل 6). إضافة إلى الصعوبة ، يمكن فقدان التقدم بسهولة عن طريق إسقاط العناصر أو تدميرها أو الموت. يستغرق الحصول على فأس ماسي في كثير من الأحيان شخصًا ماهرًا أكثر من 20 دقيقة (24,000 إجراء).

عند تجميع كل من بيانات المقاول و 70,000 ساعة من فيديو الويب غير المسماة ، كان المؤلفون على دراية باحتمالية المحتوى المسيء. "يمكن للمقاولين نظريًا استخدام خاصية العالم المفتوح في Minecraft لإنشاء معلومات تعريف شخصية و / أو محتوى مسيء (على سبيل المثال باستخدام كتل Minecraft لكتابة أسمائهم أو الرسائل المسيئة ، ثم العثور على مكان تكون الرسالة مرئية منه) ،" يكتبون ، على الرغم من أنهم لم يروا ذلك في مقاطع الفيديو من المقاولين الذين شاهدهم المؤلفون. 

"بالطبع ، نقوم بتدريب نماذج BC [الاستنساخ السلوكي] على مقاطع فيديو من الإنترنت للأشخاص الذين يلعبون لعبة Minecraft ، وإذا كان هذا السلوك موجودًا في مقاطع الفيديو هذه ، فمن المحتمل أن يتعلم نموذجنا ذلك أيضًا ، على الرغم من أننا نتوقع أن يكون مثل هذا السلوك نادرًا بما يكفي ليس من المرجح أن يعيد إنتاجه "، كتبوا. 

إلى أين يذهب هذا الوكيل العام بعد ذلك؟ الفكرة هي أنه بعد غزو المحاور الماسية ، VPT ، أو نسلها ، يمكن أن يفعل كل أنواع الأشياء التي قد يفعلها الشخص بالماوس ولوحة المفاتيح ، بما في ذلك إطلاق صيحات الاستهجان ، أو تصفح وسائل التواصل الاجتماعي ، أو التنقل في الخرائط. 

مصدر