کارشناسان OpenAI یک شبکه عصبی را برای بازی آموزش داده اند های کنکوری به استانداردی به اندازه بازیکنان انسانی.
شبکه عصبی بر روی 70,000 ساعت فیلم متفرقه در بازی آموزش داده شد که با یک فیلم کوچک تکمیل شد. پایگاه داده از ویدئوهایی که در آن پیمانکاران وظایف خاصی را در بازی انجام میدهند، با صفحه کلید و موش ورودی ها نیز ثبت شد.
پس از تنظیم دقیق، OpenAI دریافت که این مدل قادر به انجام انواع مهارتهای پیچیده، از شنا تا شکار حیوانات و مصرف گوشت آنها است. همچنین "پرش ستونی" را درک کرد، حرکتی که به موجب آن بازیکن یک بلوک از مواد را زیر خود در میانه پرش قرار می دهد تا به ارتفاع برسد.
شاید مهمتر از همه این بود که هوش مصنوعی توانست ابزارهای الماسی بسازد (که نیاز به یک رشته طولانی از اقدامات برای اجرای متوالی دارد)، که OpenAI به عنوان یک دستاورد "بی سابقه" برای یک عامل رایانه توصیف کرد.
پیشرفت هوش مصنوعی؟
اهمیت پروژه Minecraft در این است که کارآمدی تکنیک جدیدی را که توسط OpenAI در آموزش مدلهای هوش مصنوعی به کار گرفته شده است - به نام Video Pretraining (VPT) - نشان میدهد که این شرکت میگوید میتواند توسعه «عاملهای عمومی رایانهای» را تسریع بخشد.
از لحاظ تاریخی، مشکل استفاده از ویدیوی خام به عنوان منبعی برای آموزش مدلهای هوش مصنوعی همین بوده است چی اتفاق افتاده است به اندازه کافی ساده برای درک است، اما نه لزوما چگونه . در واقع، مدل هوش مصنوعی نتایج مورد نظر را جذب میکند، اما هیچ درک از ترکیبهای ورودی لازم برای رسیدن به آنها ندارد.
با این حال، با VPT، OpenAI مجموعه دادههای ویدیویی بزرگی را که از منابع عمومی وب جمعآوری شده است، با مجموعهای از فیلمهایی که با دقت تنظیم شده با حرکات صفحهکلید و ماوس مرتبط برچسبگذاری شدهاند، جفت میکند تا مدل پایه را ایجاد کند.
برای تنظیم دقیق مدل پایه، تیم سپس مجموعه داده های کوچکتری را که برای آموزش وظایف خاص طراحی شده اند، متصل می کند. در این زمینه، OpenAI از فیلمهایی از بازیکنانی استفاده کرد که اقدامات اولیه بازی را انجام میدادند، مانند بریدن درختان و ساختن میزهای کاردستی، که گفته میشود «پیشرفت گستردهای» در قابلیت اطمینان این مدل انجام داده است.
تکنیک دیگر شامل «پاداش دادن» به مدل هوش مصنوعی برای دستیابی به هر مرحله در دنباله ای از وظایف است که به عنوان یادگیری تقویتی شناخته می شود. این فرآیند چیزی است که به شبکه عصبی اجازه می دهد تا تمام مواد تشکیل دهنده یک کلنگ الماس را با میزان موفقیت در سطح انسان جمع آوری کند.
«VPT مسیری را هموار میکند که به عوامل اجازه میدهد با تماشای تعداد زیادی ویدیو در اینترنت عمل کنند. در مقایسه با مدلسازی ویدیویی تولیدی یا روشهای متضاد که فقط مقدمات نمایشی را به دست میآورند، VPT امکان هیجانانگیز یادگیری مستقیم مقدمات رفتاری در مقیاس بزرگ را در حوزههای بیشتری از زبان را ارائه میدهد. پست های وبلاگ (در برگه جدید باز می شود) .
"در حالی که ما فقط در Minecraft آزمایش می کنیم، بازی بسیار باز است و رابط انسانی بومی (موس و صفحه کلید) بسیار عمومی است، بنابراین ما معتقدیم نتایج ما برای سایر حوزه های مشابه، به عنوان مثال استفاده از کامپیوتر، خوب است."
برای ایجاد انگیزه برای آزمایش بیشتر در فضا، OpenAI با آن همکاری کرده است مسابقه MineRL NeurIPS ، داده های پیمانکار و کد مدل خود را به شرکت کنندگانی که سعی در استفاده از هوش مصنوعی برای حل وظایف پیچیده Minecraft دارند، اهدا می کند. جایزه بزرگ: 100,000 دلار