ওপেনএআই-এর বিশেষজ্ঞরা খেলার জন্য একটি নিউরাল নেটওয়ার্ককে প্রশিক্ষণ দিয়েছেন minecraft মানব খেলোয়াড়দের মতো সমানভাবে উচ্চমানের।
নিউরাল নেটওয়ার্ককে 70,000 ঘন্টার বিবিধ ইন-গেম ফুটেজের উপর প্রশিক্ষিত করা হয়েছিল, একটি ছোট সাথে পরিপূরক ডাটাবেজ ভিডিওগুলির মধ্যে যেখানে ঠিকাদাররা নির্দিষ্ট ইন-গেম কাজগুলি সম্পাদন করেছে, এর সাথে কীবোর্ড এবং মাউস ইনপুটগুলিও রেকর্ড করা হয়েছে।
ফাইন-টিউনিংয়ের পরে, ওপেনএআই আবিষ্কার করেছে যে মডেলটি সাঁতার কাটা থেকে শুরু করে প্রাণীদের শিকার করা এবং তাদের মাংস খাওয়া পর্যন্ত সমস্ত ধরণের জটিল দক্ষতা সম্পাদন করতে সক্ষম। এটি "স্তম্ভের লাফ"কেও আঁকড়ে ধরে, এমন একটি পদক্ষেপ যার মাধ্যমে খেলোয়াড় উচ্চতা অর্জনের জন্য মধ্য-জাম্পের নীচে উপাদানের একটি ব্লক রাখে।
সম্ভবত সবচেয়ে চিত্তাকর্ষক, এআই হীরার সরঞ্জামগুলি তৈরি করতে সক্ষম হয়েছিল (ক্রমানুসারে একটি দীর্ঘ ক্রিয়া সম্পাদন করা প্রয়োজন), যা ওপেনএআই একটি কম্পিউটার এজেন্টের জন্য একটি "অভূতপূর্ব" অর্জন হিসাবে বর্ণনা করেছে।
একটি এআই ব্রেকথ্রু?
মাইনক্রাফ্ট প্রকল্পের তাৎপর্য হল যে এটি ওপেনএআই দ্বারা এআই মডেলের প্রশিক্ষণে নিয়োজিত একটি নতুন কৌশলের কার্যকারিতা প্রদর্শন করে - যাকে বলা হয় ভিডিও প্রিট্রেনিং (ভিপিটি) - যা কোম্পানি বলে যে "সাধারণ কম্পিউটার-ব্যবহারকারী এজেন্টদের" বিকাশকে ত্বরান্বিত করতে পারে।
ঐতিহাসিকভাবে, এআই মডেলের প্রশিক্ষণের জন্য একটি উত্স হিসাবে কাঁচা ভিডিও ব্যবহার করার অসুবিধা ছিল তা হল কি ঘটেছে বোঝার জন্য যথেষ্ট সহজ, কিন্তু অগত্যা নয় কিভাবে . কার্যত, এআই মডেল পছন্দসই ফলাফলগুলিকে শোষণ করবে, কিন্তু তাদের পৌঁছানোর জন্য প্রয়োজনীয় ইনপুট সংমিশ্রণগুলির কোনও উপলব্ধি নেই৷
VPT-এর সাথে, তবে, OpenAI একটি বৃহৎ ভিডিও ডেটাসেট যুক্ত করে পাবলিক ওয়েব সোর্স থেকে প্রাপ্ত একটি বৃহৎ ভিডিও ডেটাসেট যার সাথে ফুটেজের একটি সাবধানে কিউরেটেড পুল লেবেলযুক্ত প্রাসঙ্গিক কীবোর্ড এবং মাউসের নড়াচড়া দিয়ে ভিত্তিমূলক মডেল স্থাপন করে।
বেস মডেলটি সূক্ষ্ম সুর করতে, দলটি তারপরে নির্দিষ্ট কাজ শেখানোর জন্য ডিজাইন করা ছোট ডেটাসেটে প্লাগ ইন করে। এই প্রেক্ষাপটে, ওপেনএআই খেলোয়াড়দের প্রাথমিক খেলার ক্রিয়া সম্পাদনের ফুটেজ ব্যবহার করেছে, যেমন গাছ কাটা এবং নৈপুণ্যের টেবিল তৈরি করা, যা মডেলটি এই কাজগুলি সম্পাদন করতে সক্ষম হওয়ার নির্ভরযোগ্যতার ক্ষেত্রে একটি "ব্যাপক উন্নতি" করেছে বলে বলা হয়।
আরেকটি কৌশলের মধ্যে রয়েছে AI মডেলকে "পুরস্কৃত করা" কাজের ক্রমানুসারে প্রতিটি ধাপ অর্জন করার জন্য, একটি অনুশীলন যা শক্তিবৃদ্ধি শেখার নামে পরিচিত। এই প্রক্রিয়াটিই নিউরাল নেটওয়ার্ককে মানব-স্তরের সাফল্যের হার সহ একটি ডায়মন্ড পিকক্সের জন্য সমস্ত উপাদান সংগ্রহ করার অনুমতি দেয়।
"ভিপিটি এজেন্টদের ইন্টারনেটে প্রচুর সংখ্যক ভিডিও দেখে কাজ করতে শেখার জন্য পথ তৈরি করে। জেনারেটিভ ভিডিও মডেলিং বা বিপরীত পদ্ধতির তুলনায় যা শুধুমাত্র প্রতিনিধিত্বমূলক পূর্বের ফল দেয়, VPT শুধুমাত্র ভাষার চেয়ে আরও বেশি ডোমেনে বৃহৎ আকারের আচরণগত অগ্রাধিকার সরাসরি শেখার উত্তেজনাপূর্ণ সম্ভাবনা প্রদান করে,” OpenAI ব্যাখ্যা করেছে ব্লগ পোস্ট (নতুন ট্যাবে খোলে) .
"যদিও আমরা শুধুমাত্র মাইনক্রাফ্টে পরীক্ষা করি, গেমটি খুব উন্মুক্ত এবং নেটিভ হিউম্যান ইন্টারফেস (মাউস এবং কীবোর্ড) খুব সাধারণ, তাই আমরা বিশ্বাস করি আমাদের ফলাফল অন্যান্য অনুরূপ ডোমেনের জন্য ভাল, যেমন কম্পিউটার ব্যবহারের জন্য।"
মহাকাশে আরও পরীক্ষা-নিরীক্ষাকে উৎসাহিত করতে, OpenAI এর সাথে অংশীদারিত্ব করেছে MineRL NeurIPS প্রতিযোগিতা , জটিল Minecraft কাজগুলি সমাধান করার জন্য AI ব্যবহার করার চেষ্টাকারী প্রতিযোগীদেরকে এর ঠিকাদার ডেটা এবং মডেল কোড দান করে। গ্র্যান্ড প্রাইজ: $100,000।