ნერვული ქსელი ივარჯიშებდა 70,000 XNUMX საათიანი თამაშის სხვადასხვა კადრებზე, რომელსაც დაემატა პატარა მონაცემთა ბაზა ვიდეოები, რომლებშიც კონტრაქტორები ასრულებდნენ კონკრეტულ დავალებებს თამაშში კლავიატურა მდე მაუსი ასევე ჩაწერილია შეყვანა.
დაზუსტების შემდეგ, OpenAI-მ აღმოაჩინა, რომ მოდელს შეუძლია შეასრულოს ყველანაირი რთული უნარები, ცურვით დაწყებული ცხოველებზე ნადირობით და მათი ხორცის მოხმარებამდე. მან ასევე გაითავისა "სვეტის ნახტომი", სვლა, რომლის დროსაც მოთამაშე ათავსებს მასალის ბლოკს საკუთარი თავის ქვემოთ ნახტომის შუა რიცხვებში, რათა ამაღლება მოიპოვოს.
ალბათ ყველაზე შთამბეჭდავია, რომ AI-მ შეძლო ალმასის ხელსაწყოების დამზადება (მოითხოვდა მოქმედებების გრძელი სტრიქონის თანმიმდევრობით შესრულებას), რაც OpenAI-მ აღწერა, როგორც "უპრეცედენტო" მიღწევა კომპიუტერული აგენტისთვის.
ხელოვნური ინტელექტის გარღვევა?
Minecraft-ის პროექტის მნიშვნელობა იმაში მდგომარეობს, რომ იგი აჩვენებს OpenAI-ს მიერ AI მოდელების ტრენინგში გამოყენებული ახალი ტექნიკის ეფექტურობას - სახელწოდებით Video PreTraining (VPT) - რომელიც კომპანიის თქმით, შეუძლია დააჩქაროს "ზოგადი კომპიუტერის მოხმარების აგენტების" განვითარება.
ისტორიულად, ნედლი ვიდეოს, როგორც ხელოვნური ინტელექტის მოდელების მომზადების წყაროდ გამოყენების სირთულე იყო ის რა მოხდა საკმაოდ მარტივი გასაგებად, მაგრამ არა აუცილებლად როგორ . ფაქტობრივად, ხელოვნური ინტელექტის მოდელი შთანთქავს სასურველ შედეგებს, მაგრამ ვერ აცნობიერებს მათ მისაღწევად საჭირო შეყვანის კომბინაციებს.
თუმცა, VPT-ით, OpenAI აწყვილებს საჯარო ვებ წყაროებიდან ამოღებულ ვიდეოთა დიდ მონაცემთა ბაზას კადრების ყურადღებით კურირებულ აუზთან, რომელსაც აქვს შესაბამისი კლავიატურა და მაუსის მოძრაობები, რათა ჩამოაყალიბოს ძირითადი მოდელი.
საბაზისო მოდელის დახვეწის მიზნით, გუნდი შემდეგ აერთიანებს უფრო მცირე მონაცემთა ნაკრებებს, რომლებიც შექმნილია კონკრეტული ამოცანების შესასწავლად. ამ კონტექსტში, OpenAI-მ გამოიყენა მოთამაშეების კადრები, რომლებიც ასრულებდნენ თამაშის ადრეულ მოქმედებებს, როგორიცაა ხეების მოჭრა და ხელნაკეთი მაგიდების აგება, რამაც, როგორც ამბობენ, გამოიწვია "მასიური გაუმჯობესება" სანდოობაში, რომლითაც მოდელმა შეძლო ამ ამოცანების შესრულება.
კიდევ ერთი ტექნიკა მოიცავს AI მოდელის „დაჯილდოებას“ ამოცანების თანმიმდევრობით თითოეული ნაბიჯის მისაღწევად, პრაქტიკა, რომელიც ცნობილია როგორც განმტკიცების სწავლა. ეს პროცესი არის ის, რაც ნერვულ ქსელს საშუალებას აძლევდა შეაგროვოს ყველა ინგრედიენტი ბრილიანტის მწნილისთვის, ადამიანის დონის წარმატების მაჩვენებლით.
„VPT გზას უხსნის აგენტებს, რომ ისწავლონ მოქმედება ინტერნეტში ვიდეოების დიდი რაოდენობის ყურებით. გენერაციულ ვიდეო მოდელირებასთან ან კონტრასტული მეთოდებთან შედარებით, რომლებიც მხოლოდ წარმომადგენლობით პრიორიტეტებს გამოიმუშავებენ, VPT გთავაზობთ ქცევითი პრიორიტეტების პირდაპირ სწავლის საინტერესო შესაძლებლობას უფრო მეტ დომენში, ვიდრე უბრალოდ ენაზე,” განმარტა OpenAI-მა. დღიურში შეტყობინება (იხსნება ახალ ჩანართში) .
„მიუხედავად იმისა, რომ ჩვენ მხოლოდ ექსპერიმენტებს ვაკეთებთ Minecraft-ში, თამაში ძალიან ღიაა და ადამიანის მშობლიური ინტერფეისი (მაუსი და კლავიატურა) ძალიან ზოგადია, ამიტომ გვჯერა, რომ ჩვენი შედეგები კარგია სხვა მსგავსი დომენებისთვის, მაგალითად, კომპიუტერის გამოყენებაზე“.
სივრცეში შემდგომი ექსპერიმენტების წახალისების მიზნით, OpenAI-მა პარტნიორობა გაუწია MineRL NeurIPS კონკურსი , კონტრაქტორის მონაცემებისა და მოდელის კოდის გადაცემა კონკურსანტებისთვის, რომლებიც ცდილობენ გამოიყენონ AI რთული Minecraft ამოცანების გადასაჭრელად. მთავარი პრიზი: $100,000.