Các chuyên gia tại OpenAI đã đào tạo một mạng lưới thần kinh để chơi Minecraft đạt tiêu chuẩn cao ngang bằng với người chơi là con người.
Mạng lưới thần kinh đã được đào tạo trên 70,000 giờ cảnh quay linh tinh trong trò chơi, được bổ sung một lượng nhỏ cơ sở dữ liệu video trong đó các nhà thầu thực hiện các nhiệm vụ cụ thể trong trò chơi, với bàn phím và chuột đầu vào cũng được ghi lại.
Sau khi tinh chỉnh, OpenAI nhận thấy mô hình này có thể thực hiện tất cả các loại kỹ năng phức tạp, từ bơi lội đến săn bắt động vật và ăn thịt chúng. Nó cũng nắm bắt được "nhảy trụ", một động tác trong đó người chơi đặt một khối vật chất bên dưới mình khi đang nhảy để đạt được độ cao.
Có lẽ ấn tượng nhất là AI có thể tạo ra các công cụ kim cương (đòi hỏi một chuỗi hành động dài được thực hiện theo trình tự), điều mà OpenAI mô tả là một thành tựu “chưa từng có” đối với một tác nhân máy tính.
Một bước đột phá về AI?
Tầm quan trọng của dự án Minecraft là nó thể hiện tính hiệu quả của một kỹ thuật mới được OpenAI triển khai trong việc đào tạo các mô hình AI – được gọi là Video PreTraining (VPT) – mà công ty cho biết có thể đẩy nhanh sự phát triển của “các tác nhân sử dụng máy tính nói chung”.
Trong lịch sử, khó khăn khi sử dụng video thô làm nguồn đào tạo các mô hình AI là gì đã xảy ra là đủ đơn giản để hiểu, nhưng không nhất thiết làm thế nào . Trên thực tế, mô hình AI sẽ tiếp thu các kết quả mong muốn nhưng không nắm bắt được các kết hợp đầu vào cần thiết để đạt được chúng.
Tuy nhiên, với VPT, OpenAI kết hợp một tập dữ liệu video lớn được lấy từ các nguồn web công cộng với một nhóm cảnh quay được quản lý cẩn thận được gắn nhãn với các chuyển động chuột và bàn phím có liên quan để thiết lập mô hình cơ bản.
Để tinh chỉnh mô hình cơ sở, nhóm nghiên cứu sẽ đưa vào các tập dữ liệu nhỏ hơn được thiết kế để dạy các nhiệm vụ cụ thể. Trong bối cảnh này, OpenAI đã sử dụng cảnh quay người chơi thực hiện các hành động đầu trò chơi, chẳng hạn như chặt cây và xây dựng bàn chế tạo, được cho là đã mang lại “sự cải thiện lớn” về độ tin cậy mà mô hình có thể thực hiện các nhiệm vụ này.
Một kỹ thuật khác liên quan đến việc “thưởng” mô hình AI khi đạt được từng bước trong chuỗi nhiệm vụ, một phương pháp thực hành được gọi là học tăng cường. Quá trình này cho phép mạng lưới thần kinh thu thập tất cả các thành phần tạo nên một chiếc cuốc kim cương với tỷ lệ thành công ở cấp độ con người.
“VPT mở đường cho phép các đại lý học cách hành động bằng cách xem số lượng lớn video trên internet. So với mô hình hóa video tổng quát hoặc các phương pháp tương phản chỉ mang lại các ưu tiên mang tính đại diện, VPT mang đến khả năng thú vị là học trực tiếp các ưu tiên hành vi quy mô lớn trong nhiều lĩnh vực hơn là chỉ ngôn ngữ,” OpenAI giải thích trong một báo cáo. blog đăng bài (mở trong tab mới) .
“Mặc dù chúng tôi chỉ thử nghiệm trong Minecraft, nhưng trò chơi này rất mở và giao diện gốc của con người (chuột và bàn phím) rất chung chung, vì vậy chúng tôi tin rằng kết quả của chúng tôi là tín hiệu tốt cho các lĩnh vực tương tự khác, ví dụ như việc sử dụng máy tính.”
Để khuyến khích thử nghiệm sâu hơn trong không gian, OpenAI đã hợp tác với Cuộc thi MineRL NeurIPS , tặng dữ liệu nhà thầu và mã mô hình cho các thí sinh đang cố gắng sử dụng AI để giải quyết các nhiệm vụ Minecraft phức tạp. Giải thưởng lớn: 100,000 USD.