מומחים ב-OpenAI הכשירו רשת נוירונים לשחק Minecraft ברמה גבוהה לא פחות כמו שחקנים אנושיים.
הרשת העצבית אומנה על 70,000 שעות של קטעים שונים במשחק, בתוספת תמונה קטנה מסד נתונים של סרטונים שבהם קבלנים ביצעו משימות ספציפיות במשחק, עם ה מקלדת ו עכבר קלטות גם מוקלטות.
לאחר כוונון עדין, OpenAI מצא שהמודל מסוגל לבצע כל מיני מיומנויות מורכבות, משחייה ועד לציד חיות וצריכת הבשר שלהן. הוא גם תפס את "קפיצת העמוד", מהלך לפיו השחקן מניח גוש חומר מתחת לקפיצה באמצע כדי להגיע לגובה.
אולי המרשים ביותר, הבינה המלאכותית הצליחה ליצור כלי יהלום (שדורש שורה ארוכה של פעולות לביצוע ברצף), ש-OpenAI תיארה כהישג "חסר תקדים" עבור סוכן מחשבים.
פריצת דרך בינה מלאכותית?
המשמעות של פרויקט Minecraft היא שהוא מדגים את היעילות של טכניקה חדשה שנפרסה על ידי OpenAI בהדרכה של מודלים של AI - הנקרא Video PreTraining (VPT) - שלדברי החברה יכולה להאיץ את הפיתוח של "סוכנים כלליים המשתמשים במחשב".
מבחינה היסטורית, הקושי בשימוש בוידאו גולמי כמקור לאימון מודלים של AI היה זה מה קרה הוא פשוט מספיק להבנה, אבל לא בהכרח אֵיך . למעשה, מודל הבינה המלאכותית יספוג את התוצאות הרצויות, אך אין לו מושג בשילובי הקלט הנדרשים כדי להגיע אליהם.
עם זאת, עם VPT, OpenAI משלבת מערך וידאו גדול שנלקח ממקורות אינטרנט ציבוריים עם מאגר קטעים שנקבע בקפידה המסומנת בתנועות המקלדת והעכבר הרלוונטיות כדי לבסס את המודל הבסיסי.
כדי לכוונן את המודל הבסיסי, לאחר מכן הצוות מחבר מערכי נתונים קטנים יותר שנועדו ללמד משימות ספציפיות. בהקשר זה, OpenAI השתמשה בצילומים של שחקנים המבצעים פעולות בתחילת המשחק, כגון כריתת עצים ובניית שולחנות יצירה, מה שנאמר כי הניבו "שיפור מסיבי" באמינות שבה המודל הצליח לבצע משימות אלו.
טכניקה נוספת כוללת "תגמול" של מודל הבינה המלאכותית על השגת כל שלב ברצף של משימות, תרגול המכונה למידת חיזוק. תהליך זה הוא שאפשר לרשת העצבית לאסוף את כל המרכיבים עבור מכוש יהלומים עם אחוזי הצלחה ברמת האדם.
"VPT סולל את הדרך לאפשר לסוכנים ללמוד לפעול על ידי צפייה במספר העצום של סרטונים באינטרנט. בהשוואה למידול וידאו גנרטיבי או שיטות ניגודיות שיניבו רק פרידי ייצוג, VPT מציעה את האפשרות המרגשת ללמוד ישירות קודקודים התנהגותיים בקנה מידה גדול ביותר תחומים מאשר רק שפה", הסביר OpenAI ב- בלוג (נפתח בלשונית חדשה) .
"למרות שאנו מתנסים רק במיינקראפט, המשחק הוא מאוד פתוח והממשק האנושי המקורי (עכבר ומקלדת) הוא גנרי מאוד, אז אנו מאמינים שהתוצאות שלנו מבשרות טובות עבור תחומים דומים אחרים, למשל שימוש במחשב."
כדי לתמרץ ניסויים נוספים במרחב, OpenAI שיתפה פעולה עם תחרות MineRL NeurIPS , תורם את נתוני הקבלן וקוד המודל שלו למתמודדים המנסים להשתמש בבינה מלאכותית כדי לפתור משימות מורכבות של Minecraft. הפרס הגדול: $100,000.