OpenAI הוציא 160,000 דולר על Upwork עבור שחקני Minecraft כדי לאמן רשת עצבית

יצירה-יהלום-מכש

מתוך הסרטון של VPT רודף יצירת מכוש יהלום במיינקראפט. תוכנת המחשב השיגה את ההישג תוך עשר דקות, חצי מהזמן שיידרש לשחקן אנושי מיומן לעשות זאת.

כמה חשוב יכול להיות לשלוט ב"כלי היהלום" במיינקראפט?

חשוב מספיק כדי להוציא 160,000 דולר, לפי OpenAI, סטארט-אפ הבינה המלאכותית.

זה סכום הכסף שצוות ב-OpenAI הוציא כדי להעסיק שחקנים של Minecraft בפלטפורמת רשימות המשרות המקוונת Upwork כדי לשלוח סרטונים של עצמם משחקים במשחק. 

אמזון פריים דיי 2022: מבצעים מוקדמים

In נחשף נייר השבוע, "Video PreTraining (VPT): ללמוד לפעול על ידי צפייה בסרטונים מקוונים ללא תווית", חוקרי OpenAI Bowen Baker וצוות פורצים דרך בשימוש במערכי נתונים גדולים כדי לאמן רשת עצבית לחקות הקשות אנושיות כדי לפתור משימות שונות בסרטון מִשְׂחָק. (פוסט בבלוג גם פורסם מאת OpenAI.) 

שפע של רשתות עצביות כבשו סוגים שונים של משחקים באמצעות מה שנקרא למידת חיזוק בשנים האחרונות, כולל AlphaZero של DeepMind DeepMind, שלקחה על עצמה שחמט, גו ושוגי, והאחריות מוזרו תוכנית, שהוסיפה את היכולת לטפל במשחקי Atari. 

בייקר והצוות רצו לפתח רשת עצבית עבור סביבת המשחק המורכבת יותר של "עולם פתוח" של Minecraft, שבה מערך הקשות מאפשר לשחקנים דרגות חופש גדולות בהרבה מאשר במשחקי שחמט או אטארי. 

גַם: AI תוך שישים שניות 

ספרות המחקר, כותבים המחברים, כוללת "כמות עצומה" של עבודה על Minecraft. אבל עבודת ה-VPT היא ייחודית, הם כותבים, בהיקפה ובקנה מידה: "למיטב ידיעתנו, אין עבודה שפורסמה הפועלת במרחב הפעולה האנושי המלא, ללא שינוי, הכולל ניהול מלאי גרירה ושחרור. יצירת פריט."

עבודת בניית הרשת העצבית, הנקראת VPT, התקיימה בשני שלבים. בשלב הראשון נדרשו שחקני משחק אנושיים או קבלנים, שהרכיבו 4,500 שעות משחק. מאוחר יותר החוקרים הבינו שהם באמת צריכים רק כ-2,000 שעות.

בייקר והצוות מתארים את התהליך:

פתחנו את הבקשות למשך יום, ולאחר מכן בחרנו באקראי 10 מועמדים לסבב הקבלנים הראשון. בהמשך הפרויקט, ככל שנזקקנו לנתונים נוספים וככל שחלק מהקבלנים ביקשו לסיים את ההתקשרויות שלהם, הוספנו עוד מועמדים מהמאגר המקורי וכן הפניות מהקבלנים העובדים כיום. הקבלנים קיבלו שכר של 20 דולר לשעה (בניכוי עמלות פלטפורמת Upwork והמיסים החלים). כל התוצאות המוצגות במאמר זה מבוססות על כ-4,500 שעות של נתונים (כולל נתונים שנרשמו כדי לאסוף סטטיסטיקות של משחק אנושי שלא שימש לאימונים), שעלו לנו בסביבות 90,000 דולר. במהלך הפרויקט, אספנו כמה נתונים שלא השתמשנו בהם בגלל באגים במקליט ולכמה רעיונות בסופו של דבר לא חיפשנו. בסך הכל, הוצאנו כ-160 אלף דולר עבור פיצוי קבלן במהלך הפרויקט. עם זאת, כפי שאנו דנים בסעיף. 4.6, סביר להניח שנוכל להשיג את רוב התוצאות שלנו עם IDM שאומן תוך שימוש בנתונים בשווי 2000$ בלבד, כלומר מודל ה-VPT הבסיסי, כוונון עדין של BC למערך הנתונים של earlygame_keyword ותוצאות כוונון עדין RL. איסוף מערך הנתונים של contractor_house עלה כ-$8000. מכיוון שהשתמשנו ב-IDM שהוכשר על כ-2000 שעות של נתוני קבלן, העלות האמיתית של נתוני הקבלן עבור התוצאות הללו הייתה בסביבות 40,000 דולר.

במשך 4,500 השעות הללו, הם הצמידו תוויות לפריימים של סרטון משחק עבור פעולות כגון "מלאי", כדי לבדוק את אוסף החפצים של שחקן, באמצעות מקש "E"; ו"להתגנב", כדי לנוע "בזהירות" בכיוון הנוכחי, באמצעות ה- SHIFT מַפְתֵחַ. פעולות אלו מתועדות כמחרוזות טקסט של JSON בכל רגע של משחק ומאוחסנות עם מסגרות הווידאו. 

הפריימים של המשחק עם הפעולות המסומנות שלהם שימשו לאימון רשת עצבית הנקראת מודל דינמיקה הפוכה, או IDM, אשר לומדת אילו פעולות מתאימות לאילו פריימים. ה-IDM הוא שילוב של מספר סוגים של רשתות עצביות, כולל רשת עצבית קונבולוציונית תלת-ממדית ו-ResNet לניתוח מסגרות הווידאו, וכמה רשתות טרנספורמטור של תשומת לב לניבוי פריים וידאו הבא. 

גַם: רגיש? Google LaMDA מרגיש כמו צ'אט בוט טיפוסי

לאחר מכן נעשה שימוש ביכולת המאומנת של IDM בקבוצה גדולה בהרבה של קטעי וידאו, בסך הכל 70,000 שעות של קטעי Minecraft ללא תווית שנאספו מהרשת. ה-IDM מחיל "תוויות פסאודו" על אותו אוסף גדול בהרבה. במילים אחרות, ה-IDM, ועמלות הקבלן, הם דרך לאתחל מערך אימון וידאו ענק. 

openai-vpt-training-2022

משטר האימונים עבור VPT.

OpenAI

יקר ככל שהתשלום הקבלן עשוי להיראות, הגישה מייצגת חיסכון גדול בעלויות, כותבים המחברים. אם הם היו צריכים לאסוף נתוני קבלן השווים ל-70,000 שעות של סרטוני אינטרנט, זה היה יקר בהרבה.

"אם נוכל לאסוף בזול מערך נתונים של קבלן בסדר גודל דומה לזה של web_clean, אז זה לא היה חשוב; עם זאת, איסוף היקף הנתונים הזה היה עולה מיליוני דולרים."

תוך שימוש ב-70,000 השעות, המחברים מאמנים רשת עצבית שנייה, המורכבת גם היא משכבות שנאי, כדי לחקות את פעולות המשתמש בסרטונים, נוהג נפוץ המכונה "שיבוט התנהגותי".

מטרת העבודה היא למצוא דרך להכשיר "סוכן" מחשב לשימוש כללי שיכול להשתמש בעושר הנתונים באינטרנט שאין לו תוויות כדי לפתור משימות הכרוכות בסיבתיות, משמעות ורצפי פעולות שיש להם מערכת יחסים הכרחית מאחד למשנהו. 

"התוצאות המוצגות במאמר זה עוזרות לסלול את הדרך לניצול השפע של נתונים לא מסומנים ברשת עבור תחומי החלטות עוקבים", הם כותבים. 

ניתן להעלות על הדעת את העבודה עבור משימות מחשב רבות הדורשות רצפים של לחיצות עכבר ובקרות מפעיל אנושיות אחרות, הם מציעים. 

"למרות שאנו מתנסים רק במיינקראפט, אנו מאמינים ש-VPT מספק מתכון כללי לאימון קודמים התנהגותיים במרחבי פעולה קשים, אך גנריים, בכל תחום שיש בו כמות גדולה של נתונים זמינים ללא תווית חופשית, כגון שימוש במחשב."

Open-AI ידוע בעיקר בזכות תוכנית השפה הגדולה בשם GPT-3, המשתמשת גם בגישה "מאומנת מראש" המבוססת על טונות של נתוני אינטרנט שאינם מסומנים. במובן מסוים, משחק Minecraft מרחיב את הגישה הזו לחיקוי התנהגות בתחום של משימות מחשב עוקבות שנלכדו באמצעות וידאו. 

כמו כן: מהו GPT-3? כל מה שהעסק שלך צריך לדעת על תוכנית שפת הבינה המלאכותית פורצת הדרך של OpenAI

ההישג האולטימטיבי הוא במקרים מסוימים לחרוג מהזמן הדרוש לאדם כדי להשיג את אחת המשימות הקשות ביותר, השגת מכוש יהלום.

במיינקראפט, כלים מבוססי יהלומים פשוט מחזיקים מעמד זמן רב יותר ויכולים לגרום יותר נזק. מכוש יהלומים הם היחידים שחשובים במיוחד לרוב הגיימרים. אתה צריך מכוש יהלומים כדי לכרות אובסידיאן וחומר בדיוני שנקרא netherite, שניהם חשובים לפעילויות קצה המשחק כמו שולחנות קסומים והכנת ציוד נט'ריט.

לאחר אימון ה-VPT ללמוד כל מיני משימות מיינקראפט, המחברים השתמשו בגישת "כוונן עדין" שפיתחה רשת נוירונים למידת חיזוק כדי ליצור מכוש יהלום בזמן מהיר מהרגיל. 

"כדי להדגים את היעילות של כוונון עדין של RL, בחרנו במטרה המאתגרת של השגת מכוש יהלומים תוך 10 דקות החל מעולם הישרדות חדש של Minecraft", הם כותבים. 

זה מאתגר עבור בני אדם, שבדרך כלל לוקח זמן כפול לעשות את זה, אם הם יכולים לעשות את זה בכלל:

פעולה זו כרוכה ברכישת רצף של פריטים קשים להשגה הדורשים מיומנויות מורכבות כמו כרייה, ניהול מלאי, יצירה עם ובלי שולחן יצירה, שימוש בכלים, הפעלת תנור וכרייה בעומקים הנמוכים ביותר, שבהם סכנות רבות כמו אויבים. ולבה קיימים (איור 6). בנוסף לקושי, ההתקדמות יכולה ללכת לאיבוד בקלות על ידי הפלת פריטים, השמדת פריטים או מוות. השגת מכוש יהלום, לעתים קרובות יותר מאשר לא, לוקח לאדם מיומן יותר מ-20 דקות (24,000 פעולות).

בהרכבת נתוני הקבלן וגם 70,000 השעות ללא תווית של וידאו אינטרנטי, המחברים היו מודעים לסיכוי של תוכן פוגעני. "הקבלנים יכולים באופן תיאורטי להשתמש ברכוש העולם הפתוח של Minecraft כדי ליצור מידע אישי מזהה ו/או תוכן פוגעני (למשל באמצעות בלוקים של Minecraft כדי לכתוב את שמם או הודעות פוגעניות, ואז למצוא מקום שממנו ההודעה תהיה גלויה)", הם לכתוב, למרות שהם לא ראו את זה בסרטונים מקבלנים שבהם צפו המחברים. 

"כמובן, אנחנו מאמנים את המודלים של BC [שיבוט התנהגותי] שלנו על סרטונים מהאינטרנט של אנשים שמשחקים במיינקראפט, ואם התנהגות כזו נמצאת בסרטונים האלה המודל שלנו יכול גם ללמוד את זה, למרות שאנו מצפים שהתנהגות כזו היא נדירה מספיק כדי שהמודל שלנו לא צפוי לשחזר את זה", הם כותבים. 

לאן הולך סוכן כללי כזה? הרעיון הוא שכיבוש גרזני יהלומים, VPT, או צאצאיו, יכול לעשות כל מיני דברים שאדם עשוי לעשות עם עכבר ומקלדת, כולל בוז כרטיסים, גלישה ברשתות חברתיות או ניווט במפות. 

מָקוֹר