ה-'Gato' של DeepMind בינוני, אז למה הם בנו אותו?

deepmind-gato-slash-image-closer-in.png

הרשת העצבית "Gato" של DeepMind מצטיינת במשימות רבות, כולל שליטה בזרועות רובוטיות שעורמות בלוקים, משחקי Atari 2600 וכתוביות תמונות.


Deepmind

העולם רגיל לראות כותרות על פריצת הדרך האחרונה של צורות למידה עמוקה של בינה מלאכותית. עם זאת, ניתן לסכם את ההישג האחרון של חטיבת DeepMind של גוגל כ"תוכנית בינה מלאכותית אחת שעושה עבודה כה רבה בהרבה דברים." 

גאטו, כפי שנקראת התוכנית של DeepMind, נחשף השבוע כתוכנית מולטי-מודאלית כביכול, כזו שיכולה לשחק במשחקי וידאו, לשוחח, לכתוב קומפוזיציות, תמונות כתוביות ולשלוט בזרוע רובוטית שעורמת בלוקים. זוהי רשת עצבית אחת שיכולה לעבוד עם מספר סוגים של נתונים כדי לבצע מספר סוגים של משימות. 

"עם סט משקולות יחיד, גאטו יכול לעסוק בדיאלוג, כתוביות תמונות, לערום בלוקים עם זרוע רובוט אמיתית, להתעלות על בני אדם במשחקי אטארי, לנווט בסביבות תלת מימד מדומה, לעקוב אחר הוראות ועוד", כותב המחבר הראשי סקוט ריד. ועמיתים בעיתון שלהם, "סוכן גנרליסטי", פורסם בשרת Arxiv Preprint

מייסד שותף של DeepMind, דמיס חסאביס, הריע את הצוות, צועק בציוץ, "הסוכן הכי כללי שלנו עד עכשיו!! עבודה מדהימה מהצוות!" 

גַם: ניסוי חדש: האם AI באמת מכיר חתולים או כלבים - או משהו?

הקאץ' היחיד הוא שגאטו למעשה לא כל כך מעולה בכמה משימות. 

מצד אחד, התוכנית מסוגלת לעשות טוב יותר מתוכנית למידת מכונה ייעודית בשליטה בזרוע סוייר רובוטית שעורמת בלוקים. מצד שני, הוא מייצר כיתובים לתמונות שבמקרים רבים די גרועים. יכולתו בדיאלוג צ'אט סטנדרטי עם בן שיח אנושי בינונית באופן דומה, ולעיתים מעוררת התבטאויות סותרות ולא הגיוניות. 

והמשחק של משחקי הווידיאו Atari 2600 נופל מתחת לזו של רוב תוכניות ה-ML הייעודיות שנועדו להתחרות ברף סביבת למידה של ארקייד

למה שתיצור תוכנית שעושה דברים די טוב והרבה דברים אחרים לא כל כך טוב? תקדים, וציפייה, לדברי המחברים. 

יש תקדים לסוגים כלליים יותר של תוכניות שהופכות למתקדמים בתחום הבינה המלאכותית, וישנה ציפייה שכמויות הולכות וגדלות של כוח מחשוב יפצו בעתיד על חסרונות. 

כלליות יכולה לנצח ב-AI. כפי שמציינים המחברים, תוך ציטוט של חוקר הבינה המלאכותית ריצ'רד סאטון, "מבחינה היסטורית, מודלים גנריים טובים יותר במינוף חישוב נטו גם לעקוף בסופו של דבר גישות מיוחדות יותר ספציפיות לתחום."

כמו שסאטון כתב בפוסט שלו בבלוג, "הלקח הגדול ביותר שניתן לקרוא מ-70 שנות מחקר בינה מלאכותית הוא ששיטות כלליות הממנפות חישוב הן בסופו של דבר היעילות ביותר, ובפער גדול."

ריד והצוות כותבים בתזה רשמית כי "אנו בודקים כאן את ההשערה שאפשרית להכשיר סוכן שבדרך כלל מסוגל למספר רב של משימות; וכי ניתן להתאים את הסוכן הכללי הזה עם מעט נתונים נוספים כדי להצליח במספר גדול עוד יותר של משימות."

גַם: מאור הבינה המלאכותית של Meta LeCun חוקר את גבול האנרגיה של למידה עמוקה

המודל, במקרה זה, הוא, אכן, כללי מאוד. זוהי גרסה של ה-Transformer, הסוג הדומיננטי של מודל מבוסס-תשומת לב שהפך לבסיס של תוכניות רבות כולל GPT-3. שנאי מדגמן את ההסתברות של אלמנט כלשהו בהתחשב באלמנטים המקיפים אותו כמו מילים במשפט. 

במקרה של Gato, מדעני DeepMind מסוגלים להשתמש באותו חיפוש הסתברות מותנה על מספר סוגי נתונים. 

כפי שריד ועמיתיו מתארים את המשימה של אימון גאטו, 

במהלך שלב ההכשרה של Gato, נתונים ממשימות ואופנים שונים מסודרים לרצף שטוח של אסימונים, באצווה ומעובדים על ידי רשת עצבית שנאי בדומה למודל שפה גדול. האובדן מוסווה כך שגאטו חוזה רק יעדי פעולה וטקסט.

גאטו, במילים אחרות, לא מתייחס לאסימונים בצורה שונה בין אם הם מילים בצ'אט או וקטורים של תנועה בתרגיל ערימת בלוק. הכל אותו דבר. 

deepmind-how-gato-is-trained.png

תרחיש אימון גאטו.


ריד וחב'. 2022

קבורה בתוך ההשערה של ריד והצוות היא תולדה, כלומר שיותר ויותר כוח מחשוב ינצח, בסופו של דבר. נכון לעכשיו, גאטו מוגבל על ידי זמן התגובה של זרוע רובוט סוייר שעושה את ערימת הבלוקים. עם 1.18 מיליארד פרמטרים של רשת, Gato קטן בהרבה מדגמי AI גדולים מאוד כמו GPT-3. ככל שמודלים של למידה עמוקה הולכים וגדלים, ביצוע הסקת מסקנות מוביל להשהייה שעלולה להיכשל בעולם הלא דטרמיניסטי של רובוט בעולם האמיתי. 

אבל, ריד ועמיתיו מצפים שהמגבלה הזו תעבור ככל שחומרת AI תהיה מהירה יותר בעיבוד.

"אנחנו ממקדים את האימונים שלנו בנקודת ההפעלה של קנה מידה מודל המאפשר שליטה בזמן אמת על רובוטים בעולם האמיתי, כרגע בסביבות 1.2B פרמטרים במקרה של Gato", הם כתבו. "ככל שארכיטקטורות החומרה והמודלים משתפרות, נקודת הפעלה זו תגדיל באופן טבעי את גודל המודל האפשרי, ותדחוף מודלים כלליים גבוה יותר במעלה עקומת חוק קנה המידה."

לפיכך, גאטו הוא באמת מודל לאופן שבו סולם המחשוב ימשיך להיות הווקטור העיקרי של פיתוח למידת מכונה, על ידי הפיכת מודלים כלליים לגדולים יותר ויותר. גדול יותר טוב יותר, במילים אחרות. 

deepmind-gets-better-with-scale.png

גאטו משתפר ככל שגודל הרשת העצבית בפרמטרים גדל.


ריד וחב'. 2022

ולכותבים יש כמה ראיות לכך. נראה שגאטו משתפר ככל שהוא גדל. הם משווים ציונים ממוצעים על פני כל משימות הבנצ'מרק עבור שלושה גדלים של מודל לפי פרמטרים, 79 מיליון, 364 מיליון, והמודל הראשי, 1.18 מיליארד. "אנו יכולים לראות שעבור ספירת אסימונים שווה ערך, יש שיפור משמעותי בביצועים עם קנה מידה מוגבר", כותבים המחברים. 

שאלה עתידית מעניינת היא האם תוכנית שהיא כללית מסוכנת יותר מסוגים אחרים של תוכניות בינה מלאכותית. המחברים מבלים הרבה זמן בעיתון בדיון בעובדה שיש סכנות פוטנציאליות שעדיין לא מובנות היטב.  

הרעיון של תוכנית המטפלת במספר משימות מציע להדיוט סוג של הסתגלות אנושית, אבל זו עלולה להיות תפיסה שגויה מסוכנת. "לדוגמה, התגלמות פיזית עלולה להוביל לאנתרופומורפיזציה של המשתמשים את הסוכן, להוביל לאמון שגוי במקרה של מערכת פגומה, או להיות ניתנת לניצול על ידי שחקנים גרועים", כותבים ריד והצוות. 

"בנוסף, בעוד שהעברת ידע בין תחומים היא לעתים קרובות מטרה במחקר ML, היא עלולה ליצור תוצאות בלתי צפויות ולא רצויות אם התנהגויות מסוימות (למשל לחימה במשחקי ארקייד) יועברו להקשר הלא נכון."

לפיכך, הם כותבים, "שיקולי האתיקה והבטיחות של העברת ידע עשויים לדרוש מחקר חדש ומשמעותי ככל שמתקדמים מערכות כלליות."

(כהערה צדדית מעניינת, המאמר של Gato משתמש בתוכנית לתיאור סיכונים שהגה חוקרת הבינה המלאכותית של גוגל לשעבר מרגרט מישל ועמיתיה, הנקראת Model Cards. כרטיסי מודל מספקים סיכום תמציתי של מהי תוכנית בינה מלאכותית, מה היא עושה ומה היא עושה. גורמים משפיעים על אופן הפעולה שלו. מישל כתבה בשנה שעברה שהיא נאלצה לעזוב את גוגל בגלל תמיכתה בעמיתה לשעבר, תמנית גברו, שהדאגות האתיות שלה בנוגע לבינה מלאכותית סותרו את הנהגת הבינה המלאכותית של גוגל.)

גאטו בשום אופן אינו ייחודי בנטיית ההכללה שלו. זה חלק מהמגמה הרחבה של הכללה, ודגמים גדולים יותר שמשתמשים בדליים של כוח סוס. העולם קיבל את הטעימה הראשונה מהנטייה של גוגל בכיוון הזה בקיץ האחרון, עם הרשת העצבית "תפיסה" של גוגל ששילבה משימות טקסט Transformer עם תמונות, קול וקואורדינטות מרחביות LiDAR.

גַם: דוגמנית העל של גוגל: DeepMind Perceiver היא צעד בדרך למכונת AI שיכולה לעבד כל דבר והכל

בין עמיתיו ניתן למצוא את PaLM, מודל השפה של Pathways, הוצג השנה על ידי מדעני גוגל, מודל של 540 מיליארד פרמטרים שעושה שימוש בטכנולוגיה חדשה לתיאום אלפי שבבים, המכונה Pathways, הומצא גם בגוגל. רשת עצבית שפורסמה בינואר על ידי Meta, הנקראת "data2vec", משתמשת ב-Transformers עבור נתוני תמונה, צורות גל של שמע דיבור וייצוגים של שפת טקסט, הכל ביחד. 

מה שחדש בגאטו, כך נראה, הוא הכוונה לקחת בינה מלאכותית המשמשת למשימות שאינן רובוטיות ולדחוף אותה לתחום הרובוטיקה.

היוצרים של גאטו, מציינים את ההישגים של Pathways וגישות כלליות אחרות, רואים את ההישג האולטימטיבי ב-AI שיכול לפעול בעולם האמיתי, עם כל סוג של משימות. 

"עבודה עתידית צריכה לשקול כיצד לאחד את יכולות הטקסט הללו לסוכן כללי לחלוטין שיכול לפעול גם בזמן אמת בעולם האמיתי, בסביבות והתגלמויות מגוונות." 

אתה יכול, אם כן, לשקול את Gato כצעד חשוב בדרך לפתרון הבעיה הקשה ביותר של AI, רובוטיקה. 



מָקוֹר