גורו ה-AI של Meta LeCun: רוב גישות ה-AI של היום לעולם לא יובילו לאינטליגנציה אמיתית

יאן-לקון-ספטמבר-2022-1

"אני חושב שמערכות בינה מלאכותיות צריכות להיות מסוגלות לנמק", אומר יאן לקון, מדען הבינה המלאכותית הראשי של Meta. גישות ה-AI הפופולריות של היום כמו רובוטריקים, שרבות מהן מבוססות על עבודתו החלוצית בתחום, לא יספיקו. "אתה צריך לקחת צעד אחורה ולהגיד, בסדר, בנינו את הסולם הזה, אבל אנחנו רוצים ללכת לירח, ואין סיכוי שהסולם הזה יביא אותנו לשם", אומר לקון.

יאן לקון, מדען AI ראשי של Meta Properties, הבעלים של פייסבוק, אינסטגרם, וואטסאפ, צפוי לתקתק הרבה אנשים בתחומו. 

עם הפרסום ביוני של מאמר חשיבה בשרת Open Review, LeCun הציע סקירה רחבה של גישה שלדעתו טומנת בחובה הבטחה להשגת אינטליגנציה ברמת האדם במכונות. 

אם לא מנוסחת במאמר משתמעת הטענה שרוב הפרויקטים הגדולים של ימינו בתחום הבינה המלאכותית לעולם לא יצליחו להגיע למטרה זו ברמת האדם.

בדיון החודש עם ZDNet באמצעות זום, לקון הבהיר כי הוא רואה בספקנות רבה רבים מהדרכים המוצלחות ביותר של מחקר בלמידה עמוקה כרגע.

"אני חושב שהם נחוצים אבל לא מספיקים", אמר זוכה פרס טיורינג ZDNet מהעיסוקים של בני גילו. 

אלה כוללים דגמי שפה גדולים כגון GPT-3 מבוסס שנאי ודומיהם. כפי שלקון מאפיין את זה, חסידי הרובוטריק מאמינים, "אנחנו מסמנים הכל ומתאמנים ענקייםמודלים לביצוע תחזיות בדידות, ואיכשהו תצא מזה AI."

"הם לא טועים", הוא אומר, "במובן שזה עשוי להיות מרכיב של מערכת אינטליגנטית עתידית, אבל אני חושב שחסרים בה חלקים חיוניים".

גַם: מאור הבינה המלאכותית של Meta LeCun חוקר את גבול האנרגיה של למידה עמוקה

זוהי ביקורת מבהילה על מה שנראה כפועל, שהגיעה מהמלומד ששכלל את השימוש ברשתות עצביות קונבולוציוניות, טכניקה מעשית שהייתה פרודוקטיבית להפליא בתוכניות למידה עמוקה. 

LeCun רואה פגמים ומגבלות בהרבה תחומים אחרים המוצלחים ביותר של הדיסציפלינה. 

גם למידת חיזוק לעולם לא תספיק, הוא טוען. חוקרים כמו דייוויד סילבר מ-DeepMind, שפיתח את תוכנית AlphaZero ששלטה בשחמט, שוגי וגו, מתמקדים בתוכניות "מאוד מבוססות פעולה", מציין לקון, אבל "רוב הלמידה שאנחנו עושים, אנחנו לא לומדים. לעשות את זה בעצם נקיטת פעולות, אנחנו עושים את זה על ידי התבוננות." 

לקון, 62, מנקודת מבט של עשרות שנים של הישגים, בכל זאת מביע דחיפות להתעמת עם מה שלדעתו הן הסמטאות העיוורות שאליהן עשויים רבים ממהרים, ולנסות לשדל את התחום שלו בכיוון שהוא חושב שהדברים צריכים ללכת. 

"אנחנו רואים הרבה טענות לגבי מה עלינו לעשות כדי לדחוף קדימה לעבר AI ברמה האנושית", הוא אומר. "ויש רעיונות שלדעתי מכוונים לא נכון."

"אנחנו לא הגענו לנקודה שבה למכונות החכמות שלנו יש הרבה שכל ישר כמו לחתול", מציין לקון. "אז למה שלא נתחיל שם?" 

הוא נטש את אמונתו הקודמת בשימוש ברשתות יצירתיות בדברים כמו חיזוי הפריים הבא בסרטון. "זה היה כישלון מוחלט", הוא אומר. 

לקון דוחה את אלה שהוא מכנה "הסתברות דתית", ש"חושבים שתורת ההסתברות היא המסגרת היחידה שבה אתה יכול להשתמש כדי להסביר למידת מכונה". 

הגישה הסטטיסטית גרידא היא בלתי ניתנת לפתרון, הוא אומר. "זה יותר מדי לבקש שמודל עולמי יהיה הסתברותי לחלוטין; אנחנו לא יודעים איך לעשות את זה."

לא רק האקדמיה, אלא הבינה המלאכותית התעשייתית זקוקה לחשיבה מעמיקה מחדש, טוען לקון. קהל המכוניות הנוהגות בעצמן, סטארט-אפים כמו Wayve, היו "קצת אופטימיים מדי", הוא אומר, בכך שהם חושבים שהם יכולים "לזרוק נתונים על" רשתות עצביות גדולות "ואתה יכול ללמוד כמעט הכל".

"אתה יודע, אני חושב שזה בהחלט אפשרי שיהיו לנו מכוניות אוטונומיות ברמה חמש ללא שכל ישר", הוא אומר, בהתייחס ל"ADAS", מערכת סיוע לנהג מתקדמת מונחים לנהיגה עצמית, "אבל אתה תצטרך להנדס את זה לעזאזל".

טכנולוגיה מהונדסת יתר של נהיגה עצמית תהיה משהו חריק ושביר כמו כל תוכניות הראייה הממוחשבת שהתיישנו על ידי למידה עמוקה, הוא מאמין.

"בסופו של דבר, יהיה פתרון מספק יותר ואולי טוב יותר שיכלול מערכות שעושות עבודה טובה יותר בהבנת הדרך שבה העולם עובד."

לאורך הדרך, לקון מציע כמה דעות נושכות של מבקריו הגדולים ביותר, כמו הפרופסור של NYU גארי מרקוס - "הוא מעולם לא תרם שום דבר לבינה מלאכותית" - ויורגן שמידהובר, מנהל שותף של מכון דאל מולה לחקר בינה מלאכותית - "זהו קל מאוד לבצע נטיעת דגל."

מעבר לביקורות, הנקודה החשובה יותר שהעלה LeCun היא שבעיות בסיסיות מסוימות מתמודדות עם כל הבינה המלאכותית, בפרט כיצד למדוד מידע.

"אתה צריך לקחת צעד אחורה ולהגיד, אוקיי, בנינו את הסולם הזה, אבל אנחנו רוצים ללכת לירח, ואין סיכוי שהסולם הזה יביא אותנו לשם", אומר לקון על רצונו לעורר חשיבה מחודשת. של מושגי יסוד. "בעיקרון, מה שאני כותב כאן הוא שאנחנו צריכים לבנות רקטות, אני לא יכול לתת לך את הפרטים של איך אנחנו בונים רקטות, אבל הנה העקרונות הבסיסיים."

ניתן להבין טוב יותר את העיתון, ואת מחשבותיו של לקון בראיון, על ידי קריאת הראיון של לקון מוקדם יותר השנה עם ZDNet שבו הוא טוען ללמידה בפיקוח עצמי מבוסס אנרגיה כדרך קדימה ללמידה עמוקה. ההשתקפויות הללו נותנות תחושה של גישת הליבה למה שהוא מקווה לבנות כחלופה לדברים שלטענתו לא יגיעו לקו הסיום. 

להלן תמליל עריכה קלה של הראיון.

ZDNet: הנושא של הצ'אט שלנו הוא מאמר זה, "נתיב לעבר מודיעין מכונה אוטונומית", של איזו גרסה 0.9.2 היא הגרסה הקיימת, כן?

יאן לקון: כן, אני מחשיב את זה, בערך, כמסמך עבודה. אז, פרסמתי אותו ב-Open Review, מחכה שאנשים יעירו הערות והצעות, אולי הפניות נוספות, ואז אפיק גרסה מתוקנת. 

ZDNet: אני רואה שיורגן שמידהובר כבר הוסיף כמה הערות ל-Open Review.

YL: ובכן, כן, הוא תמיד עושה זאת. אני מצטט את אחד המסמכים שלו שם בעיתון שלי. אני חושב שהטיעונים שהוא העלה ברשתות החברתיות שהוא בעצם המציא את כל זה ב-1991, כפי שעשה במקרים אחרים, פשוט לא המקרה. זאת אומרת, זה מאוד קל לעשותנטיעת דגל, וכדי, בערך, לכתוב רעיון בלי שום ניסויים, בלי שום תיאוריה, רק הציעו שתוכלו לעשות זאת בצורה זו. אבל, אתה יודע, יש הבדל גדול בין רק לקבל את הרעיון, ואז לגרום לו לעבוד על בעיית צעצוע, ואז לגרום לזה לעבוד על בעיה אמיתית, ואז לעשות תיאוריה שמראה למה זה עובד, ואז פורסים אותו. יש שרשרת שלמה, והרעיון שלו לגבי הקרדיט המדעי הוא שזה האדם הראשון שפשוט, בערך, אתה יודע, חשב על זה, שצריך לקבל את כל הקרדיט. וזה מגוחך. 

ZDNet: אל תאמינו לכל מה שאתם שומעים ברשתות החברתיות. 

YL: כלומר, למאמר הראשי שהוא אומר שעלי לצטט אין אף אחד מהרעיונות העיקריים עליהם אני מדבר בעיתון. הוא עשה זאת גם עם GANs ודברים אחרים, מה שלא התברר כנכון. קל לעשות נטיעת דגל, הרבה יותר קשה לתרום. ודרך אגב, במאמר הספציפי הזה, אמרתי במפורש שזה לא מאמר מדעי במובן הרגיל של המונח. זה יותר נייר עמדה לגבי לאן הדבר הזה צריך ללכת. ויש שם כמה רעיונות שאולי יהיו חדשים, אבל רובם לא. אני לא תובע שום עדיפות על רוב מה שכתבתי במאמר הזה, בעצם.

יאן-לקון-ספטמבר-2022-2

גם למידת חיזוק לעולם לא תספיק, טוען LeCun. חוקרים כמו דייוויד סילבר מ-DeepMind, שפיתח את תוכנית AlphaZero ששלטה בשחמט, שוגי וגו, הם "מאוד מבוססי פעולה", מציין לקון, אבל "רוב הלמידה שאנחנו עושים, אנחנו לא עושים את זה בעצם לקיחת פעולות, אנו עושים זאת על ידי התבוננות." 

ZDNet: וזה אולי מקום טוב להתחיל בו, כי אני סקרן למה הלכת בדרך הזו עכשיו? מה גרם לך לחשוב על זה? למה רצית לכתוב את זה?

YL: ובכן, אז, חשבתי על זה הרבה מאוד זמן, על דרך לקראת אינטליגנציה או למידה ויכולות ברמת האדם או ברמת החי. ובשיחות שלי הייתי די קולני לגבי כל העניין הזה, שגם למידה מפוקחת וגם למידה חיזוקית אינם מספיקים כדי לחקות את סוג הלמידה שאנו רואים אצל בעלי חיים ובני אדם. אני עושה את זה כבר משהו כמו שבע או שמונה שנים. אז זה לא עדכני. היה לי נאום מרכזי ב-NurIPS לפני שנים רבות, שבו הבעתי את הנקודה הזו, בעצם, והרצאות שונות, יש הקלטות. עכשיו, למה לכתוב מאמר עכשיו? הגעתי לנקודה - [חוקר המוח של גוגל] ג'ף הינטון עשה משהו דומה - אני מתכוון, בהחלט, הוא יותר ממני, אנחנו רואים את הזמן אוזל. אנחנו לא צעירים.

ZDNet: שישים זה החמישים החדש. 

YL: זה נכון, אבל הנקודה היא שאנחנו רואים הרבה טענות לגבי מה עלינו לעשות כדי לדחוף קדימה לעבר בינה מלאכותית ברמה האנושית. ויש רעיונות שלדעתי מכוונים לא נכון. אז, רעיון אחד הוא, הו, אנחנו צריכים פשוט להוסיף חשיבה סמלית על גבי רשתות עצביות. ואני לא יודע איך לעשות את זה. אז אולי מה שהסברתי במאמר עשוי להיות גישה אחת שתעשה את אותו הדבר ללא מניפולציה מפורשת של סמלים. זה הסוג המסורתי של גארי מרקוס של העולם. גארי מרקוס הוא לא איש בינה מלאכותית, אגב, הוא פסיכולוג. הוא מעולם לא תרם דבר לבינה מלאכותית. הוא עשה עבודה ממש טובה בפסיכולוגיה ניסיונית, אבל הוא מעולם לא כתב מאמר עם ביקורת עמיתים על AI. אז יש את האנשים האלה. 

יש את [מדען עיקרון DeepMind] דיוויד סילברס מהעולם שאומר, אתה יודע, תגמול זה מספיק, בעצם, הכל עניין של למידת חיזוק, אנחנו רק צריכים לעשות את זה קצת יותר יעיל, בסדר? ואני חושב שהם לא טועים, אבל אני חושב שהצעדים ההכרחיים לקראת הפיכת לימוד חיזוק ליעילה יותר, בעצם, ידחו את לימוד החיזוק לסוג של דובדבן על העוגה. והחלק העיקרי החסר הוא ללמוד איך העולם עובד, בעיקר על ידי התבוננות ללא פעולה. למידת חיזוק היא מאוד מבוססת פעולה, אתה לומד דברים על העולם על ידי נקיטת פעולות ורואים את התוצאות.

ZDNet: וזה ממוקד תגמול.

YL: זה ממוקד תגמול, וזה גם ממוקד פעולה. אז, אתה צריך לפעול בעולם כדי להיות מסוגל ללמוד משהו על העולם. והטענה העיקרית שאני מעלה במאמר לגבי למידה בפיקוח עצמי היא שרוב הלמידה שאנחנו עושים, אנחנו לא עושים את זה בעצם נקיטת פעולות, אנחנו עושים את זה על ידי התבוננות. וזה מאוד לא שגרתי, גם עבור אנשים לומדי חיזוק, במיוחד, אבל גם עבור הרבה פסיכולוגים ומדענים קוגניטיביים שחושבים כי, אתה יודע, פעולה היא - אני לא אומר שפעולה היא לא חיונית, זה is חִיוּנִי. אבל אני חושב שעיקר מה שאנחנו לומדים הוא בעיקר על מבנה העולם, וכרוך, כמובן, באינטראקציה ופעולה ומשחק, ודברים כאלה, אבל הרבה מזה הוא תצפית.

ZDNet: אתה גם תצליח לתקתק את אנשי הרובוטריק, האנשים הראשונים בשפה, במקביל. איך אפשר לבנות את זה בלי שפה קודם? אתה עלול להצליח לסמן הרבה אנשים. 

YL: כן, אני רגיל לזה. אז, כן, יש את האנשים הראשונים בשפה, שאומרים, אתם יודעים, אינטליגנציה היא על שפה, המצע של אינטליגנציה הוא שפה, בלה, בלה, בלה. אבל זה, סוג של, דוחה אינטליגנציה של בעלי חיים. אתה יודע, אנחנו לא הגענו לנקודה שבה למכונות החכמות שלנו יש הרבה שכל ישר כמו לחתול. אז למה שלא נתחיל שם? מה זה מאפשר לחתול לתפוס את העולם שמסביב, לעשות דברים די חכמים, ולתכנן ודברים כאלה, ולכלבים אפילו טוב יותר? 

ואז יש את כל האנשים שאומרים, הו, אינטליגנציה היא דבר חברתי, נכון? אנחנו אינטליגנטים כי אנחנו מדברים אחד עם השני ומחליפים מידע, ובלה, בלה, בלה. יש כל מיני מינים לא חברתיים שלעולם לא פוגשים את הוריהם שהם מאוד חכמים, כמו תמנון או אורנגאוטן.כלומר, הם [אורנגאוטנים] בהחלט חונכו על ידי אמם, אבל הם לא חיות חברתיות. 

אבל הקטגוריה האחרת של אנשים שאני עשוי לסמן היא אנשים שאומרים שקנה ​​מידה מספיק. אז, בעצם, אנחנו פשוט משתמשים ברובוטריקים ענקיים, אנחנו מאמנים אותם על נתונים מולטי-מודאליים הכוללים, אתם יודעים, וידאו, טקסט, בלה, בלה, בלה. אנחנו, בערך, מתאבניםהכל, ואסימון הכל, ואז להתאמן ענקמודלים לביצוע תחזיות בדידות, בעצם, ואיכשהו AI ייצא מזה. הם לא טועים, במובן זה שזה עשוי להיות מרכיב של מערכת אינטליגנטית עתידית. אבל אני חושב שחסרים בו חלקים חיוניים. 

יש עוד קטגוריה של אנשים שאני הולך לסמן עם העיתון הזה. וזה ההסתברות, ההסתברות הדתית. אז, האנשים שחושבים שתורת ההסתברות היא המסגרת היחידה שבה אתה יכול להשתמש כדי להסביר למידת מכונה. וכפי שניסיתי להסביר ביצירה, זה בעצם יותר מדי לבקש שמודל עולמי יהיה הסתברותי לחלוטין. אנחנו לא יודעים איך לעשות את זה. יש את העקשנות החישובית. אז אני מציע לוותר על כל הרעיון הזה. וכמובן, אתה יודע, זהו נדבך עצום של לא רק למידת מכונה, אלא של כל הסטטיסטיקה, שמתיימרת להיות הפורמליזם הנורמלי ללמידת מכונה. 

הדבר השני - 

ZDNet: אתה בתנועה…

YL: - זה מה שנקרא מודלים גנרטיביים. אז, הרעיון שאתה יכול ללמוד לחזות, ואולי אתה יכול ללמוד הרבה על העולם על ידי חיזוי. אז אני נותן לך קטע וידאו ואני מבקש מהמערכת לחזות מה יקרה בהמשך בסרטון. ואני עשוי לבקש ממך לחזות מסגרות וידאו בפועל עם כל הפרטים. אבל מה שאני מתווכח עליו בעיתון זה שבעצם זה יותר מדי לבקש ומסובך מדי. וזה משהו ששיניתי את דעתי לגביו. עד לפני שנתיים בערך הייתי חסיד של מה שאני מכנה מודלים מחוללים משתנים סמויים, מודלים שמנבאים את מה שהולך לקרות אחר כך או המידע שחסר, אולי בעזרת משתנה סמוי, אם החיזוי לא יכול להיות דטרמיניסטית. ואני ויתרתי על זה. והסיבה שוויתרתי על זה מבוססת על תוצאות אמפיריות, שבהן אנשים ניסו ליישם, מעין, חיזוי או אימון מבוסס שחזור מהסוג שמשמש ב-BERTודגמי שפה גדולים, הם ניסו ליישם את זה על תמונות, וזה היה כישלון מוחלט. והסיבה שזה כישלון מוחלט היא, שוב, בגלל האילוצים של מודלים הסתברותיים שבהם קל יחסית לחזות אסימונים בדידים כמו מילים כי אנחנו יכולים לחשב את התפלגות ההסתברות על כל המילים במילון. זה קל. אבל אם נבקש מהמערכת לייצר את התפלגות ההסתברות על כל פריימים של הווידאו האפשריים, אין לנו מושג איך לפרמטר אותו, או שיש לנו מושג איך לפרמטר אותו, אבל אנחנו לא יודעים איך לנרמל את זה. זה פוגע בבעיה מתמטית בלתי פתירה שאנחנו לא יודעים איך לפתור. 

יאן-לקון-ספטמבר-2022-3

"אנחנו לא הגענו לנקודה שבה למכונות החכמות שלנו יש הרבה שכל ישר כמו לחתול", מציין לקון. "אז למה שלא נתחיל שם? מה זה מאפשר לחתול לתפוס את העולם שמסביב, לעשות דברים די חכמים, ולתכנן ודברים כאלה, ולכלבים אפילו טוב יותר?"

אז, בגלל זה אני אומר בואו נזנוח את תורת ההסתברות או את המסגרת לדברים כאלה, החלש יותר, מודלים מבוססי אנרגיה. גם אני דוגל בזה כבר עשרות שנים, אז זה לא דבר אחרון. אבל יחד עם זאת, לזנוח את רעיון המודלים הגנרטיביים כי יש הרבה דברים בעולם שאינם מובנים ואינם צפויים. אם אתה מהנדס, אתה קורא לזה רעש. אם אתה פיזיקאי, אתה קורא לזה חום. ואם אתה איש למידת מכונה, אתה קורא לזה, אתה יודע, פרטים לא רלוונטיים או מה שלא יהיה.

אז, הדוגמה שבה השתמשתי בעיתון, או שהשתמשתי בה בשיחות, היא, אתה רוצה מערכת חיזוי עולם שתעזור במכונית בנהיגה עצמית, נכון? הוא רוצה להיות מסוגל לחזות מראש את המסלולים של כל המכוניות האחרות, מה הולך לקרות לחפצים אחרים שעלולים לזוז, הולכי רגל, אופניים, ילד שרץ אחרי כדור כדורגל, דברים כאלה. אז, כל מיני דברים על העולם. אבל על גבול הכביש, אולי יש עצים, ויש רוח היום, אז העלים נעים ברוח, ומאחורי העצים יש בריכה, ויש אדוות בבריכה. ואלה, בעצם, תופעות בלתי צפויות במידה רבה. ואתה לא רוצה שהמודל שלך יבזבז כמות משמעותית של משאבים בניבוי הדברים שקשה לחזות אותם וגם לא רלוונטיים. אז בגלל זה אני תומך בארכיטקטורת ההטמעה המשותפת, הדברים שבהם המשתנה שאתה מנסה לדגמן, אתה לא מנסה לחזות אותו, אתה מנסה לעצב אותו, אבל הוא פועל דרך מקודד, ו המקודד הזה יכול לחסל הרבה פרטים על הקלט שהם לא רלוונטיים או מסובכים מדי - בעצם, שווה ערך לרעש.

ZDNet: דנו מוקדם יותר השנה במודלים מבוססי אנרגיה, ה-JEPA וה-H-JEPA. התחושה שלי, אם אני מבין אותך נכון, היא שאתה מוצא את נקודת האנרגיה הנמוכה שבה שתי התחזיות הללו של הטבעות X ו-Y דומות ביותר, כלומר אם יש יונה בעץ באחד, ויש משהו ב- רקע של סצנה, ייתכן שאלו לא הנקודות המהותיות שגורמות להטמעות אלה קרובות זו לזו.

YL: ימין. אז, ארכיטקטורת JEPA למעשה מנסה למצוא פשרה, פשרה, בין חילוץ ייצוגים שהינם אינפורמטיביים ביותר לגבי התשומות אך גם ניתנים לחיזוי זה מזה ברמת דיוק או מהימנות מסוימת. זה מוצא פשרה. אז, אם יש לה את הבחירה בין לבזבז כמות עצומה של משאבים כולל פרטי תנועת העלים, ואז לעצב את הדינמיקה שתחליט איך העלים זזים בעוד שנייה מעכשיו, או פשוט להפיל את זה על הרצפה על ידי רק בעצם להריץ את המשתנה Y דרך מנבא שמבטל את כל הפרטים האלה, זה כנראה פשוט יבטל אותו כי זה פשוט קשה מדי למודל וללכוד.

ZDNet: דבר אחד שהופתע הוא שהיית חסיד גדול של להגיד "זה עובד, אנחנו נבין מאוחר יותר את התיאוריה של התרמודינמיקה כדי להסביר את זה." כאן נקטת בגישה של, "אני לא יודע איך אנחנו בהכרח נפתור את זה, אבל אני רוצה להעלות כמה רעיונות לחשוב על זה," ואולי אפילו לגשת לתיאוריה או השערה, ב- הכי פחות. זה מעניין כי יש הרבה אנשים שמבזבזים הרבה כסף בעבודה על המכונית שיכולים לראות את הולך הרגל ללא קשר אם לרכב יש שכל ישר. ואני מתאר לעצמי שחלק מהאנשים האלה יהיו, לא מסומנים, אבל הם יגידו, "זה בסדר, לא אכפת לנו אם אין לזה שכל ישר, בנינו סימולציה, הסימולציה מדהימה, ואנחנו נמשיך להשתפר, נמשיך להרחיב את הסימולציה." 

ולכן זה מעניין שאתה בעמדה לומר עכשיו, בוא ניקח צעד אחורה ונחשוב על מה שאנחנו עושים. והתעשייה אומרת שאנחנו רק הולכים להרחיב, להרחיב, להרחיב, להרחיב, כי הארכובה הזו באמת עובדת. כלומר, כננת המוליכים למחצה של מעבדי GPU באמת עובדת.

YL: יש שם, כמו, חמש שאלות. אז, אני מתכוון, קנה מידה הוא הכרחי. אני לא מבקר את העובדה שאנחנו צריכים להגדיל. אנחנו צריכים להתאים. הרשתות העצביות האלה משתפרות ככל שהן גדלות. אין ספק שאנחנו צריכים להגדיל. ואלה שיהיו להם רמה מסוימת של שכל ישר יהיו גדולים. אין דרך לעקוף את זה, אני חושב. אז קנה מידה זה טוב, זה הכרחי, אבל לא מספיק. זו הנקודה שאני מעלה. זה לא רק קנה מידה. זו הנקודה הראשונה. 

נקודה שניה, האם התיאוריה באה קודם ודברים כאלה. אז, אני חושב שיש מושגים שבאים קודם, שאתה צריך לקחת צעד אחורה ולהגיד, בסדר, בנינו את הסולם הזה, אבל אנחנו רוצים ללכת לירח ואין סיכוי שהסולם הזה יביא אותנו לשם. אז בעצם, מה שאני כותב כאן זה שאנחנו צריכים לבנות רקטות. אני לא יכול לתת לך את הפרטים של איך אנחנו בונים רקטות, אבל הנה העקרונות הבסיסיים. ואני לא כותב תיאוריה בשביל זה או משהו, אבל, זה הולך להיות רקטה, בסדר? או מעלית חלל או משהו כזה. אולי אין לנו את כל הפרטים של כל הטכנולוגיה. אנחנו מנסים לגרום לחלק מהדברים האלה לעבוד, כאילו עבדתי על JEPA. הטמעה משותפת עובדת ממש טוב לזיהוי תמונות, אבל להשתמש בה כדי להכשיר מודל עולמי, יש קשיים. אנחנו עובדים על זה, אנחנו מקווים שנצליח לגרום לזה לעבוד soon, אבל אנחנו עלולים להיתקל שם בכמה מכשולים שאנחנו לא יכולים להתגבר עליהם, אולי. 

אז יש רעיון מרכזי במאמר לגבי החשיבה, שבו אם אנחנו רוצים שמערכות יוכלו לתכנן, שאתה יכול לחשוב עליו כצורה פשוטה של ​​חשיבה, הם צריכים להיות בעלי משתנים סמויים. במילים אחרות, דברים שאינם מחושבים על ידי שום רשת עצבית אלא דברים שכן - שהערכם מוסק כדי למזער פונקציה אובייקטיבית כלשהי, פונקציית עלות כלשהי. ואז אתה יכול להשתמש בפונקציית העלות הזו כדי להניע את התנהגות המערכת. וזה בכלל לא רעיון חדש, נכון? זוהי שליטה קלאסית מאוד, אופטימלית שבה הבסיס לכך חוזר לסוף שנות ה-50, תחילת שנות ה-60. אז, לא טוען כאן שום חידוש. אבל מה שאני אומר הוא שסוג זה של מסקנות חייב להיות חלק ממערכת אינטליגנטית שמסוגלת לתכנן, ושניתן לפרט או לשלוט בהתנהגות שלה לא על ידי התנהגות קשיחה, לא על ידי חיקוי הישענות, אלא על ידי פונקציה אובייקטיבית מניע את ההתנהגות - לא מניע למידה, בהכרח, אבל הוא מניע התנהגות. אתה יודע, יש לנו את זה במוח שלנו, ולכל חיה יש מחיר מהותי או מניעים פנימיים לדברים. זה גורם לתינוקות בני תשעה חודשים לרצות לקום. המחיר של להיות מאושר כשאתה עומד על רגליו, המונח הזה בפונקציית העלות הוא קשיח. אבל איך אתה עומד זה לא, זה למידה.

יאן-לקון-ספטמבר-2022-4

"קנה המידה הוא טוב, זה הכרחי, אבל לא מספיק," אומר LeCun על מודלים ענקיים של שפות כגון התוכניות מבוססות Transformer של מגוון GPT-3. חסידי הרובוטריק מאמינים, "אנחנו מסמנים הכל ומתאמנים ענקייםמודלים לביצוע תחזיות בדידות, ואיכשהו AI תצא מזה... אבל אני חושב שחסרים בו חלקים חיוניים."

ZDNet: רק כדי לסיים את הנקודה הזו, נראה שחלק גדול מקהילת הלמידה העמוקה ממשיכה עם משהו שאין לו שכל ישר. נראה שאתה מעלה כאן טיעון די ברור שבשלב מסוים זה הופך למבוי סתום. יש אנשים שאומרים שאנחנו לא צריכים מכונית אוטונומית עם שכל ישר כי קנה מידה יעשה את זה. זה נשמע כאילו אתה אומר שזה לא בסדר פשוט להמשיך ללכת בדרך הזו?

YL: אתה יודע, אני חושב שזה בהחלט אפשרי שיהיו לנו מכוניות אוטונומיות ברמה חמש בלי שכל ישר. אבל הבעיה עם הגישה הזו, זה הולך להיות זמני, כי תצטרך להנדס את זה לעזאזל. אז, אתה יודע, מפה את העולם כולו, תחבר כל מיני התנהגות ספציפית בפינה, אסוף מספיק נתונים שיש לך את כל המצבים, סוג של, מוזרים שאתה יכול להיתקל בהם בכבישים, בלה, בלה, בלה. והניחוש שלי הוא שעם מספיק השקעה וזמן, אתה יכול פשוט להנדס את זה. אבל בסופו של דבר, יהיה פתרון מספק יותר ואולי טוב יותר שיכלול מערכות שעושות עבודה טובה יותר בהבנת הדרך שבה העולם עובד, ויש לה, אתם יודעים, רמה מסוימת של מה שהיינו מכנים השכל הישר. זה לא צריך להיות שכל ישר ברמה האנושית, אלא סוג של ידע שהמערכת יכולה לרכוש על ידי צפייה, אבל לא צפייה במישהו נוהג, רק צפייה בדברים מסתובבים ומבין הרבה על העולם, בניית בסיס של רקע ידע על איך העולם עובד, נוסף על כך אתה יכול ללמוד נהיגה. 

הרשו לי לקחת דוגמה היסטורית לכך. ראייה ממוחשבת קלאסית התבססה על הרבה מודולים מהונדסים מחווטים, שעליהם תהיה לך, בערך, שכבה דקה של למידה. אז, לדברים שהובסו על ידי AlexNet ב-2012, היה בעצם שלב ראשון, סוג של מיצוי תכונה בעבודת יד, כמו SIFTs [Scale-Invariant Feature Transform (SIFT), טכניקת ראייה קלאסית לזיהוי עצמים בולטים בתמונה] ו-HOG [Histogram of Oriented Gradients, עוד טכניקה קלאסית] ועוד דברים שונים. ואז השכבה השנייה של, סוג של תכונות ברמה בינונית, המבוססת על גרעיני תכונה וכל מה שלא יהיה, ואיזו שיטה לא מפוקחת. ואז נוסף על זה, אתה שם מכונת תמיכה וקטורית, או מסווג פשוט יחסית. וזה היה, בערך, הצינור הסטנדרטי מאמצע שנות ה-2000 עד 2012. וזה הוחלף ברשתות קונבולוציוניות מקצה לקצה, שבהן אתה לא מתחבר לכל זה, יש לך רק הרבה נתונים, ואתה מאמן את הדבר מקצה לקצה, זו הגישה שדגלתי בה במשך זמן רב, אבל אתה יודע, עד אז, לא הייתה מעשית לבעיות גדולות. 

היה סיפור דומה בזיהוי דיבור שבו, שוב, הייתה כמות עצומה של הנדסה מפורטת לאופן שבו אתה מעבד מראש את הנתונים, אתה מחלץ cepstrum בקנה מידה המוני [היפוך של טרנספורמציה פורייה מהירה לעיבוד אותות], ואז יש לך דגמי מרקוב נסתרים, עם סוג של ארכיטקטורה מוגדרת מראש, בלה, בלה, בלה, עם תערובת של גאוסים. וכך, זו קצת אותה ארכיטקטורה כמו חזון שבו יצרת חזית ידנית, ואז שכבה בינונית, מאומנת, קצת לא מפוקחת, ואז שכבה מפוקחת למעלה. ועכשיו זה נמחק, בעצם, על ידי רשתות עצביות מקצה לקצה. אז אני קצת רואה שם משהו דומה של ניסיון ללמוד הכל, אבל אתה צריך להיות עם הקודקוד הנכון, הארכיטקטורה הנכונה, המבנה הנכון.

יאן-לקון-ספטמבר-2022-5

קהל המכוניות הנוהגות בעצמן, סטארט-אפים כמו Waymo ו-Wayve, היו "קצת אופטימיים מדי", הוא אומר, כשחשבו שהם יכולים "לזרוק עליו נתונים, ותוכלו ללמוד כמעט כל דבר". מכוניות לנהיגה עצמית ברמה 5 של ADAS אפשריות, "אבל תצטרך להנדס את זה לעזאזל" ויהיו "שבריריות" כמו דגמי ראייה ממוחשבת מוקדמים.

ZDNet: מה שאתה אומר הוא שאנשים מסוימים ינסו להנדס את מה שלא עובד כרגע עם למידה עמוקה עבור ישימות, נניח, בתעשייה, והם יתחילו ליצור משהו שזה הדבר שהתיישן בראייה ממוחשבת?

YL: ימין. וזה חלק מהסיבה שאנשים שעובדים על נהיגה אוטונומית היו קצת אופטימיים מדי בשנים האחרונות, כי אתה יודע, יש לך דברים כלליים כאלה כמו רשתות קונבולוציה ושנאים, שאתה יכול לזרוק עליהם נתונים. , והוא יכול ללמוד כמעט הכל. אז אתה אומר, אוקיי, יש לי את הפתרון לבעיה הזו. הדבר הראשון שאתה עושה הוא לבנות הדגמה שבה המכונית נוהגת בעצמה לכמה דקות מבלי לפגוע באף אחד. ואז אתה מבין שיש הרבה מקרים פינתיים, ואתה מנסה לשרטט את העקומה של כמה אני משתפר כשאני מכפיל את סט האימונים, ואתה מבין שלעולם לא תגיע לשם כי יש כל מיני מקרים פינתיים . ואתה צריך רכב שיגרום לתאונה קטלנית פחות מכל 200 מיליון קילומטרים, נכון? אז מה אתה עושה? ובכן, אתה הולך לשני כיוונים. 

הכיוון הראשון הוא, איך אני יכול להפחית את כמות הנתונים הדרושה למערכת שלי ללמוד? וכאן נכנסת לתמונה למידה בפיקוח עצמי. לכן, הרבה תלבושות מכוניות לנהיגה עצמית מתעניינים מאוד בלמידה בפיקוח עצמי, כי זו דרך להשתמש עדיין בכמויות עצומות של נתוני פיקוח לצורך למידה חיקוי, אבל להשיג ביצועים טובים יותר על ידי אימון מקדים, בעצם. וזה עדיין לא ממש יצא לפועל, אבל זה יקרה. ואז יש את האפשרות האחרת, שרוב החברות שמתקדמות יותר בשלב זה אימצו, והיא, בסדר, אנחנו יכולים לעשות את ההכשרה מקצה לקצה, אבל יש הרבה מקרים פינתיים שאנחנו יכולים' לא לטפל, אז אנחנו הולכים רק להנדס מערכות שיטפלו במקרים הפינתיים האלה, ובעצם, יתייחסו אליהם כאל מקרים מיוחדים, ותחוו את הבקרה, ואז יחברו הרבה התנהגות בסיסית לטיפול במצבים מיוחדים. ואם יש לך צוות גדול מספיק של מהנדסים, אתה יכול לעשות זאת. אבל זה ייקח הרבה זמן, ובסופו של דבר, זה עדיין יהיה קצת שביר, אולי אמין מספיק כדי שתוכל לפרוס, אבל עם רמה מסוימת של שבירות, שעם גישה מבוססת למידה יותר שעלולה להופיע ב- עתיד, למכוניות לא יהיה, כי אולי תהיה לו רמה מסוימת של שכל ישר והבנה לגבי איך העולם עובד. 

בטווח הקצר, הגישה המהונדסת תנצח - היא כבר מנצחת. זה ה-Waymo והקרוז של העולם ו-Wayveומה שלא יהיה, זה מה שהם עושים. ואז יש את גישת הלמידה בפיקוח עצמי, שכנראה תעזור לגישה המהונדסת להתקדם. אבל אז, בטווח הארוך, שעשוי להיות ארוך מדי עבור אותן חברות לחכות, כנראה תהיה, סוג של, מערכת נהיגה אוטונומית חכמה יותר משולבת.

ZDNet: אנחנו אומרים מעבר לאופק ההשקעה של רוב המשקיעים.

YL: זה נכון. לכן, השאלה היא האם אנשים יאבדו סבלנות או ייגמר הכסף לפני שהביצועים יגיעו לרמה הרצויה.

ZDNet: האם יש משהו מעניין לומר על הסיבה שבחרת בחלק מהאלמנטים שבחרת בדגם? כי אתה מצטט את קנת קרייק [1943,אופי ההסבר], ואתה מצטט את בריסון והו [1969, הפעלת שליטה אופטימלית], ואני סקרן לדעת למה התחלת עם ההשפעות האלה, אם האמנת במיוחד שהאנשים האלה מצאו את זה עד כמה שהם עשו. למה התחלת שם?

YL: ובכן, אני לא חושב, בוודאי, הם נתנו את כל הפרטים. אז, בריסון והו, זה ספר שקראתי עוד ב-1987 כשהייתי פוסט דוקטורט עם ג'פרי הינטון בטורונטו. אבל ידעתי על תחום העבודה הזה מראש כשכתבתי את הדוקטורט שלי, ויצרתי את החיבור בין שליטה אופטימלית ותמיכה לאחור, בעצם. אם באמת רצית להיות, אתה יודע, עוד שמידהובר, היית אומר שהממציאים האמיתיים של התמיכה האחורית היו למעשה תיאורטיקנים של שליטה אופטימלית הנרי ג'יי קלי, ארתור בריסון ואולי אפילו לב פונטרייאגין, שהוא תיאורטיקן רוסי של שליטה אופטימלית בחזרה בסוף שנות ה-50. 

אז, הם הבינו את זה, ולמעשה, אתה באמת יכול לראות את השורש של זה, המתמטיקה שמתחת לזה, היא מכניקה לגראנז'ית. אז אתה יכול לחזור לאולר ולגרנז', למעשה, ולמצוא ריח של זה בהגדרה שלהם למכניקה הקלאסית של לגרנג', באמת. אז, בהקשר של שליטה אופטימלית, מה שהחבר'ה האלה התעניינו בו היה בעצם מחשוב מסלולי רקטות. אתה יודע, זה היה עידן החלל המוקדם. ואם יש לך דגם של הרקטה, זה אומר לך שהנה מצב הרקטה בזמן t, והנה הפעולה שאני הולך לעשות, אז, דחף ומפעילים מסוגים שונים, הנה מצב הרקטה בזמן t + 1.

ZDNet: מודל מדינה-פעולה, מודל ערכי.

YL: נכון, בסיס השליטה. אז, עכשיו אתה יכול לדמות את הירי של הרקטה שלך על ידי דימיון רצף של פקודות, ואז יש לך פונקציית עלות כלשהי, שהיא המרחק של הרקטה למטרה שלה, תחנת חלל או מה שזה לא יהיה. ואז באיזושהי ירידה בשיפוע, אתה יכול להבין איך אני יכול לעדכן את רצף הפעולה שלי כך שהטיל שלי באמת יתקרב כמה שיותר למטרה. וזה צריך לבוא על ידי הפצת אותות לאחור בזמן. וזהו התפשטות לאחור, התפשטות שיפוע לאחור. האותות האלה, הם נקראים משתנים מצומדים במכניקה של לגראנז'ה, אבל למעשה, הם שיפועים. אז, הם המציאו את התמיכה האחורית, אבל הם לא הבינו שאפשר להשתמש בעקרון הזה כדי לאמן מערכת רב-שלבית שיכולה לעשות זיהוי תבניות או משהו כזה. זה לא ממש התממש עד אולי בסוף שנות ה-70, תחילת שנות ה-80, ולאחר מכן לא יושם בפועל ונעשה לעבודה עד אמצע שנות ה-80. אוקיי, אז זה המקום שבו התמיכה האחורית באמת, בערך, המריא כי אנשים הראו כאן כמה שורות קוד שאפשר לאמן רשת עצבית, מקצה לקצה, רב-שכבתי. וזה מסיר את המגבלות של ה-Perceptron. וכן, יש קשרים עם שליטה אופטימלית, אבל זה בסדר.

ZDNet: אז, זו דרך ארוכה לומר שההשפעות האלה שהתחלת איתן חזרו ל-backprop, וזה היה חשוב כנקודת התחלה עבורך?

YL: כן, אבל אני חושב שמה שאנשים שכחו קצת ממנו, הייתה לא מעט עבודה על זה, אתה יודע, עוד בשנות ה-90, או אפילו בשנות ה-80, כולל של אנשים כמו מייקל ג'ורדן [מחלקת המוח של MIT ומדעי הקוגניציה] ואנשים כאלה שכבר לא עושים רשתות עצביות, אלא הרעיון שאפשר להשתמש ברשתות עצביות לשליטה, ואפשר להשתמש ברעיונות קלאסיים של שליטה מיטבית. אז, דברים כמו מה שנקרא בקרה חזויה מודל, מה שנקרא עכשיו שליטה חזויה מודל, הרעיון הזה שאתה יכול לדמות או לדמיין את התוצאה של רצף של פעולות אם יש לך מודל טוב של המערכת שאתה מנסה לשלוט בו והסביבה שבה היא נמצאת. ואז בירידה בהדרגה, בעצם - זו לא למידה, זו הסקה - אתה יכול להבין מהו רצף הפעולות הטוב ביותר שימזער את המטרה שלי. אז, השימוש בפונקציית עלות עם משתנה סמוי להסקת מסקנות הוא, לדעתי, משהו שהיבול הנוכחי של רשתות עצביות בקנה מידה גדול שכחו ממנו. אבל זה היה מרכיב מאוד קלאסי של למידת מכונה במשך זמן רב. לכן, כל רשת בייסיאנית או מודל גרפי או מודל גרפי הסתברותי השתמש בסוג זה של מסקנות. יש לך מודל שלוכד את התלות בין חבורה של משתנים, אומרים לך את הערך של חלק מהמשתנים, ואז אתה צריך להסיק את הערך הסביר ביותר של שאר המשתנים. זה העיקרון הבסיסי של מסקנות במודלים גרפיים וב-Bayesian Nets, ודברים כאלה. ואני חושב שבעצם זה מה שההיגיון צריך להיות לגבי, נימוק ותכנון.

ZDNet: אתה בייסיאני בארון.

YL: אני בייסיאני לא הסתברותי. עשיתי את הבדיחה הזאת קודם. למעשה הייתי ב-NeurIPS לפני כמה שנים, אני חושב שזה היה ב-2018 או 2019, ונתפסתי בווידאו על ידי בייסיאן ששאל אותי אם אני בייסיאני, ואמרתי, כן, אני בייסיאני, אבל אני אני בייסיאני לא הסתברותי, בערך, בייסיאי מבוסס אנרגיה, אם אתה רוצה. 

ZDNet: מה שבהחלט נשמע כמו משהו מ מסע בין כוכבים. הזכרת בסוף המאמר הזה, זה הולך לקחת שנים של עבודה קשה באמת כדי לממש את מה שאתה מדמיין. ספר לי ממה מורכבת חלק מהעבודה הזו כרגע.

YL: אז, אני מסביר איך אתה מאמן ובונה את ה-JEPA בעיתון. והקריטריון שבו אני דוגל הוא שיש דרך כלשהי למקסם את תוכן המידע שיש לייצוגים שנשלפים לגבי הקלט. ואז השני הוא למזער את שגיאת החיזוי. ואם יש לך משתנה סמוי במנבא שמאפשר למנבא להיות לא דטרמיניסטי, עליך להסדיר גם את המשתנה הסמוי הזה על ידי צמצום תוכן המידע שלו. אז, יש לך שני בעיות עכשיו, כלומר איך אתה ממקסם את תוכן המידע של הפלט של רשת עצבית כלשהי, והשני הוא איך אתה ממזער את תוכן המידע של משתנה סמוי כלשהו? ואם לא תעשה את שני הדברים האלה, המערכת תקרוס. זה לא ילמד שום דבר מעניין. זה ייתן אפס אנרגיה לכל דבר, משהו כזה, שזה לא מודל טוב של תלות. זו הבעיה של מניעת קריסה שאני מזכיר. 

ואני אומר שלכל הדברים שאנשים עשו אי פעם, יש רק שתי קטגוריות של שיטות למנוע קריסה. האחת היא שיטות ניגודיות, והשנייה היא השיטות המוסדרות. אז, הרעיון הזה של מקסום תוכן המידע של הייצוגים של שני התשומות וצמצום תוכן המידע של המשתנה הסמוי, ששייך לשיטות מסודרות. אבל הרבה מהעבודה בארכיטקטורות ההטמעות המשותפות הללו משתמשות בשיטות ניגודיות. למעשה, הם כנראה הפופולריים ביותר כרגע. אז, השאלה היא בדיוק איך אתה מודד תוכן מידע בצורה שאתה יכול לייעל או למזער? וכאן הדברים מסתבכים כי אנחנו לא יודעים איך למדוד תוכן מידע. אנחנו יכולים להעריך את זה, אנחנו יכולים לגבול את זה, אנחנו יכולים לעשות דברים כאלה. אבל הם לא ממש מודדים תוכן מידע, שלמעשה, במידה מסוימת אפילו אינו מוגדר היטב.

ZDNet: זה לא חוק שאנון? זו לא תורת המידע? יש לך כמות מסוימת של אנטרופיה, אנטרופיה טובה ואנטרופיה רעה, והאנטרופיה הטובה היא מערכת סמלים שעובדת, אנטרופיה רעה היא רעש. האין הכל פתר על ידי שאנון?

YL: אתה צודק, אבל יש פגם גדול מאחורי זה. אתה צודק במובן זה שאם יש לך נתונים שמגיעים אליך ואתה יכול איכשהו לכמת את הנתונים לסמלים נפרדים, ואז אתה מודד את ההסתברות של כל אחד מהסמלים האלה, אז הכמות המקסימלית של מידע שנישאת אותם סמלים היא סכום על פני הסמלים האפשריים של Pi log Pi, ימין? איפה Pi היא ההסתברות לסמל אני - זו האנטרופיה של שאנון. [חוק שאנון מנוסח בדרך כלל כ-H = – ∑ pi log pi.]

אבל הנה הבעיה: מה כן Pi? זה קל כאשר מספר הסמלים קטן והסמלים מצוירים באופן עצמאי. כשיש הרבה סמלים, ותלות, זה מאוד קשה. לכן, אם יש לך רצף של ביטים ואתה מניח שהסיביות אינן תלויות זו בזו וההסתברות שווה בין אחד לאפס או מה שלא יהיה, אז אתה יכול למדוד את האנטרופיה בקלות, אין בעיה. אבל אם הדברים שמגיעים אליך הם וקטורים בעלי מימד גבוה, כמו, אתה יודע, מסגרות נתונים, או משהו כזה, מה זה Pi? מה ההתפלגות? ראשית עליך לכמת את החלל הזה, שהוא חלל רציף במימד גבוה. אין לך מושג איך לכמת את זה כמו שצריך. אתה יכול להשתמש ב-k-means וכו'. זה מה שאנשים עושים כשהם עושים דחיסת וידאו ודחיסת תמונה. אבל זה רק הערכה. ואז אתה צריך להניח הנחות של עצמאות. אז ברור שבסרטון, פריימים עוקבים אינם עצמאיים. יש תלות, והמסגרת הזו עשויה להיות תלויה בפריים אחר שראיתם לפני שעה, שהייתה תמונה של אותו הדבר. אז, אתה יודע, אתה לא יכול למדוד Pi. למדוד Pi, חייבת להיות לך מערכת למידת מכונה שלומדת לחזות. וכך חזרת לבעיה הקודמת. אז, אתה יכול רק להעריך את מידת המידע, בעצם. 

יאן-לקון-ספטמבר-2022-6

"השאלה היא בדיוק איך אתה מודד תוכן מידע בצורה שאתה יכול לייעל או למזער?" אומר לקון. "ושם הדברים מסתבכים כי אנחנו לא יודעים איך למדוד תוכן מידע". הטוב ביותר שניתן לעשות עד כה הוא למצוא פרוקסי שהוא "טוב מספיק למשימה שאנו רוצים".

תן לי לקחת דוגמה יותר קונקרטית. אחד האלגוריתמים שאיתם שיחקנו, ועליהם דיברתי ביצירה, הוא הדבר הזה שנקרא VICReg, variance-invariance-covariance regularization. זה במאמר נפרד שפורסם ב-ICLR, ו זה הועלה על arXiv כשנה לפני, 2021. והרעיון שם הוא למקסם את המידע. והרעיון הגיע למעשה ממאמר קודם של הקבוצה שלי שנקרא תאומים בארלו. אתה ממקסם את תוכן המידע של וקטור שיוצא מרשת עצבית על ידי הנחה, בעצם, שהתלות היחידה בין משתנים היא מתאם, תלות ליניארית. לכן, אם אתה מניח שהתלות היחידה האפשרית בין זוגות של משתנים, או בין משתנים במערכת שלך, היא קורלציות בין זוגות של חפצי ערך, שהיא הקירוב הגס ביותר, אז אתה יכול למקסם את תוכן המידע שיוצא מהמערכת שלך על ידי לוודא שלכל המשתנים יש שונות שאינה אפס - נניח, שונות אחת, זה לא משנה מהי - ואז מתאם אחורה שלהם, אותו תהליך שנקרא הלבנה, זה גם לא חדש. הבעיה עם זה היא שיכולות מאוד להיות לך תלות מורכבת ביותר בין קבוצות של משתנים או אפילו רק זוגות של משתנים שאינם תלות ליניארית, והם לא מופיעים במתאמים. אז, למשל, אם יש לך שני משתנים, וכל הנקודות של שני המשתנים האלה מסתדרות בסוג של ספירלה, יש תלות חזקה מאוד בין שני המשתנים האלה, נכון? אבל למעשה, אם מחשבים את המתאם בין שני המשתנים האלה, הם לא מתואמים. אז הנה דוגמה שבה תוכן המידע של שני המשתנים האלה הוא למעשה קטן מאוד, זה רק כמות אחת כי זה המיקום שלך בספירלה. יש להם דה-קורלציה, אז אתה חושב שיש לך הרבה מידע שיוצא משני המשתנים האלה כשלמעשה אין לך, יש לך רק, אתה יודע, אתה יכול לחזות את אחד המשתנים מהאחר, בעצם. אז זה מראה שיש לנו רק דרכים מאוד משוערות למדידת תוכן מידע.

ZDNet: אז זה אחד הדברים שאתה צריך לעבוד עליהם עכשיו עם זה? זו השאלה הגדולה יותר של איך אנחנו יודעים מתי אנחנו ממקסמים ומצמצמים את תוכן המידע?

YL:  או שמא ה-proxy שבו אנחנו משתמשים בשביל זה מספיק טוב למשימה שאנחנו רוצים. למעשה, אנו עושים זאת כל הזמן בלמידת מכונה. פונקציות העלות שאנו ממזערים אינן אף פעם אלו שאנו באמת רוצים למזער. אז, למשל, אתה רוצה לעשות סיווג, בסדר? פונקציית העלות שברצונך למזער כאשר אתה מכשיר מסווג היא מספר הטעויות שהסווג עושה. אבל זו פונקציית עלות איומה שאינה ניתנת להבדלה, שאינך יכול למזער כי אתה יודע שאתה הולך לשנות את המשקלים של הרשת העצבית שלך, שום דבר לא ישתנה עד שאחת מהדגימות האלה תשנה את ההחלטה שלה, ואז קפיצה בשגיאה, חיובית או שלילית.

ZDNet: אז יש לך פרוקסי שהיא פונקציה אובייקטיבית שאתה בהחלט יכול לומר, אנחנו בהחלט יכולים לזרום גרדיאנטים של הדבר הזה.

YL: זה נכון. אז אנשים משתמשים באובדן צולב אנטרופיה הזה, או SOFTMAX, יש לך כמה שמות לזה, אבל זה אותו דבר. וזה בעצם קירוב חלק של מספר השגיאות שהמערכת עושה, כאשר ההחלקה נעשית על ידי, בעצם, התחשבות בציון שהמערכת נותנת לכל אחת מהקטגוריות.

ZDNet: האם יש משהו שלא סיקרנו שהיית רוצה לכסות?

YL: זה כנראה מדגיש את הנקודות העיקריות. אני חושב שמערכות בינה מלאכותית צריכות להיות מסוגלות לנמק, והתהליך לכך שאני תומך בו הוא צמצום אובייקטיבי כלשהו ביחס למשתנה סמוי כלשהו. זה מאפשר למערכות לתכנן ולנמק. אני חושב שעלינו לנטוש את המסגרת ההסתברותית כי היא בלתי ניתנת לפתרון כשאנחנו רוצים לעשות דברים כמו לכידת תלות בין משתנים מתמשכים ממדים גבוהים. ואני תומך לזנוח את המודלים הגנרטיביים מכיוון שהמערכת תצטרך להקדיש יותר מדי משאבים לניבוי דברים שקשה מדי לחזות אותם ואולי צורכים יותר מדי משאבים. וזה בערך הכל. אלו המסרים העיקריים, אם אתה רוצה. ואז הארכיטקטורה הכוללת. ואז יש את ההשערות האלה לגבי טבעה של התודעה ותפקידו של הקופיגורטור, אבל זו באמת ספקולציה.

ZDNet: נגיע לזה בפעם הבאה. התכוונתי לשאול אותך, איך אתה מבסס את הדבר הזה? אבל אני מניח שאתה קצת יותר רחוק מהשוואת ביצועים עכשיו?

YL: לא בהכרח כל כך רחוק, סוג של גרסאות מפושטות. אתה יכול לעשות את מה שכולם עושים בשליטה או בלימוד חיזוק, כלומר, אתה מאמן את הדבר לשחק במשחקי Atari או משהו כזה או איזה משחק אחר שיש בו חוסר ודאות.

ZDNet: תודה על הזמן שלך, יאן.

מָקוֹר