AI כבר יותר טוב בקריאת שפתיים שאנחנו

Engadget
ספטמבר 29
שתף פוסט

Tהיי לא יזדקן, סרט תיעודי משנת 2018 על חייהם ושאיפותיהם של חיילים בריטים וניו זילנד שחיו במהלך מלחמת העולם הראשונה משבחים שר הטבעות הבמאי פיטר ג'קסון, עבר מודרניזציה של הצילומים האילמים בני המאה פלוס שלו באמצעות צביעת צבע והקלטה של אודיו חדש לדיאלוג שלא היה קיים בעבר. כדי לקבל מושג על מה שאמרו האנשים המופיעים בצילומי הארכיון, ג'קסון שכר צוות של קוראי שפתיים משפטיים כדי לנחש את התבטאויותיהם המוקלטות. דווח על כך, "קוראי השפתיים היו כה מדויקים שהם אפילו הצליחו לקבוע את הניב ואת המבטא של האנשים המדברים."

"החבר'ה האלה לא חיו בעולם שחור ולבן ושקט, והסרט הזה לא עוסק במלחמה; זה על הניסיון של החייל בלחימה במלחמה", אמר ג'קסון סנטינל יומי בשנת 2018. "רציתי שהקהל יראה, כמה שיותר קרוב, מה החיילים ראו, ואיך הם ראו את זה ושמעו את זה".

זה די ההישג הלשוני בהתחשב בעובדה שמחקר משנת 2009 מצא שרוב האנשים יכולים לקרוא רק שפתיים עם דיוק של כ-20 אחוז וה-CDC אובדן שמיעה בילדים מדריך הורים מעריך ש"קורא דיבור טוב יוכל לראות רק 4 עד 5 מילים במשפט בן 12 מילים." באופן דומה, מחקר משנת 2011 מאוניברסיטת אוקלהומה ראה רק בסביבות 10 אחוז דיוק בנבדקי המבחן שלו.

"כל אדם שהשיג א ציון קריאת שפתיים CUNY של 30 אחוזים נכונים נחשב חריג, נותן להם ציון T של כמעט 80 פי שלושה מסטיית התקן מהממוצע. ציון דיוק זיהוי קריאת שפתיים של 45 אחוז נכון מציב 5 סטיות תקן בודדות מעל הממוצע." המחקר של 2011 הסתיים. "תוצאות אלו מכמתות את הקושי המובנה בזיהוי משפטים חזותיים בלבד."

עבור בני אדם, קריאת שפתיים דומה מאוד לחבטות בליגות הגדולות - תעשה את זה בצורה עקבית אפילו רק שלוש פעמים מתוך עשר ותהיה בין הטובים ששיחקו אי פעם במשחק. עבור מערכות למידת מכונה מודרניות, קריאת שפתיים דומה יותר לשחק Go - רק סיבוב אחר סיבוב של מכות על שקי הבשר שיצרו ושעבדו אותך - כאשר המערכות החדישות של היום משיגות הישגים טובים מעל 95 אחוז דיוק מילים ברמת המשפט. וככל שהם ממשיכים להשתפר, אנחנו יכולים soon ראה יום שבו משימות מעיבוד סרט שקט והכתבה אילמת בציבור ועד זיהוי ביומטרי מטופלות על ידי מערכות בינה מלאכותית.

ענייני הקשר

עכשיו, אפשר היה לחשוב שבני אדם יהיו טובים יותר בקריאת שפתיים עד עכשיו בהתחשב בכך שאנו מתרגלים את הטכניקה באופן רשמי מאז ימיו של הנזיר הבנדיקטיני הספרדי, פדרו פונסה דה לאון, אשר מיוחס לו החלוץ של הרעיון בתחילת המאה ה-16.

"בדרך כלל אנו חושבים על דיבור כעל מה שאנו שומעים, אבל החלק הנשמע של הדיבור הוא רק חלק ממנו", ד"ר פביאן קמפבל-ווסט, CTO של מפתח אפליקציות קריאת שפתיים, ליופה, אמר לאגדג'ט באימייל. "כפי שאנו תופסים זאת, ניתן לחלק את הדיבור של אדם ליחידות חזותיות ושמיעתיות. יחידות הראייה, הנקראות ויסמות, נתפסות כתנועות שפתיים. היחידות הקוליות, הנקראות פונמות, נשמעות כגלי קול".

"כשאנחנו מתקשרים זה עם זה פנים אל פנים מועדף לעתים קרובות כי אנחנו רגישים הן למידע חזותי והן למידע שמיעתי", המשיך. "עם זאת, יש בערך פי שלושה פונמות מאשר ספינות. במילים אחרות, תנועות שפתיים לבדן אינן מכילות מידע רב כמו החלק הנשמע של הדיבור".

"רוב פעולות קריאת השפתיים, מלבד השפתיים ולעיתים הלשון והשיניים, הן סמויות וקשות לבירור ללא הקשר", ציין חוקר ומפתח LipNet מאוניברסיטת אוקספורד דאז, יאניס אסאל. ב2016, בצטט מחקרים קודמים של פישר. אלה הומופימות הם הסוד ל קריאת שפתיים גרועהשל הצלחה.

מה שפרוע הוא ש-Bad Lip Reading יעבוד בדרך כלל בכל שפה מדוברת, בין אם זה גובה-מבטא כמו אנגלית או צלילי כמו וייטנאמי. "השפה כן עושה את ההבדל, במיוחד אלה עם צלילים ייחודיים שאינם נפוצים בשפות אחרות," אמר קמפבל-ווסט. "לכל שפה יש כללי תחביר והגייה שישפיעו על אופן הפירוש שלה. בגדול, השיטות להבנה זהות".

"שפות טונאליות מעניינות כי הן משתמשות באותה מילה עם שינויים בטון שונה (כמו גובה מוזיקלי) כדי להעביר משמעות", המשיך. "אינטואיטיבית זה יהווה אתגר לקריאת שפתיים, אולם מחקרים מראים שעדיין ניתן לפרש דיבור בצורה זו. חלק מהסיבה היא ששינוי הטון דורש שינויים פיזיולוגיים שיכולים להתבטא חזותית. קריאת שפתיים נעשית גם היא לאורך זמן, כך שההקשר של דגמים, מילים וביטויים קודמים יכול לעזור בהבנה".

"זה משנה במונחים של כמה טוב הידע שלך בשפה כי אתה בעצם מגביל את מערך העמימות שאתה יכול לחפש", אדריאן KC Lee, ScD, פרופסור ויו"ר המחלקה למדעי הדיבור והשמיעה, מדעי הדיבור והשמיעה באוניברסיטת וושינגטון, אמר לאנגדג'ט. "תגיד, 'קר; ו'חזק', נכון? אם אתה רק יושב מול מראה, אתה לא ממש יכול להבחין בהבדל. אז מנקודת מבט פיזית זה בלתי אפשרי, אבל אם אני מחזיק משהו לעומת דיבור על מזג האוויר, אתה, לפי ההקשר, כבר יודע”.

בנוסף להקשר הכללי של ההמרה הגדולה יותר, הרבה ממה שאנשים מעבירים כשהם מדברים בא לידי ביטוי באופן לא מילולי. "תקשורת בדרך כלל קלה יותר כאשר אתה יכול לראות את האדם וגם לשמוע אותו," אמר קמפבל-ווסט, "אבל ההתפשטות האחרונה של שיחות וידאו הראתה לכולנו שזה לא רק לראות את האדם, יש הרבה יותר ניואנסים. יש הרבה יותר פוטנציאל לבניית מערכות אוטומטיות אינטליגנטיות להבנת התקשורת האנושית ממה שניתן כיום".

חסר יער לעצים, מבחינה לשונית

בעוד שלקוראי שפתיים אנושיים ומכונות יש אותה מטרה קצה כללית, המטרות של התהליכים האישיים שלהם שונות מאוד. כצוות חוקרים מ איראן אוניברסיטת המדע והטכנולוגיה טען ב-2021, "במהלך השנים האחרונות הוצעו לאדם מספר שיטות לקריאת שפתיים, אך יש הבדל חשוב בין שיטות אלו לבין שיטות קריאת שפתיים המוצעות ב-AI. מטרת השיטות המוצעות לקריאת שפתיים על ידי המכונה היא להמיר מידע חזותי למילים... עם זאת, המטרה העיקרית של קריאת שפתיים על ידי בני אדם היא להבין את משמעות הדיבור ולא להבין כל מילה בודדת של דיבור."

בקיצור, "בני אדם בדרך כלל עצלנים ומסתמכים על הקשר כי יש לנו הרבה ידע מוקדם", הסביר לי. וזהו הדיסוננס בתהליך - המקבילה הלשונית של החמצת יער לעצים - שמציב אתגר כה ייחודי למטרה של אוטומציה של קריאת שפתיים.

"מכשול מרכזי בלימוד קריאת שפתיים הוא היעדר מסד נתונים סטנדרטי ומעשי", אמר האו. "גודלו ואיכותו של מסד הנתונים קובעים את השפעת האימון של המודל הזה, ומסד נתונים מושלם יקדם גם גילוי ופתרון של בעיות מורכבות וקשות יותר ויותר במשימות קריאת שפתיים". מכשולים אחרים יכולים לכלול גורמים סביבתיים כמו תאורה לקויה ו shiftרקע שעלול לבלבל מערכות ראיית מכונה, כמו גם שונות עקב גוון העור של הדובר, זווית הסיבוב של ראשו (אשר shiftזווית הראייה של הפה) והנוכחות המטשטשת של קמטים וזקנים.

כפי שמציין אסאל, "קריאת שפתיים במכונה היא קשה מכיוון שהיא דורשת חילוץ של מאפיינים מרחבי-זמניים מהסרטון (מכיוון שגם המיקום וגם התנועה חשובים)." עם זאת, כפי שמסביר מינגפנג האו מאוניברסיטת שינג'יאנג בשנות ה-2020 סקר על טכנולוגיית קריאת שפתיים, "זיהוי פעולה, ששייך לסיווג וידאו, יכול להיות מסווג באמצעות תמונה אחת." לכן, "בעוד שקריאת שפתיים צריכה לעתים קרובות לחלץ את התכונות הקשורות לתוכן הדיבור מתמונה בודדת ולנתח את יחסי הזמן בין כל רצף התמונות כדי להסיק את התוכן." זהו מכשול שדורש גם עיבוד שפה טבעית וגם יכולות ראיית מכונה. להתגבר.

ראשי תיבות מרק

כיום, זיהוי דיבור מגיע בשלושה טעמים, בהתאם למקור הקלט. מה שאנחנו מדברים עליו היום נופל תחת מחקר זיהוי דיבור חזותי (VSR) - כלומר, שימוש באמצעים חזותיים בלבד כדי להבין מה מועבר. לעומת זאת, יש זיהוי דיבור אוטומטי (ASR) המסתמך כולו על אודיו, כלומר "היי סירי", ו זיהוי דיבור אוטומטי אודיו-ויזואלי (AV-ASR), המשלב גם רמזים אודיו וגם חזותיים בניחושים שלו.

"המחקר של זיהוי דיבור אוטומטי (ASR) הוא בוגר ביותר והמצב החדשני הנוכחי אינו ניתן לזיהוי בהשוואה למה שהיה אפשרי כשהמחקר החל", אמר קמפבל-ווסט. "זיהוי דיבור חזותי (VSR) נמצא עדיין בשלבים מוקדמים יחסית של ניצול ומערכות ימשיכו להבשיל". של ליופה אפליקציית SRAVI, המאפשרת למטופלים בבתי חולים לתקשר ללא קשר לשאלה אם הם יכולים לדבר מילולית באופן פעיל, מסתמכת על המתודולוגיה האחרונה. "זה יכול להשתמש בשני אופני המידע כדי לעזור להתגבר על החסרונות של האחר", אמר. "בעתיד בהחלט יהיו מערכות שישתמשו ברמזים נוספים כדי לתמוך בהבנה."

"יש כמה הבדלים בין יישומי VSR", המשיך קמפבל-ווסט. "מנקודת מבט טכנית הארכיטקטורה של אופן בניית המודלים שונה... ניתן לגשת לבעיות למידה עמוקה משתי זוויות שונות. הראשון מחפש את הארכיטקטורה הטובה ביותר האפשרית, השני הוא שימוש בכמות גדולה של נתונים כדי לכסות כמה שיותר שונות. שתי הגישות חשובות וניתן לשלבן".

בימים הראשונים של מחקר VSR, מערכי נתונים כמו מכתבי AV היה צריך לסמן ידנית ולסווג, מגבלה עתירת עבודה שהגבילה מאוד את כמות הנתונים הזמינים לאימון מודלים של למידת מכונה. ככזה, המחקר הראשוני התמקד תחילה ביסודות המוחלטים - זיהוי ברמת האלפבית והמספרים - לפני שהתקדם בסופו של דבר לזיהוי ברמת המילה והביטוי, כאשר רמת המשפט היא המצב העדכני ביותר של ימינו המבקש להבין את הדיבור האנושי. במסגרות ובמצבים טבעיים יותר.

בשנים האחרונות, עלייתן של טכניקות למידה עמוקה מתקדמות יותר, המאמנות מודלים בעצם האינטרנט בכלל, יחד עם ההתרחבות המסיבית של מדיה חברתית וויזואלית שפורסמה באינטרנט, אפשרו לחוקרים ליצור מערכי נתונים גדולים בהרבה, כמו משפטי קריאת שפתיים של אוקספורד-BBC 2 (LRS2), המבוססת על אלפי שורות מדוברות מתוכניות שונות של BBC. LRS3-TED אסף 150,000 משפטים מתוכניות TED שונות, בעוד שמסד הנתונים LSVSR (זיהוי דיבור בקנה מידה גדול), בין הגדולים ביותר שקיימים כיום מציע 140,000 שעות של קטעי שמע עם 2,934,899 הצהרות דיבור ויותר מ-127,000 מילים.

וזה לא רק אנגלית: מערכי נתונים דומים קיימים עבור מספר שפות כגון HIT-AVDB-II, המבוסס על קבוצה של שירים סיניים, או IV2, מאגר מידע צרפתי המורכב מ-300 אנשים האומרים את אותם 15 ביטויים. ערכות דומות קיימות גם עבור יישומים בשפה הרוסית, הספרדית והצ'כית.

מבט לעתיד

העתיד של VSR יכול להיראות דומה מאוד לעבר של ASR, אומר קמפבל-ווסט, "ישנם מחסומים רבים לאימוץ VSR, כפי שהיו עבור ASR במהלך הפיתוח שלה בעשורים האחרונים." הפרטיות היא פרט גדול, כמובן. למרות שהדורות הצעירים פחות מעכבים בתיעוד חייהם באינטרנט, קמפבל-ווסט אמר, "אנשים בצדק מודעים יותר לפרטיות כעת מאשר היו בעבר. אנשים עשויים לסבול מיקרופון בזמן שהם לא סובלים מצלמה."

בלי קשר, קמפבל-ווסט נותרה נרגשת מהיישומים העתידיים הפוטנציאליים של VSR, כמו כתוביות אוטומטיות בנאמנות גבוהה. "אני צופה מערכת כתוביות בזמן אמת כדי שתוכל לקבל כתוביות חיות במשקפיים שלך כשאתה מדבר עם מישהו", אמר קמפבל-ווסט. "עבור כל אדם כבד שמיעה זה יכול להיות יישום משנה חיים, אבל אפילו לשימוש כללי בסביבות רועשות זה יכול להיות שימושי."

"ישנן נסיבות שבהן רעש מקשה מאוד על ASR אך שליטה קולית היא יתרון, כמו במכונית", המשיך. "VSR יכולה לעזור למערכות אלו להיות טובות יותר ובטוחות יותר עבור הנהג והנוסעים."

מצד שני, לי, שהמעבדה שלו ב-UW חקרה בהרחבה את טכנולוגיות ממשק המוח-מחשב, רואה בתצוגות טקסט לביש יותר מדד "עצום" עד שטכנולוגיית BCI תתבגר יותר. "אנחנו לא בהכרח רוצים למכור את BCI לנקודה שבה, 'אוקיי, אנחנו הולכים לעשות תקשורת מוח למוח אפילו בלי לדבר בקול רם'", אמר לי. "בעוד עשור לערך, תמצא אותות ביולוגיים הממונפים במכשירי שמיעה, ללא ספק. ככל ש[המכשיר] רואה לאן מבטך מבט עשוי לתת לו רמז היכן למקד את ההקשבה."

"אני מהסס לומר באמת 'אה, כן, אנחנו הולכים לקבל מכשירי שמיעה נשלטי מוח", הודה לי. "אני חושב שזה בר ביצוע, אבל אתה יודע, זה ייקח זמן."

כל המוצרים המומלצים על ידי Engadget נבחרים על ידי צוות העורכים שלנו, ללא תלות בחברת האם שלנו. חלק מהסיפורים שלנו כוללים קישורי שותפים. אם אתה קונה משהו דרך אחד מהקישורים האלה, אנו עשויים להרוויח עמלת שותף. כל המחירים נכונים בזמן הפרסום.

מָקוֹר