الذكاء الاصطناعي بالفعل أفضل في قراءة الشفاه كما نحن

Tمهلا لا تكبر، فيلم وثائقي لعام 2018 حول حياة وتطلعات الجنود البريطانيين والنيوزيلنديين الذين عاشوا خلال الحرب العالمية الأولى من المشهود لهم سيد الخواتم المخرج بيتر جاكسون ، تم تحديث لقطاته الصامتة التي يزيد عمرها عن مائة عام من خلال التلوين وتسجيل صوت جديد لمربع حوار لم يكن موجودًا من قبل. للحصول على فكرة عما قاله الأشخاص الذين ظهروا في اللقطات الأرشيفية ، استأجر جاكسون فريقًا من قارئي شفاه الطب الشرعي لتخمين أقوالهم المسجلة. يقال، "كان قراء الشفاه دقيقين للغاية لدرجة أنهم تمكنوا حتى من تحديد لهجة ولهجة الأشخاص الذين يتحدثون."

"هؤلاء الرجال لم يعيشوا في عالم صامت أسود وأبيض ، وهذا الفيلم ليس عن الحرب. قال جاكسون لصحيفة The Guardian البريطانية الحارس اليومي في عام 2018. "أردت أن يرى الجمهور ، في أقرب وقت ممكن ، ما شاهده الجنود وكيف رأوه وسمعوه".

هذا هو العمل اللغوي تمامًا نظرًا لأن دراسة أجريت عام 2009 وجدت أن معظم الناس لا يقرأون سوى الشفاه بدقة تبلغ حوالي 20 بالمائة و CDC فقدان السمع عند الأطفال دليل الوالدين يقدر أن "قارئ الكلام الجيد قد يكون قادرًا على رؤية 4 إلى 5 كلمات فقط في جملة مكونة من 12 كلمة". بصورة مماثلة، دراسة عام 2011 من جامعة أوكلاهوما شاهدت دقة حوالي 10 في المائة فقط في موضوعات الاختبار.

"أي فرد حقق أ درجة قراءة الشفاه من جامعة مدينة نيويورك يعتبر تصحيح 30 في المائة أمرًا شاذًا ، مما يمنحهم درجة T تقارب 80 ثلاثة أضعاف الانحراف المعياري عن المتوسط. تضع درجة دقة التعرف على قراءة الشفاه البالغة 45 بالمائة بشكل صحيح 5 انحرافات معيارية فوق المتوسط ​​"، اختتمت دراسة 2011. "تحدد هذه النتائج الصعوبة الكامنة في التعرف على الجمل المرئية فقط."

بالنسبة للبشر ، فإن قراءة الشفاه تشبه إلى حد كبير الضرب في الدوريات الكبرى - احصل عليها بشكل صحيح حتى ثلاث مرات فقط من أصل عشرة وستكون من بين الأفضل على الإطلاق للعب اللعبة. بالنسبة لأنظمة التعلم الآلي الحديثة ، فإن قراءة الشفاه أشبه بلعب Go - جولة تلو الأخرى من الضرب على أكياس اللحوم التي خلقتك واستعبدت - مع أحدث الأنظمة الحديثة التي تحقق أداءً جيدًا أكثر من 95 بالمائة دقة الكلمات على مستوى الجملة. ومع استمرارهم في التحسن ، يمكننا ذلك soon شاهد يومًا تتولى فيه أنظمة الذكاء الاصطناعي المهام بدءًا من معالجة الأفلام الصامتة والإملاء الصامت في الأماكن العامة وحتى تحديد الهوية بالقياسات الحيوية.

السياق مهم

الآن ، قد يعتقد المرء أن البشر سيكونون أفضل في قراءة الشفاه الآن بالنظر إلى أننا كنا نمارس هذه التقنية رسميًا منذ أيام الراهب البينديكتيني الإسباني ، بيدرو بونسي دي ليون ، الذي يُنسب إليه الفضل في ريادة الفكرة في أوائل القرن السادس عشر.

إنه تمثال

ويكيبيديا / المجال العام

"عادة ما نفكر في الكلام على أنه ما نسمعه ، ولكن الجزء المسموع من الكلام ليس سوى جزء منه ،" د. فابيان كامبل ويست ، كبير مسؤولي التكنولوجيا في مطور تطبيقات قراءة الشفاه ، ليوباعبر البريد الإلكتروني لـ Engadget. "كما نتصورها ، يمكن تقسيم كلام الشخص إلى وحدات بصرية وسمعية. يُنظر إلى الوحدات المرئية ، التي تسمى visemes ، على أنها حركات للشفاه. الوحدات المسموعة ، تسمى الصوتيات ، تسمع كموجات صوتية ".

"عندما نتواصل مع بعضنا البعض وجهًا لوجه ، غالبًا ما يكون ذلك مفضلاً لأننا حساسون لكل من المعلومات المرئية والسمعية" ، تابع. "ومع ذلك ، هناك ما يقرب من ثلاثة أضعاف عدد الصوتيات مثل الأحشاء. بعبارة أخرى ، لا تحتوي حركات الشفاه وحدها على قدر كبير من المعلومات مثل الجزء المسموع من الكلام ".

أشار الباحث في جامعة أكسفورد ومطور LipNet ، يانيس أسيل ، إلى أن "معظم عمليات قراءة الشفاه ، إلى جانب الشفاه وأحيانًا اللسان والأسنان ، تكون كامنة ويصعب إزالتها بدون سياق". في القرن الرابع الميلادينقلاً عن دراسات فيشر السابقة. هؤلاء متجانسات هي سر قراءة الشفاه السيئةنجاح.

ما هو غريب هو أن Bad Lip Reading ستعمل بشكل عام بأي لغة منطوقة ، سواء كانت كذلك لهجة الملعب مثل اللغة الإنجليزية أو نغمي مثل الفيتناميين. قال كامبل ويست: "تحدث اللغة فرقًا ، خاصةً تلك التي لها أصوات فريدة غير شائعة في اللغات الأخرى". "كل لغة لها قواعد النحو والنطق التي ستؤثر على كيفية تفسيرها. بشكل عام ، طرق الفهم هي نفسها ".

وتابع: "اللغات النغمية مثيرة للاهتمام لأنها تستخدم نفس الكلمة مع تغيرات نغمة مختلفة (مثل نغمة الموسيقى) لنقل المعنى". من البديهي أن يمثل هذا تحديًا لقراءة الشفاه ، ولكن تظهر الأبحاث أنه لا يزال من الممكن تفسير الكلام بهذه الطريقة. جزء من السبب هو أن تغيير النغمة يتطلب تغييرات فسيولوجية يمكن أن تظهر بصريًا. تتم قراءة الشفاه أيضًا بمرور الوقت ، لذا فإن سياق الرؤى والكلمات والعبارات السابقة يمكن أن يساعد في الفهم ".

"الأمر مهم من حيث مدى جودة معرفتك باللغة لأنك تحد أساسًا من مجموعة الغموض التي يمكنك البحث عنها ،" ، Adrian KC Lee ، ScD ، أستاذ ورئيس قسم علوم النطق والسمع ، وعلوم النطق والسمع في جامعة واشنطن، قال لـ Engadget. "قل ، بارد ؛ و "عقد" ، أليس كذلك؟ إذا جلست أمام المرآة ، فلا يمكنك معرفة الفرق حقًا. لذا من وجهة نظر مادية ، هذا مستحيل ، ولكن إذا كنت أمسك بشيء ما مقابل الحديث عن الطقس ، فأنت ، من خلال السياق ، تعرف بالفعل ".

بالإضافة إلى السياق العام للتحويل الأكبر ، فإن الكثير مما ينقله الناس عندما يتحدثون يأتي بشكل غير لفظي. قال كامبل ويست: "عادة ما يكون التواصل أسهل عندما يمكنك رؤية الشخص والاستماع إليه ، ولكن الانتشار الأخير لمكالمات الفيديو أظهر لنا جميعًا أن الأمر لا يتعلق فقط برؤية الشخص ، فهناك الكثير من الفروق الدقيقة. هناك الكثير من الإمكانات لبناء أنظمة آلية ذكية لفهم التواصل البشري أكثر مما هو ممكن حاليًا ".

غابة للأشجار مفقودة لغويًا

في حين أن أجهزة قراءة الشفاه البشرية والآلية لها نفس الهدف النهائي العام ، فإن أهداف عملياتهم الفردية تختلف اختلافًا كبيرًا. كفريق من الباحثين من جامعة إيران للعلوم والتكنولوجيا جادل في عام 2021 ، "على مدى السنوات الماضية ، تم اقتراح عدة طرق لشخص لقراءة الشفاه ، ولكن هناك فرق مهم بين هذه الأساليب وطرق قراءة الشفاه المقترحة في الذكاء الاصطناعي. الغرض من الأساليب المقترحة لقراءة الشفاه بواسطة الآلة هو تحويل المعلومات المرئية إلى كلمات ... ومع ذلك ، فإن الغرض الرئيسي من قراءة الشفاه من قبل البشر هو فهم معنى الكلام وليس فهم كل كلمة من كلمات. "

وأوضح لي باختصار أن "البشر كسالى بشكل عام ويعتمدون على السياق لأن لدينا الكثير من المعرفة المسبقة". وهذا التنافر في العملية - المكافئ اللغوي لفقدان غابة للأشجار - هو الذي يمثل تحديًا فريدًا لهدف أتمتة قراءة الشفاه.

قال هاو: "العقبة الرئيسية في دراسة قراءة الشفاه هي الافتقار إلى قاعدة بيانات قياسية وعملية". "يحدد حجم قاعدة البيانات وجودتها تأثير التدريب لهذا النموذج ، وستعمل قاعدة البيانات المثالية أيضًا على تعزيز اكتشاف وحل مشاكل أكثر وأكثر تعقيدًا وصعوبة في مهام قراءة الشفاه." يمكن أن تشمل العقبات الأخرى العوامل البيئية مثل الإضاءة السيئة و shiftالخلفيات التي يمكن أن تخلط بين أنظمة الرؤية الآلية ، كما يمكن أن تختلف الاختلافات بسبب لون جلد المتحدث ، وزاوية دوران رأسهم (والتي shiftق زاوية النظر للفم) ووجود التجاعيد واللحية الغامض.

كما يلاحظ أصايل ، "قراءة الشفاه بالآلة صعبة لأنها تتطلب استخراج السمات الزمانية المكانية من الفيديو (لأن كلا من الموضع والحركة مهمان)." ومع ذلك ، كما يوضح Mingfeng Hao من جامعة شينجيانغ في عام 2020 مسح على تقنية قراءة الشفاه، "يمكن تصنيف التعرف على الإجراء ، الذي ينتمي إلى تصنيف الفيديو ، من خلال صورة واحدة." لذلك ، "بينما تحتاج قراءة الشفاه غالبًا إلى استخراج الميزات المتعلقة بمحتوى الكلام من صورة واحدة وتحليل العلاقة الزمنية بين التسلسل الكامل للصور لاستنتاج المحتوى." إنها عقبة تتطلب كلاً من قدرات معالجة اللغة الطبيعية ورؤية الآلة للتغلب عليها.

شوربة الاختصار

اليوم ، يأتي التعرف على الكلام بثلاث نكهات ، اعتمادًا على مصدر الإدخال. ما نتحدث عنه اليوم يندرج تحت بحث التعرف على الكلام المرئي (VSR) - أي استخدام الوسائل المرئية فقط لفهم ما يتم نقله. على العكس من ذلك ، هناك التعرف الآلي على الكلام (ASR) الذي يعتمد كليًا على الصوت ، مثل "يا Siri" و التعرف الآلي على الكلام السمعي البصري (AV-ASR) ، والذي يدمج الإشارات الصوتية والمرئية في تخميناته.

قال كامبل ويست: "إن البحث في التعرف التلقائي على الكلام (ASR) ناضج للغاية ولا يمكن التعرف على أحدث التطورات مقارنة بما كان ممكنًا عندما بدأ البحث". "لا يزال التعرف البصري على الكلام (VSR) في المراحل المبكرة نسبيًا من الاستغلال وستستمر الأنظمة في النضج." ليوبا تطبيق SRAVIالتي تمكن مرضى المستشفى من التواصل بغض النظر عما إذا كان بإمكانهم التحدث بشكل فعال ، تعتمد على المنهجية الأخيرة. وقال "هذا يمكن أن يستخدم كلا الأسلوبين من المعلومات للمساعدة في التغلب على أوجه القصور في الآخر". "في المستقبل سيكون هناك بالتأكيد أنظمة تستخدم إشارات إضافية لدعم الفهم."

"هناك العديد من الاختلافات بين تطبيقات VSR ،" تابع كامبل ويست. "من منظور تقني ، تختلف الهندسة المعمارية لكيفية بناء النماذج ... يمكن التعامل مع مشاكل التعلم العميق من زاويتين مختلفتين. الأول يبحث عن أفضل بنية ممكنة ، والثاني يستخدم كمية كبيرة من البيانات لتغطية أكبر قدر ممكن من التباين. كلا النهجين مهمان ويمكن الجمع بينهما ".

في الأيام الأولى لأبحاث VSR ، كانت مجموعات البيانات مثل AVLetters كان لابد من تمييزها يدويًا وتصنيفها ، وهو قيد كثيف العمالة يقيد بشدة كمية البيانات المتاحة لتدريب نماذج التعلم الآلي. على هذا النحو ، ركز البحث الأولي أولاً على الأساسيات المطلقة - تحديد الأبجدية والأرقام - قبل التقدم في النهاية إلى تحديد مستوى الكلمات والعبارة ، مع كون مستوى الجملة هو أحدث ما توصل إليه اليوم والذي يسعى إلى فهم الكلام البشري في أماكن ومواقف أكثر طبيعية.

في السنوات الأخيرة ، أدى ظهور تقنيات التعلم العميق الأكثر تقدمًا ، والتي تدرب النماذج على الإنترنت بشكل عام ، إلى جانب التوسع الهائل في الوسائط الاجتماعية والمرئية المنشورة عبر الإنترنت ، إلى تمكين الباحثين من إنشاء مجموعات بيانات أكبر بكثير ، مثل عبارات قراءة الشفاه من أكسفورد-بي بي سي 2 (LRS2) ، والتي تستند إلى آلاف السطور المنطوقة من برامج بي بي سي المختلفة. استخلص LRS3-TED 150,000 جملة من برامج TED المختلفة بينما قاعدة بيانات LSVSR (التعرف على الكلام المرئي واسع النطاق) ، من بين أكبر العروض الموجودة حاليًا 140,000 ساعة من مقاطع الصوت مع 2,934,899 بيان كلام وأكثر من 127,000 كلمة.

وهي ليست اللغة الإنجليزية فقط: توجد مجموعات بيانات مماثلة لعدد من اللغات مثل HIT-AVDB-II، والتي تستند إلى مجموعة من القصائد الصينية ، أو IV2 ، وهي قاعدة بيانات فرنسية تتكون من 300 شخص يقولون نفس العبارات الخمسة عشر. توجد مجموعات مماثلة أيضًا لتطبيقات اللغة الروسية والإسبانية والتشيكية.

واستشرافا للمستقبل

يقول كامبل ويست إن مستقبل VSR قد ينتهي به الأمر وكأنه يشبه إلى حد كبير ماضي ASR ، "هناك العديد من العوائق التي تحول دون اعتماد VSR ، كما كان الحال بالنسبة لـ ASR خلال تطويره على مدى العقود القليلة الماضية." الخصوصية أمر مهم بالطبع. على الرغم من أن الأجيال الشابة أقل حرمانًا من توثيق حياتهم عبر الإنترنت ، إلا أن كامبل ويست قالت ، "إن الناس على حق أكثر وعيًا بالخصوصية الآن مما كانوا عليه من قبل. قد يتسامح الناس مع الميكروفون بينما لا يتسامحون مع الكاميرا ".

بغض النظر ، لا يزال كامبل ويست متحمسًا بشأن التطبيقات المستقبلية المحتملة لـ VSR ، مثل التسميات التوضيحية الآلية عالية الدقة. قال كامبل ويست: "أتخيل نظام ترجمة في الوقت الفعلي حتى تتمكن من الحصول على ترجمات مباشرة في نظارتك عند التحدث إلى شخص ما". "بالنسبة لأي شخص ضعيف السمع ، قد يكون هذا تطبيقًا يغير حياته ، ولكن حتى للاستخدام العام في البيئات الصاخبة ، قد يكون هذا مفيدًا."

وتابع: "هناك ظروف تجعل الضوضاء من ASR صعبة للغاية ولكن التحكم الصوتي مفيد ، كما هو الحال في السيارة". "يمكن لنظام VSR أن يساعد هذه الأنظمة على أن تصبح أفضل وأكثر أمانًا للسائق والركاب."

من ناحية أخرى ، يرى لي ، الذي أجرى مختبره في جامعة واشنطن أبحاثًا على تقنيات واجهة الدماغ والحاسوب على نطاق واسع ، أن النصوص القابلة للارتداء تُعرض على أنها إجراء "مؤقت" حتى تنضج تقنية BCI. قال لي: "لا نريد بالضرورة بيع BCI إلى تلك النقطة حيث ،" حسنًا ، سنقوم بالتواصل من دماغ إلى دماغ دون التحدث بصوت عالٍ ". "في غضون عقد من الزمان أو نحو ذلك ، ستجد الإشارات البيولوجية يتم الاستفادة منها في المعينات السمعية ، بالتأكيد. بقدر ضئيل من رؤية [الجهاز] لمكان عينيك قد يكون قادرًا على إعطائه دليلًا على مكان تركيز الاستماع ".

اعترف لي قائلاً: "أتردد حقًا في قول" نعم ، سنحصل على معينات سمعية يتحكم فيها الدماغ ". "أعتقد أنه ممكن ، لكن كما تعلم ، سيستغرق وقتًا."

يتم اختيار جميع المنتجات التي أوصت بها Engadget بواسطة فريق التحرير لدينا ، بشكل مستقل عن الشركة الأم. تتضمن بعض قصصنا روابط تابعة. إذا اشتريت شيئًا من خلال أحد هذه الروابط ، فقد نربح عمولة تابعة. جميع الأسعار صحيحة وقت النشر.

مصدر