एआई पहले से ही लिप रीडिंग में बेहतर है कि हम हैं

Tअरे बूढ़ा नहीं होगा, प्रशंसित से प्रथम विश्व युद्ध के दौरान रहने वाले ब्रिटिश और न्यूजीलैंड सैनिकों के जीवन और आकांक्षाओं के बारे में 2018 की एक वृत्तचित्र प्रभु के छल्ले के निर्देशक पीटर जैक्सन ने अपने सौ साल से अधिक पुराने साइलेंट फ़ुटेज को रंगीकरण और नए ऑडियो की रिकॉर्डिंग दोनों के माध्यम से आधुनिक बनाया था, जो पहले न के बराबर था। अभिलेखीय फुटेज में दिखाए गए लोग क्या कह रहे थे, इसका अंदाजा लगाने के लिए, जैक्सन ने उनके रिकॉर्ड किए गए उच्चारणों का अनुमान लगाने के लिए फोरेंसिक लिप रीडर्स की एक टीम को काम पर रखा। कथित तौर पर, "होंठ पाठक इतने सटीक थे कि वे बोलने वाले लोगों की बोली और उच्चारण को भी निर्धारित करने में सक्षम थे।"

"ये लड़के काले और सफेद, खामोश दुनिया में नहीं रहते थे, और यह फिल्म युद्ध के बारे में नहीं है; यह युद्ध लड़ने वाले सैनिक के अनुभव के बारे में है," जैक्सन ने बताया दैनिक प्रहरी 2018 में। "मैं चाहता था कि दर्शक जितना संभव हो सके, देखें कि सैनिकों ने क्या देखा, और उन्होंने इसे कैसे देखा, और सुना।"

यह काफी भाषाई उपलब्धि है जिसे देखते हुए 2009 के एक अध्ययन में पाया गया कि ज्यादातर लोग केवल होंठ पढ़ सकते हैं लगभग 20 प्रतिशत सटीकता के साथ और सीडीसी के बच्चों में सुनवाई हानि माता-पिता की मार्गदर्शिका अनुमान है कि, "एक अच्छा भाषण पाठक 4-शब्द वाक्य में केवल 5 से 12 शब्दों को देखने में सक्षम हो सकता है।" इसी तरह, ओक्लाहोमा विश्वविद्यालय से 2011 का एक अध्ययन अपने परीक्षण विषयों में केवल लगभग 10 प्रतिशत सटीकता देखी।

"कोई भी व्यक्ति जिसने हासिल किया CUNY लिप-रीडिंग स्कोर 30 प्रतिशत सही को एक बाहरी माना जाता है, जिससे उन्हें माध्य से लगभग 80 तीन गुना मानक विचलन का टी-स्कोर मिलता है। 45 प्रतिशत सही लिप-रीडिंग रिकग्निशन एक्यूरेसी स्कोर एक व्यक्ति को औसत से 5 स्टैंडर्ड डेविएशन से ऊपर रखता है। 2011 के अध्ययन ने निष्कर्ष निकाला. "ये परिणाम केवल-दृश्य वाक्य पहचान में अंतर्निहित कठिनाई को मापते हैं।"

मनुष्यों के लिए, होंठ पढ़ना मेजर लीग में बल्लेबाजी करने जैसा है - इसे लगातार दस में से केवल तीन बार सही करें और आप कभी भी खेल खेलने वाले सर्वश्रेष्ठ लोगों में से होंगे। आधुनिक मशीन लर्निंग सिस्टम के लिए, लिप रीडिंग गो खेलना अधिक पसंद है - मीटसैक पर पिटाई के दौर के बाद ही दौर, जिसने आपको बनाया और गुलाम बनाया - आज के अत्याधुनिक सिस्टम अच्छी तरह से प्राप्त कर रहे हैं 95 प्रतिशत से अधिक वाक्य-स्तरीय शब्द सटीकता. और जैसे-जैसे वे सुधार करना जारी रखेंगे, हम कर सकते हैं soon एक दिन देखें जहां मूक-मूवी प्रसंस्करण और सार्वजनिक रूप से मूक श्रुतलेख से बायोमेट्रिक पहचान के कार्यों को एआई सिस्टम द्वारा नियंत्रित किया जाता है।

प्रसंग मामले

अब, कोई यह सोचेगा कि मनुष्य अब तक होंठ पढ़ने में बेहतर होगा, क्योंकि हम आधिकारिक तौर पर स्पेनिश बेनेडिक्टिन भिक्षु, पेड्रो पोंस डी लियोन के दिनों से तकनीक का अभ्यास कर रहे हैं, जिन्हें इसका श्रेय दिया जाता है 16वीं शताब्दी की शुरुआत में इस विचार को आगे बढ़ाया.

यह एक मूर्ति है

विकिपीडिया / सार्वजनिक डोमेन

"हम आमतौर पर भाषण के बारे में सोचते हैं जो हम सुनते हैं, लेकिन भाषण का श्रव्य हिस्सा इसका केवल एक हिस्सा है," लिप रीडिंग ऐप डेवलपर के सीटीओ डॉ फैबियन कैंपबेल-वेस्ट, लिओपा, ईमेल के माध्यम से Engadget को बताया। "जैसा कि हम इसे समझते हैं, किसी व्यक्ति के भाषण को दृश्य और श्रवण इकाइयों में विभाजित किया जा सकता है। दृश्य इकाइयाँ, जिन्हें विसेम्स कहा जाता है, को होंठों की गति के रूप में देखा जाता है। श्रव्य इकाइयाँ, जिन्हें फोनेम्स कहा जाता है, को ध्वनि तरंगों के रूप में सुना जाता है।"

"जब हम आमने-सामने संवाद कर रहे होते हैं तो अक्सर पसंद किया जाता है क्योंकि हम दृश्य और श्रवण जानकारी दोनों के प्रति संवेदनशील होते हैं," उन्होंने जारी रखा। "हालांकि, विसेम के रूप में लगभग तीन गुना अधिक स्वर हैं। दूसरे शब्दों में, केवल होंठों की गति में उतनी जानकारी नहीं होती जितनी कि भाषण के श्रव्य भाग में होती है।"

ऑक्सफ़ोर्ड यूनिवर्सिटी के तत्कालीन शोधकर्ता और लिपनेट डेवलपर, यानिस असैल ने कहा, "होंठ और कभी-कभी जीभ और दांतों के अलावा अधिकांश लिपरीडिंग एक्ट्यूएशन अव्यक्त होते हैं और संदर्भ के बिना स्पष्ट करना मुश्किल होता है।" 2016 में, फिशर के पहले के अध्ययनों का हवाला देते हुए। इन होमोफेमेस रहस्य हैं खराब होंठ पढ़नासफलता।

क्या जंगली बात यह है कि बैड लिप रीडिंग आम तौर पर किसी भी बोली जाने वाली भाषा में काम करेगी, चाहे वह हो पिच-उच्चारण अंग्रेजी की तरह या तानवाला वियतनामी की तरह। कैंपबेल-वेस्ट ने कहा, "भाषा से फर्क पड़ता है, खासतौर पर उन अनूठी आवाजों के साथ जो अन्य भाषाओं में आम नहीं हैं।" "प्रत्येक भाषा में वाक्य रचना और उच्चारण नियम होते हैं जो प्रभावित करेंगे कि इसकी व्याख्या कैसे की जाती है। मोटे तौर पर, समझने के तरीके समान हैं।"

"टोनल भाषाएं दिलचस्प हैं क्योंकि वे अर्थ व्यक्त करने के लिए अलग-अलग स्वर (जैसे संगीत पिच) के साथ एक ही शब्द का उपयोग करते हैं," उन्होंने जारी रखा। "सहज रूप से यह होंठ पढ़ने के लिए एक चुनौती पेश करेगा, हालांकि शोध से पता चलता है कि इस तरह भाषण की व्याख्या करना अभी भी संभव है। इसका एक कारण यह है कि बदलते स्वर के लिए शारीरिक परिवर्तनों की आवश्यकता होती है जो नेत्रहीन रूप से प्रकट हो सकते हैं। लिप रीडिंग भी समय के साथ की जाती है, इसलिए पिछले शब्दों, शब्दों और वाक्यांशों का संदर्भ समझने में मदद कर सकता है।"

"यह मायने रखता है कि भाषा का आपका ज्ञान कितना अच्छा है क्योंकि आप मूल रूप से उन अस्पष्टताओं के सेट को सीमित कर रहे हैं जिन्हें आप खोज सकते हैं," एड्रियन केसी ली, एससीडी, वाशिंगटन विश्वविद्यालय में भाषण और श्रवण विज्ञान विभाग, भाषण और श्रवण विज्ञान के प्रोफेसर और अध्यक्ष, Engadget को बताया। "कहो, 'ठंडा; और 'पकड़ो', है ना? यदि आप सिर्फ एक आईने के सामने बैठते हैं, तो आप वास्तव में अंतर नहीं बता सकते। तो भौतिक दृष्टिकोण से, यह असंभव है, लेकिन अगर मैं मौसम के बारे में बात कर रहा हूं, तो आप संदर्भ के अनुसार, पहले से ही जानते हैं।

बड़े रूपांतरण के सामान्य संदर्भ के अलावा, जब लोग बोलते हैं तो बहुत कुछ गैर-मौखिक रूप से सामने आता है। कैंपबेल-वेस्ट ने कहा, "जब आप व्यक्ति को देख सकते हैं और साथ ही उन्हें सुन सकते हैं तो संचार आमतौर पर आसान होता है," लेकिन वीडियो कॉल के हालिया प्रसार ने हम सभी को दिखाया है कि यह केवल उस व्यक्ति को देखने के बारे में नहीं है, वहां बहुत अधिक बारीकियां हैं। मानव संचार को समझने के लिए वर्तमान में जो संभव है, उससे कहीं अधिक बुद्धिमान स्वचालित प्रणालियों के निर्माण की संभावना है।"

पेड़ों के लिए एक जंगल लापता, भाषाई रूप से

जबकि मानव और मशीनी होंठ पाठकों का एक ही सामान्य अंत लक्ष्य होता है, उनकी व्यक्तिगत प्रक्रियाओं के उद्देश्य बहुत भिन्न होते हैं। से शोधकर्ताओं की एक टीम के रूप में ईरान विज्ञान और प्रौद्योगिकी विश्वविद्यालय 2021 में तर्क दिया, “पिछले वर्षों में, किसी व्यक्ति को होंठ पढ़ने के लिए कई तरीके प्रस्तावित किए गए हैं, लेकिन इन तरीकों और एआई में सुझाए गए होंठ पढ़ने के तरीकों में एक महत्वपूर्ण अंतर है। मशीन द्वारा लिप-रीडिंग के लिए प्रस्तावित तरीकों का उद्देश्य दृश्य जानकारी को शब्दों में बदलना है... हालांकि, मानव द्वारा लिप-रीडिंग का मुख्य उद्देश्य भाषण के अर्थ को समझना है न कि भाषण के हर एक शब्द को समझना है।'

संक्षेप में, "मनुष्य आम तौर पर आलसी होते हैं और संदर्भ पर भरोसा करते हैं क्योंकि हमारे पास बहुत पहले ज्ञान है," ली ने समझाया। और यह प्रक्रिया में असंगति है - पेड़ों के लिए एक जंगल लापता होने के भाषाई समकक्ष - जो होंठ पढ़ने को स्वचालित करने के लक्ष्य के लिए ऐसी अनूठी चुनौती प्रस्तुत करता है।

"लिपरीडिंग के अध्ययन में एक बड़ी बाधा एक मानक और व्यावहारिक डेटाबेस की कमी है," हाओ ने कहा। "डेटाबेस का आकार और गुणवत्ता इस मॉडल के प्रशिक्षण प्रभाव को निर्धारित करती है, और एक आदर्श डेटाबेस लिपरीडिंग कार्यों में अधिक से अधिक जटिल और कठिन समस्याओं की खोज और समाधान को भी बढ़ावा देगा।" अन्य बाधाओं में खराब रोशनी और . जैसे पर्यावरणीय कारक शामिल हो सकते हैं shiftऐसी पृष्ठभूमि जो मशीन दृष्टि प्रणालियों को भ्रमित कर सकती है, जैसा कि स्पीकर की त्वचा की टोन, उनके सिर के घूर्णी कोण के कारण भिन्न हो सकता है (जो shifts मुंह का कोण) और झुर्रियों और दाढ़ी की अस्पष्ट उपस्थिति।

जैसा कि असैल ने नोट किया, "मशीन लिपरीडिंग मुश्किल है क्योंकि इसके लिए वीडियो से स्पोटियोटेम्पोरल सुविधाओं को निकालने की आवश्यकता होती है (क्योंकि स्थिति और गति दोनों महत्वपूर्ण हैं)। हालाँकि, जैसा कि शिनजियांग विश्वविद्यालय के मिंगफेंग हाओ ने 2020 में बताया है होंठ पढ़ने की तकनीक पर एक सर्वेक्षण, "कार्रवाई पहचान, जो वीडियो वर्गीकरण से संबंधित है, को एकल छवि के माध्यम से वर्गीकृत किया जा सकता है।" इसलिए, "लाइप्रेडिंग में अक्सर एक ही छवि से भाषण सामग्री से संबंधित सुविधाओं को निकालने और सामग्री का अनुमान लगाने के लिए छवियों के पूरे अनुक्रम के बीच समय संबंध का विश्लेषण करने की आवश्यकता होती है।" यह एक बाधा है जिसके लिए प्राकृतिक भाषा प्रसंस्करण और मशीन दृष्टि क्षमताओं दोनों की आवश्यकता होती है। काबू पाना।

एक्रोनिम सूप

आज, वाक् पहचान तीन फ्लेवर में आती है, जो इनपुट स्रोत पर निर्भर करती है। आज हम जिस बारे में बात कर रहे हैं वह विजुअल स्पीच रिकग्निशन (वीएसआर) शोध के अंतर्गत आता है - यानी जो बताया जा रहा है उसे समझने के लिए केवल दृश्य साधनों का उपयोग करना। इसके विपरीत, वहाँ है स्वचालित भाषण पहचान (एएसआर) जो पूरी तरह से ऑडियो पर निर्भर करता है, अर्थात "अरे सिरी," और ऑडियो-विजुअल स्वचालित वाक् पहचान (एवी-एएसआर), जो अपने अनुमानों में श्रव्य और दृश्य दोनों संकेतों को शामिल करता है।

कैंपबेल-वेस्ट ने कहा, "स्वचालित वाक् पहचान (एएसआर) में अनुसंधान अत्यंत परिपक्व है और अनुसंधान शुरू होने के समय जो संभव था, उसकी तुलना में वर्तमान अत्याधुनिक पहचान योग्य नहीं है।" "विज़ुअल स्पीच रिकग्निशन (वीएसआर) अभी भी शोषण के अपेक्षाकृत शुरुआती चरण में है और सिस्टम परिपक्व होते रहेंगे।" लियोपा की श्रावी ऐप, जो अस्पताल के रोगियों को इस बात की परवाह किए बिना संवाद करने में सक्षम बनाता है कि क्या वे सक्रिय रूप से मौखिक रूप से बोल सकते हैं, बाद की पद्धति पर निर्भर करता है। "यह दूसरे की कमियों को दूर करने में मदद करने के लिए सूचना के दोनों तरीकों का उपयोग कर सकता है," उन्होंने कहा। "भविष्य में ऐसे सिस्टम होंगे जो समझ का समर्थन करने के लिए अतिरिक्त संकेतों का उपयोग करते हैं।"

"वीएसआर कार्यान्वयन के बीच कई अंतर हैं," कैंपबेल-वेस्ट ने जारी रखा। "तकनीकी दृष्टिकोण से मॉडल कैसे बनाए जाते हैं इसकी वास्तुकला अलग है ... गहरी सीखने की समस्याओं को दो अलग-अलग कोणों से देखा जा सकता है। पहला सर्वोत्तम संभव आर्किटेक्चर की तलाश में है, दूसरा जितना संभव हो उतना भिन्नता को कवर करने के लिए बड़ी मात्रा में डेटा का उपयोग कर रहा है। दोनों दृष्टिकोण महत्वपूर्ण हैं और इन्हें जोड़ा जा सकता है।"

वीएसआर अनुसंधान के शुरुआती दिनों में, डेटासेट जैसे एवीलेटर्स हाथ से लेबल और वर्गीकृत किया जाना था, एक श्रम-गहन सीमा जिसने प्रशिक्षण मशीन सीखने के मॉडल के लिए उपलब्ध डेटा की मात्रा को गंभीर रूप से प्रतिबंधित कर दिया। इस प्रकार, प्रारंभिक अनुसंधान ने पहले पूर्ण मूल बातें - वर्णमाला और संख्या-स्तर की पहचान पर ध्यान केंद्रित किया - अंततः शब्द- और वाक्यांश-स्तर की पहचान के लिए आगे बढ़ने से पहले, वाक्य-स्तर आज का अत्याधुनिक है जो मानव भाषण को समझना चाहता है अधिक प्राकृतिक सेटिंग्स और स्थितियों में।

हाल के वर्षों में, अधिक उन्नत गहन शिक्षण तकनीकों का उदय, जो अनिवार्य रूप से बड़े पैमाने पर इंटरनेट पर मॉडल को प्रशिक्षित करता है, साथ ही ऑनलाइन पोस्ट किए गए सामाजिक और दृश्य मीडिया के बड़े पैमाने पर विस्तार ने शोधकर्ताओं को बड़े डेटासेट उत्पन्न करने में सक्षम बनाया है, जैसे कि ऑक्सफोर्ड-बीबीसी लिप रीडिंग सेंटेंस 2 (LRS2), जो बीबीसी के विभिन्न कार्यक्रमों से बोली जाने वाली हज़ारों पंक्तियों पर आधारित है। LRS3-TED ने विभिन्न TED कार्यक्रमों से 150,000 वाक्य प्राप्त किए, जबकि LSVSR (लार्ज-स्केल विज़ुअल स्पीच रिकग्निशन) डेटाबेस, वर्तमान में मौजूद सबसे बड़े प्रस्तावों में से एक है। 140,000 घंटे के ऑडियो खंड 2,934,899 भाषण वक्तव्यों और 127,000 से अधिक शब्दों के साथ।

और यह सिर्फ अंग्रेजी नहीं है: इसी तरह के डेटासेट कई भाषाओं के लिए मौजूद हैं जैसे कि हिट-एवीडीबी-II, जो चीनी कविताओं या IV2 के एक सेट पर आधारित है, एक फ्रांसीसी डेटाबेस जिसमें 300 लोग समान 15 वाक्यांश कहते हैं। इसी तरह के सेट रूसी, स्पेनिश और चेक भाषा के अनुप्रयोगों के लिए भी मौजूद हैं।

आगे देख रहे हैं

कैंपबेल-वेस्ट कहते हैं, वीएसआर का भविष्य एएसआर के अतीत की तरह ही समाप्त हो सकता है, "वीएसआर को अपनाने के लिए कई बाधाएं हैं, क्योंकि पिछले कुछ दशकों में इसके विकास के दौरान एएसआर के लिए थे।" गोपनीयता एक बड़ी है, निश्चित रूप से। हालांकि युवा पीढ़ी लाइन पर अपने जीवन का दस्तावेजीकरण करने से कम हिचकिचाती हैं, कैंपबेल-वेस्ट ने कहा, "लोग अब गोपनीयता के बारे में अधिक जागरूक हैं, जब वे पहले थे। कैमरे को बर्दाश्त न करते हुए लोग माइक्रोफोन को बर्दाश्त कर सकते हैं। ”

इसके बावजूद, कैंपबेल-वेस्ट वीएसआर के संभावित भविष्य के अनुप्रयोगों, जैसे उच्च-निष्ठा स्वचालित कैप्शनिंग के बारे में उत्साहित रहता है। कैंपबेल-वेस्ट ने कहा, "मैं एक वास्तविक समय की उपशीर्षक प्रणाली की परिकल्पना करता हूं ताकि आप किसी से बात करते समय अपने चश्मे में लाइव उपशीर्षक प्राप्त कर सकें।" "सुनने में मुश्किल किसी के लिए भी यह एक जीवन बदलने वाला अनुप्रयोग हो सकता है, लेकिन शोर वाले वातावरण में सामान्य उपयोग के लिए भी यह उपयोगी हो सकता है।"

"ऐसी परिस्थितियां हैं जहां शोर एएसआर को बहुत मुश्किल बना देता है लेकिन आवाज नियंत्रण फायदेमंद होता है, जैसे कार में," उन्होंने जारी रखा। "वीएसआर इन प्रणालियों को ड्राइवर और यात्रियों के लिए बेहतर और सुरक्षित बनने में मदद कर सकता है।"

दूसरी ओर, ली, जिसकी यूडब्ल्यू में प्रयोगशाला ने ब्रेन-कंप्यूटर इंटरफेस प्रौद्योगिकियों पर व्यापक रूप से शोध किया है, पहनने योग्य पाठ को "स्टॉपगैप" उपाय के रूप में अधिक देखता है जब तक कि बीसीआई तकनीक आगे परिपक्व न हो जाए। "हम जरूरी नहीं कि बीसीआई को उस बिंदु तक बेचना चाहते हैं, 'ठीक है, हम बिना ज़ोर से बात किए भी ब्रेन-टू-ब्रेन कम्युनिकेशन करने वाले हैं," ली ने कहा। "एक या एक दशक में, आप निश्चित रूप से श्रवण यंत्रों में जैविक संकेतों का लाभ उठाते हुए पाएंगे। जितना कम [डिवाइस] यह देखने में सक्षम हो सकता है कि आपकी आँखें कहाँ देखती हैं, यह इस बात का सुराग देने में सक्षम हो सकती है कि सुनने पर ध्यान कहाँ केंद्रित किया जाए। ”

"मैं वास्तव में कहने में संकोच करता हूं 'ओह, हाँ, हमें मस्तिष्क-नियंत्रित श्रवण यंत्र मिलेंगे," ली ने स्वीकार किया। "मुझे लगता है कि यह संभव है, लेकिन आप जानते हैं, इसमें समय लगेगा।"

Engadget द्वारा अनुशंसित सभी उत्पाद हमारी मूल कंपनी से स्वतंत्र हमारी संपादकीय टीम द्वारा चुने गए हैं। हमारी कुछ कहानियों में सहबद्ध लिंक शामिल हैं। यदि आप इनमें से किसी एक लिंक के माध्यम से कुछ खरीदते हैं, तो हम एक संबद्ध कमीशन कमा सकते हैं। प्रकाशन के समय सभी कीमतें सही हैं।

स्रोत