AI อ่านปากเก่งกว่าแล้ว ว่าเราเป็น

Tเฮ้จะไม่แก่ขึ้น, สารคดีปี 2018 เกี่ยวกับชีวิตและแรงบันดาลใจของทหารอังกฤษและนิวซีแลนด์ที่มีชีวิตอยู่ในสงครามโลกครั้งที่ XNUMX จากคำชมเชย ลอร์ดออฟเดอะริ ผู้กำกับปีเตอร์ แจ็คสัน ได้ปรับปรุงฟุตเทจเงียบอายุร้อยกว่าปีให้ทันสมัยผ่านทั้งการปรับสีและการบันทึกเสียงใหม่สำหรับบทสนทนาที่ไม่มีอยู่ก่อนหน้านี้ แจ็คสันจึงจ้างทีมนักอ่านริมฝีปากทางนิติเวชเพื่อคาดเดาคำพูดที่บันทึกไว้ ตามข่าว, “เครื่องอ่านริมฝีปากนั้นแม่นยำมากจนสามารถระบุภาษาถิ่นและสำเนียงของผู้พูดได้”

“เจ้าพวกนี้ไม่ได้อาศัยอยู่ในโลกสีขาวดำที่เงียบงัน และหนังเรื่องนี้ไม่เกี่ยวกับสงคราม มันเกี่ยวกับประสบการณ์ของทหารในการต่อสู้กับสงคราม” แจ็คสันบอกกับ ยามประจำวัน ในปี 2018 “ฉันอยากให้ผู้ชมได้เห็นสิ่งที่ทหารเห็นอย่างใกล้ชิดที่สุด และสิ่งที่พวกเขาเห็นและได้ยินมัน”

นั่นค่อนข้างเป็นความสามารถทางภาษาศาสตร์เนื่องจากการศึกษาในปี 2009 พบว่าคนส่วนใหญ่อ่านได้เพียงริมฝีปากเท่านั้น ด้วยความแม่นยำประมาณ 20 เปอร์เซ็นต์ และ CDC's คู่มือผู้ปกครองการสูญเสียการได้ยินในเด็ก ประมาณการว่า “ผู้อ่านคำพูดที่ดีอาจมองเห็นได้เพียง 4 ถึง 5 คำในประโยค 12 คำ” ในทำนองเดียวกัน การศึกษา 2011 จากมหาวิทยาลัยโอคลาโฮมา เห็นความแม่นยำเพียง 10 เปอร์เซ็นต์ในวิชาทดสอบ

“บุคคลใดที่บรรลุ คะแนนการอ่านริมฝีปาก CUNY ถูกต้อง 30 เปอร์เซ็นต์ถือเป็นค่าผิดปกติ ทำให้ได้คะแนน T เกือบ 80 สามเท่าของค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย คะแนนความแม่นยำในการรู้จำการอ่านริมฝีปากที่ถูกต้อง 45 เปอร์เซ็นต์ทำให้ค่าเบี่ยงเบนมาตรฐาน 5 ค่าสูงกว่าค่าเฉลี่ย” สรุปผลการศึกษาปี 2011. "ผลลัพธ์เหล่านี้วัดความยากโดยธรรมชาติในการรู้จำประโยคด้วยภาพอย่างเดียว"

สำหรับมนุษย์แล้ว การอ่านปากก็เหมือนกับการตีบอลในเมเจอร์ลีก — ทำให้ถูกต้องสม่ำเสมอแม้เพียงสามครั้งในสิบครั้ง และคุณจะเป็นหนึ่งในผู้เล่นที่ดีที่สุดเท่าที่เคยมีมา สำหรับระบบการเรียนรู้ของเครื่องจักรที่ทันสมัย ​​การอ่านริมฝีปากเป็นเหมือนการเล่น Go มากกว่า - เพียงแค่ทุบเนื้อกระสอบที่สร้างและกดขี่ข่มเหงคุณซ้ำแล้วซ้ำเล่า — ด้วยระบบที่ล้ำสมัยในปัจจุบันที่ประสบความสำเร็จเป็นอย่างดี ความแม่นยำของคำระดับประโยคมากกว่า 95 เปอร์เซ็นต์. และในขณะที่พวกเขาปรับปรุงต่อไป เราก็ทำได้ soon ดูวันที่ระบบ AI จัดการงานต่างๆ ตั้งแต่การประมวลผลภาพยนตร์เงียบและการเขียนตามคำบอกในที่สาธารณะไปจนถึงการระบุตัวตนด้วยไบโอเมตริก

เรื่องบริบท

ทีนี้ ใครจะคิดว่ามนุษย์น่าจะอ่านปากได้ดีกว่า เพราะตอนนี้เราได้ฝึกเทคนิคนี้อย่างเป็นทางการตั้งแต่สมัยพระเปโดร ปอนเซ เด เลออน ซึ่งเป็นพระภิกษุชาวสเปนเบเนดิกติน เป็นผู้บุกเบิกความคิดในช่วงต้นศตวรรษที่ 16.

มันคือรูปปั้น

วิกิพีเดีย / โดเมนสาธารณะ

“เรามักจะคิดว่าคำพูดเป็นสิ่งที่ได้ยิน แต่ส่วนที่ได้ยินของคำพูดเป็นเพียงส่วนหนึ่ง” ดร.เฟเบียน แคมป์เบลล์-เวสต์ ซีทีโอของนักพัฒนาแอปอ่านริมฝีปาก ไลโอปาบอก Engadget ทางอีเมล “เมื่อเราเข้าใจ คำพูดของบุคคลสามารถแบ่งออกเป็นหน่วยการมองเห็นและการได้ยิน หน่วยการมองเห็นที่เรียกว่า visemes ถูกมองว่าเป็นการเคลื่อนไหวของริมฝีปาก หน่วยเสียงที่เรียกว่าหน่วยเสียงจะได้ยินเป็นคลื่นเสียง”

“เวลาที่เราสื่อสารกันแบบเห็นหน้ากันมักจะชอบเพราะเราอ่อนไหวต่อข้อมูลทั้งทางภาพและการได้ยิน” เขากล่าวต่อ “อย่างไรก็ตาม มีหน่วยเสียงประมาณสามเท่าของ visemes กล่าวอีกนัยหนึ่ง การเคลื่อนไหวของริมฝีปากเพียงอย่างเดียวไม่มีข้อมูลมากเท่ากับส่วนที่ได้ยินของคำพูด”

Yannis Assael นักวิจัยจากมหาวิทยาลัยอ็อกซ์ฟอร์ดและผู้พัฒนา LipNet ระบุว่า “การกระตุ้นการอ่านริมฝีปากส่วนใหญ่ นอกจากริมฝีปากและบางครั้งลิ้นและฟันนั้นยังแฝงอยู่และยากที่จะแก้ความกำกวมโดยไม่มีบริบท” ใน 2016โดยอ้างถึงการศึกษาก่อนหน้านี้ของฟิชเชอร์ เหล่านี้ คำพ้องเสียง เป็นความลับของ การอ่านปากไม่ดีความสำเร็จของ

ที่แปลกก็คือ Bad Lip Reading นั้นมักจะใช้ได้กับทุกภาษาพูด ไม่ว่าจะเป็น เน้นเสียง ชอบภาษาอังกฤษหรือ วรรณยุกต์ เหมือนคนเวียดนาม “ภาษาสร้างความแตกต่าง โดยเฉพาะเสียงที่มีเอกลักษณ์ซึ่งไม่ธรรมดาในภาษาอื่น” แคมป์เบลล์-เวสต์กล่าว “แต่ละภาษามีไวยากรณ์และกฎการออกเสียงที่จะส่งผลต่อการตีความ วิธีการทำความเข้าใจก็เหมือนกันในวงกว้าง”

“ภาษาวรรณยุกต์น่าสนใจเพราะพวกเขาใช้คำเดียวกันโดยเปลี่ยนโทนเสียง (เช่น ระดับเสียงดนตรี) เพื่อสื่อความหมาย” เขากล่าวต่อ “โดยสัญชาตญาณสิ่งนี้จะนำเสนอความท้าทายสำหรับการอ่านริมฝีปาก อย่างไรก็ตาม การวิจัยแสดงให้เห็นว่ายังคงเป็นไปได้ที่จะตีความคำพูดด้วยวิธีนี้ เหตุผลส่วนหนึ่งก็คือการเปลี่ยนน้ำเสียงต้องมีการเปลี่ยนแปลงทางสรีรวิทยาที่สามารถแสดงออกทางสายตาได้ การอ่านปากก็กระทำตามช่วงเวลาเช่นกัน ดังนั้นบริบทของบท ค าและวลีก่อนหน้าจึงสามารถช่วยให้เข้าใจได้”

“มันสำคัญในแง่ของความรู้ภาษาของคุณดีแค่ไหน เพราะโดยพื้นฐานแล้วคุณจำกัดชุดของความคลุมเครือที่คุณสามารถค้นหาได้” Adrian KC Lee, ScD, ศาสตราจารย์และหัวหน้าภาควิชาวิทยาศาสตร์การพูดและการได้ยิน วิทยาศาสตร์การพูดและการได้ยินที่มหาวิทยาลัยวอชิงตันบอกกับ Engadget “พูดว่า 'เย็น; และ 'ถือ' ใช่ไหม ถ้าคุณแค่นั่งหน้ากระจก คุณไม่สามารถแยกแยะความแตกต่างได้จริงๆ ดังนั้นจากมุมมองทางกายภาพ มันเป็นไปไม่ได้ แต่ถ้าฉันถืออะไรบางอย่างเทียบกับการพูดถึงสภาพอากาศ คุณก็รู้อยู่แล้วในบริบท”

นอกจากบริบททั่วไปของการเปลี่ยนใจเลื่อมใสในวงกว้างแล้ว สิ่งที่ผู้คนสื่อถึงเวลาที่พวกเขาพูดส่วนใหญ่มักใช้คำพูดแทนคำพูด “การสื่อสารมักจะง่ายขึ้นเมื่อคุณมองเห็นบุคคลและได้ยินพวกเขา” แคมป์เบลล์-เวสต์กล่าว “แต่การเพิ่มจำนวนการสนทนาทางวิดีโอเมื่อเร็วๆ นี้แสดงให้เราเห็นทุกอย่างว่าไม่ใช่แค่การได้เห็นบุคคลนั้นมีความแตกต่างกันออกไปอีกมาก มีศักยภาพมากขึ้นในการสร้างระบบอัตโนมัติอัจฉริยะเพื่อทำความเข้าใจการสื่อสารของมนุษย์มากกว่าที่เป็นได้ในปัจจุบัน”

คิดถึงป่าเพื่อต้นไม้ ภาษาศาสตร์

แม้ว่าเครื่องอ่านริมฝีปากของมนุษย์และเครื่องจักรมีเป้าหมายสุดท้ายเหมือนกัน แต่เป้าหมายของกระบวนการแต่ละอย่างแตกต่างกันอย่างมาก โดยทีมนักวิจัยจาก มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีอิหร่าน แย้งในปี 2021 ว่า “ในช่วงหลายปีที่ผ่านมา มีคนเสนอวิธีการอ่านริมฝีปากหลายวิธี แต่มีความแตกต่างที่สำคัญระหว่างวิธีการเหล่านี้กับวิธีการอ่านปากที่แนะนำใน AI จุดประสงค์ของวิธีการอ่านริมฝีปากด้วยเครื่องที่นำเสนอคือการแปลงข้อมูลภาพเป็นคำ… อย่างไรก็ตาม จุดประสงค์หลักของการอ่านริมฝีปากโดยมนุษย์คือการเข้าใจความหมายของคำพูด ไม่ใช่เพื่อเข้าใจคำพูดทุกคำ”

กล่าวโดยย่อ “โดยทั่วไปแล้วมนุษย์มักเกียจคร้านและพึ่งพาบริบทเพราะเรามีความรู้มาก่อนมากมาย” ลีอธิบาย และความไม่ลงรอยกันในกระบวนการ — เทียบเท่าทางภาษาของการขาดป่าสำหรับต้นไม้ — ที่นำเสนอความท้าทายที่ไม่ซ้ำกันดังกล่าวเพื่อเป้าหมายของการอ่านริมฝีปากอัตโนมัติ

“อุปสรรคสำคัญในการศึกษาการอ่านริมฝีปากคือการขาดฐานข้อมูลที่เป็นมาตรฐานและนำไปใช้ได้จริง” ห่าวกล่าว “ขนาดและคุณภาพของฐานข้อมูลเป็นตัวกำหนดผลการฝึกของแบบจำลองนี้ และฐานข้อมูลที่สมบูรณ์แบบยังจะส่งเสริมการค้นพบและการแก้ปัญหาที่ซับซ้อนและยากขึ้นเรื่อยๆ ในงานอ่านริมฝีปาก” อุปสรรคอื่นๆ อาจรวมถึงปัจจัยด้านสิ่งแวดล้อม เช่น แสงไม่ดีและ shiftซึ่งทำให้เกิดปัญหากับระบบวิชันซิสเต็ม เช่นเดียวกับความแปรปรวนเนื่องจากโทนสีผิวของผู้พูด มุมการหมุนของศีรษะ (ซึ่ง shiftมุมปาก) และรอยย่นและเคราที่บดบัง

ตามที่ Assael ได้กล่าวไว้ว่า "การดูดไขมันด้วยเครื่องเป็นเรื่องยากเพราะต้องแยกคุณลักษณะ spatiotemporal ออกจากวิดีโอ (เนื่องจากทั้งตำแหน่งและการเคลื่อนไหวมีความสำคัญ)" อย่างไรก็ตาม ตามที่ Mingfeng Hao แห่งมหาวิทยาลัยซินเจียงอธิบายไว้ในปี 2020 การสำรวจเทคโนโลยีการอ่านริมฝีปาก, "การจดจำการกระทำซึ่งเป็นของการจัดหมวดหมู่วิดีโอสามารถจำแนกได้ผ่านภาพเดียว" ดังนั้น “ในขณะที่การอ่านริมฝีปากมักจะต้องดึงคุณสมบัติที่เกี่ยวข้องกับเนื้อหาคำพูดออกจากภาพเดียว และวิเคราะห์ความสัมพันธ์ของเวลาระหว่างลำดับภาพทั้งหมดเพื่อสรุปเนื้อหา” เป็นอุปสรรคที่ต้องใช้ทั้งการประมวลผลภาษาธรรมชาติและความสามารถในการมองเห็นด้วยเครื่อง ที่จะเอาชนะ

ซุปตัวย่อ

วันนี้ การรู้จำเสียงพูดมีสามรสชาติ ขึ้นอยู่กับแหล่งสัญญาณเข้า สิ่งที่เรากำลังพูดถึงในวันนี้อยู่ภายใต้การวิจัย Visual Speech Recognition (VSR) นั่นคือการใช้วิธีการแสดงภาพเพียงอย่างเดียวเพื่อทำความเข้าใจสิ่งที่กำลังถ่ายทอด ตรงกันข้ามมี การรู้จำเสียงอัตโนมัติ (ASR) ซึ่งอาศัยเสียงทั้งหมด เช่น “หวัดดี Siri” และ การรู้จำเสียงและภาพและเสียงอัตโนมัติ (AV-ASR) ซึ่งรวมเอาทั้งสัญญาณเสียงและภาพเข้าในการเดา

“การวิจัยเกี่ยวกับการรู้จำเสียงพูดอัตโนมัติ (ASR) นั้นมีความเป็นผู้ใหญ่มาก และปัจจุบันไม่สามารถจดจำความทันสมัยได้ เมื่อเทียบกับสิ่งที่เป็นไปได้เมื่อการวิจัยเริ่มต้นขึ้น” แคมป์เบลล์-เวสต์กล่าว “Visual Speech Recognition (VSR) ยังอยู่ในช่วงเริ่มต้นของการแสวงหาประโยชน์ และระบบจะเติบโตต่อไป” ไลโอปา แอพ SRAVIซึ่งช่วยให้ผู้ป่วยในโรงพยาบาลสามารถสื่อสารได้โดยไม่คำนึงว่าพวกเขาจะสามารถพูดออกมาได้หรือไม่ ขึ้นอยู่กับวิธีการแบบหลัง “สิ่งนี้สามารถใช้ข้อมูลทั้งสองแบบเพื่อช่วยเอาชนะข้อบกพร่องของอีกรูปแบบหนึ่ง” เขากล่าว “ในอนาคตจะมีระบบที่ใช้สัญญาณเพิ่มเติมเพื่อสนับสนุนความเข้าใจอย่างแน่นอน”

“มีความแตกต่างหลายประการระหว่างการใช้งาน VSR” Campbell-West กล่าวต่อ “จากมุมมองทางเทคนิค สถาปัตยกรรมของการสร้างแบบจำลองนั้นแตกต่างกัน … ปัญหาการเรียนรู้เชิงลึกสามารถเข้าถึงได้จากสองมุมที่แตกต่างกัน อย่างแรกคือมองหาสถาปัตยกรรมที่ดีที่สุด อย่างที่สองคือการใช้ข้อมูลจำนวนมากเพื่อให้ครอบคลุมความผันแปรให้ได้มากที่สุด ทั้งสองวิธีมีความสำคัญและสามารถนำมารวมกันได้”

ในช่วงแรก ๆ ของการวิจัย VSR ชุดข้อมูลเช่น AVLetters ต้องมีการติดฉลากด้วยมือและจัดหมวดหมู่ ซึ่งเป็นข้อจำกัดที่ใช้แรงงานมากซึ่งจำกัดปริมาณข้อมูลที่มีให้สำหรับโมเดลการเรียนรู้ของเครื่องฝึกอบรมอย่างรุนแรง ด้วยเหตุนี้ การวิจัยเบื้องต้นจึงเน้นไปที่พื้นฐานอย่างแท้จริงก่อน — การระบุระดับตัวอักษรและตัวเลข — ก่อนที่จะก้าวไปสู่การระบุระดับคำและวลีในที่สุด โดยที่ระดับประโยคเป็นความล้ำหน้าในปัจจุบันซึ่งพยายามทำความเข้าใจคำพูดของมนุษย์ ในสภาพแวดล้อมและสถานการณ์ที่เป็นธรรมชาติมากขึ้น

ในช่วงไม่กี่ปีมานี้ การเพิ่มขึ้นของเทคนิคการเรียนรู้เชิงลึกขั้นสูง ซึ่งฝึกโมเดลบนอินเทอร์เน็ตโดยพื้นฐานแล้ว ควบคู่ไปกับการขยายสื่อโซเชียลและภาพที่โพสต์ออนไลน์อย่างมหาศาล ทำให้นักวิจัยสามารถสร้างชุดข้อมูลขนาดใหญ่ขึ้นได้ เช่น ประโยคการอ่านริมฝีปากของ Oxford-BBC 2 (LRS2) ซึ่งอิงจากคำพูดนับพันจากรายการต่างๆ ของ BBC LRS3-TED รวบรวม 150,000 ประโยคจากโปรแกรม TED ต่างๆ ในขณะที่ฐานข้อมูล LSVSR (Large-Scale Visual Speech Recognition) ซึ่งเป็นข้อเสนอที่ใหญ่ที่สุดที่มีอยู่ในปัจจุบัน ช่วงเสียง 140,000 ชั่วโมง ด้วยคำพูด 2,934,899 คำพูดและมากกว่า 127,000 คำ

และไม่ใช่แค่ภาษาอังกฤษเท่านั้น: มีชุดข้อมูลที่คล้ายกันสำหรับภาษาต่างๆ เช่น ตี-AVDB-IIซึ่งอิงจากชุดบทกวีจีนหรือ IV2 ฐานข้อมูลภาษาฝรั่งเศสที่ประกอบด้วย 300 คนที่พูด 15 วลีเดียวกัน มีชุดที่คล้ายกันนี้เช่นกันสำหรับแอปพลิเคชันภาษารัสเซีย สเปน และเช็ก

มองไปข้างหน้า

อนาคตของ VSR อาจจบลงได้เหมือนในอดีตของ ASR มาก Campbell-West กล่าว "มีอุปสรรคมากมายสำหรับการนำ VSR ไปใช้งาน เนื่องจาก ASR มีในระหว่างการพัฒนาในช่วงสองสามทศวรรษที่ผ่านมา" ความเป็นส่วนตัวเป็นเรื่องใหญ่แน่นอน แม้ว่าคนรุ่นหลังจะไม่ค่อยถูกขัดขวางในการบันทึกชีวิตของพวกเขาทางออนไลน์ แต่แคมป์เบลล์-เวสต์กล่าวว่า “ตอนนี้ผู้คนต่างตระหนักดีถึงความเป็นส่วนตัวอย่างถูกต้องมากกว่าเมื่อก่อน ผู้คนอาจทนต่อไมโครโฟนในขณะที่ไม่ทนต่อกล้อง”

ไม่ว่า Campbell-West จะยังคงตื่นเต้นกับการใช้งานในอนาคตของ VSR เช่น คำอธิบายภาพอัตโนมัติที่มีความเที่ยงตรงสูง “ฉันนึกภาพระบบคำบรรยายตามเวลาจริงเพื่อให้คุณสามารถรับคำบรรยายสดในแว่นตาของคุณเมื่อพูดกับใครสักคน” แคมป์เบลล์-เวสต์กล่าว “สำหรับผู้ที่มีปัญหาทางการได้ยิน นี่อาจเป็นแอปพลิเคชั่นที่เปลี่ยนชีวิต แต่แม้สำหรับการใช้งานทั่วไปในสภาพแวดล้อมที่มีเสียงดัง สิ่งนี้ก็อาจมีประโยชน์”

“มีบางกรณีที่เสียงรบกวนทำให้ ASR ยากมาก แต่การควบคุมด้วยเสียงนั้นมีประโยชน์ เช่น ในรถยนต์” เขากล่าวต่อ “VSR สามารถช่วยให้ระบบเหล่านี้ดีขึ้นและปลอดภัยยิ่งขึ้นสำหรับผู้ขับขี่และผู้โดยสาร”

ในทางกลับกัน Lee ซึ่งห้องปฏิบัติการที่ UW ได้ทำการวิจัยเทคโนโลยี Brain-Computer Interface อย่างกว้างขวาง มองว่าข้อความที่สวมใส่ได้จะแสดงมากขึ้นว่าเป็นมาตรการ "หยุดชั่วคราว" จนกว่าเทคโนโลยี BCI จะเติบโตเต็มที่ “เราไม่ต้องการขาย BCI ถึงจุดนั้นว่า 'โอเค เราจะทำการสื่อสารระหว่างสมองกับสมองโดยไม่ต้องพูดออกมาดังๆ'” ลีกล่าว “ในทศวรรษหรือประมาณนั้น คุณจะพบว่าสัญญาณชีวภาพถูกนำไปใช้ในเครื่องช่วยฟังอย่างแน่นอน เพียงแค่ [อุปกรณ์] เห็นว่าดวงตาของคุณมองไปทางไหนก็อาจให้ข้อมูลได้ว่าควรเน้นที่จุดใด”

“ฉันลังเลที่จะพูดว่า 'ใช่ เราจะซื้อเครื่องช่วยฟังที่ควบคุมด้วยสมอง'” ลียอมรับ “ฉันคิดว่ามันทำได้ แต่คุณก็รู้ มันต้องใช้เวลา”

ผลิตภัณฑ์ทั้งหมดที่แนะนำโดย Engadget ได้รับการคัดเลือกโดยทีมบรรณาธิการของเรา โดยไม่ขึ้นกับบริษัทแม่ของเรา เรื่องราวของเราบางส่วนรวมถึงลิงค์พันธมิตร หากคุณซื้อบางอย่างผ่านลิงก์ใดลิงก์หนึ่งเหล่านี้ เราอาจได้รับค่าคอมมิชชั่นจากพันธมิตร ราคาทั้งหมดถูกต้องในขณะที่เผยแพร่

แหล่ง