AI sudah lebih baik dalam membaca bibir seperti kita

Thei Tidak Akan Menjadi Tua, sebuah film dokumenter 2018 tentang kehidupan dan aspirasi tentara Inggris dan Selandia Baru yang hidup melalui Perang Dunia I dari yang diakui Lord of the Rings sutradara Peter Jackson, telah memodernisasi rekaman bisu berusia lebih dari seratus tahun melalui pewarnaan dan perekaman audio baru untuk dialog yang sebelumnya tidak ada. Untuk mendapatkan gambaran tentang apa yang dikatakan orang-orang yang ditampilkan dalam rekaman arsip, Jackson menyewa tim pembaca bibir forensik untuk menebak ucapan mereka yang direkam. Kabarnya, "pembaca bibir sangat tepat sehingga mereka bahkan dapat menentukan dialek dan aksen orang yang berbicara."

“Orang-orang ini tidak hidup di dunia yang hitam dan putih, dunia yang sunyi, dan film ini bukan tentang perang; ini tentang pengalaman prajurit berperang, ”kata Jackson kepada Sentinel Harian pada tahun 2018. “Saya ingin penonton melihat, sedekat mungkin, apa yang dilihat tentara, dan bagaimana mereka melihatnya, dan mendengarnya.”

Itu adalah prestasi linguistik yang luar biasa mengingat sebuah studi tahun 2009 menemukan bahwa kebanyakan orang hanya bisa membaca bibir dengan akurasi sekitar 20 persen dan CDC Gangguan Pendengaran pada Anak Panduan Orang Tua memperkirakan bahwa, "pembaca pidato yang baik mungkin hanya dapat melihat 4 hingga 5 kata dalam kalimat 12 kata." Demikian pula, sebuah studi 2011 dari University of Oklahoma hanya melihat akurasi sekitar 10 persen dalam subjek ujinya.

“Setiap individu yang mencapai Skor membaca bibir CUNY dari 30 persen benar dianggap sebagai outlier, memberi mereka skor-T hampir 80 tiga kali standar deviasi dari rata-rata. Skor akurasi pengenalan membaca bibir 45 persen menempatkan seseorang 5 standar deviasi di atas rata-rata, ” studi 2011 menyimpulkan. “Hasil ini mengukur kesulitan yang melekat dalam pengenalan kalimat hanya visual.”

Bagi manusia, membaca bibir sangat mirip dengan memukul di Liga Utama — secara konsisten melakukannya dengan benar bahkan hanya tiga kali dari sepuluh dan Anda akan menjadi salah satu yang terbaik yang pernah memainkan permainan. Untuk sistem pembelajaran mesin modern, membaca bibir lebih seperti bermain Go — hanya putaran demi putaran memukuli karung daging yang menciptakan dan memperbudak Anda — dengan sistem tercanggih saat ini mencapai dengan baik lebih dari 95 persen akurasi kata tingkat kalimat. Dan saat mereka terus meningkat, kita bisa soon lihat hari di mana tugas dari pemrosesan film senyap dan dikte senyap di depan umum hingga identifikasi biometrik ditangani oleh sistem AI.

Konteks Penting

Sekarang, orang akan berpikir bahwa manusia akan lebih baik dalam membaca bibir sekarang mengingat bahwa kita telah secara resmi mempraktikkan teknik ini sejak zaman biarawan Benediktin Spanyol, Pedro Ponce de León, yang dikreditkan dengan merintis ide di awal abad ke-16.

itu patung

Wikipedia / Domain Publik

“Kami biasanya menganggap ucapan sebagai apa yang kami dengar, tetapi bagian ucapan yang dapat didengar hanyalah sebagian saja,” Dr. Fabian Campbell-West, CTO pengembang aplikasi membaca bibir, lipa, kepada Engadget melalui email. “Seperti yang kita rasakan, ucapan seseorang dapat dibagi menjadi unit visual dan pendengaran. Unit visual, yang disebut visem, dilihat sebagai gerakan bibir. Unit yang dapat didengar, yang disebut fonem, terdengar sebagai gelombang suara.”

“Ketika kita berkomunikasi satu sama lain tatap muka sering lebih disukai karena kita sensitif terhadap informasi visual dan pendengaran,” lanjutnya. “Namun, ada kira-kira tiga kali lebih banyak fonem daripada visem. Dengan kata lain, gerakan bibir saja tidak mengandung informasi sebanyak bagian pembicaraan yang dapat didengar.”

“Kebanyakan gerakan membaca bibir, selain bibir dan terkadang lidah dan gigi, bersifat laten dan sulit untuk dijelaskan tanpa konteks,” kata peneliti Universitas Oxford dan pengembang LipNet, Yannis Assael, saat itu. di 2016, mengutip studi Fisher sebelumnya. Ini homofema adalah rahasia untuk Bacaan Bibir BurukKeberhasilan.

Apa yang liar adalah bahwa Membaca Bibir yang Buruk umumnya akan bekerja dalam bahasa lisan apa pun, baik itu aksen nada seperti bahasa Inggris atau yg mempergunakan gaya suara seperti Vietnam. “Bahasa memang membuat perbedaan, terutama yang memiliki suara unik yang tidak umum dalam bahasa lain,” kata Campbell-West. “Setiap bahasa memiliki sintaks dan aturan pengucapan yang akan mempengaruhi bagaimana itu ditafsirkan. Secara garis besar, metode pemahamannya sama.”

“Bahasa nada menarik karena mereka menggunakan kata yang sama dengan perubahan nada (seperti nada musik) yang berbeda untuk menyampaikan makna,” lanjutnya. “Secara intuitif ini akan menghadirkan tantangan untuk membaca bibir, namun penelitian menunjukkan bahwa masih mungkin untuk menafsirkan ucapan dengan cara ini. Sebagian alasannya adalah bahwa mengubah nada membutuhkan perubahan fisiologis yang dapat bermanifestasi secara visual. Membaca bibir juga dilakukan dari waktu ke waktu, sehingga konteks visem, kata, dan frasa sebelumnya dapat membantu pemahaman.”

“Penting dalam hal seberapa baik pengetahuan Anda tentang bahasa karena pada dasarnya Anda membatasi serangkaian ambiguitas yang dapat Anda cari,” Adrian KC Lee, ScD, Profesor dan Ketua Departemen Ilmu Pidato dan Pendengaran, Ilmu Pidato dan Pendengaran di University of Washington, kepada Engadget. “Katakan, 'dingin; dan 'tahan', kan? Jika Anda hanya duduk di depan cermin, Anda tidak akan bisa membedakannya. Jadi dari sudut pandang fisik, itu tidak mungkin, tetapi jika saya memegang sesuatu versus berbicara tentang cuaca, Anda, berdasarkan konteksnya, sudah tahu.”

Selain konteks umum dari konversi yang lebih besar, banyak dari apa yang orang sampaikan ketika mereka berbicara muncul secara non-verbal. “Komunikasi biasanya lebih mudah ketika Anda dapat melihat orang tersebut serta mendengarnya,” kata Campbell-West, “tetapi perkembangan panggilan video baru-baru ini telah menunjukkan kepada kita semua bahwa ini bukan hanya tentang melihat orang itu, ada lebih banyak nuansa. Ada lebih banyak potensi untuk membangun sistem otomatis cerdas untuk memahami komunikasi manusia daripada apa yang saat ini mungkin dilakukan.”

Merindukan Hutan untuk Pepohonan, Secara Linguistik

Sementara pembaca bibir manusia dan mesin memiliki tujuan akhir umum yang sama, tujuan dari proses masing-masing sangat berbeda. Sebagai tim peneliti dari Universitas Sains dan Teknologi Iran berpendapat pada tahun 2021, “Selama beberapa tahun terakhir, beberapa metode telah diusulkan bagi seseorang untuk membaca bibir, tetapi ada perbedaan penting antara metode ini dan metode membaca bibir yang disarankan dalam AI. Tujuan dari metode yang diusulkan untuk membaca bibir oleh mesin adalah untuk mengubah informasi visual menjadi kata-kata… Namun, tujuan utama membaca bibir oleh manusia adalah untuk memahami arti ucapan dan bukan untuk memahami setiap kata yang diucapkan.”

Singkatnya, “manusia pada umumnya malas dan bergantung pada konteks karena kita memiliki banyak pengetahuan sebelumnya,” jelas Lee. Dan disonansi dalam proses itu — linguistik yang setara dengan kehilangan hutan untuk pepohonan — yang menghadirkan tantangan unik untuk tujuan mengotomatisasi pembacaan bibir.

“Kendala utama dalam studi lipreading adalah kurangnya database standar dan praktis,” kata Hao. “Ukuran dan kualitas database menentukan efek pelatihan dari model ini, dan database yang sempurna juga akan mendorong penemuan dan solusi dari masalah yang semakin kompleks dan sulit dalam tugas membaca gerak bibir.” Hambatan lain dapat mencakup faktor lingkungan seperti pencahayaan yang buruk dan shiftlatar belakang yang dapat mengacaukan sistem penglihatan mesin, seperti perbedaan karena warna kulit pembicara, sudut rotasi kepala mereka (yang shifts sudut pandang mulut) dan kehadiran kerutan dan janggut yang mengaburkan.

Seperti yang dicatat Assael, “Mesin membaca gerak bibir itu sulit karena memerlukan ekstraksi fitur spatiotemporal dari video (karena posisi dan gerakan sama-sama penting).” Namun, seperti yang dijelaskan Mingfeng Hao dari Universitas Xinjiang pada tahun 2020 Survei Teknologi Membaca Bibir, “pengenalan tindakan, yang termasuk dalam klasifikasi video, dapat diklasifikasikan melalui satu gambar.” Jadi, “sementara lipreading sering kali perlu mengekstrak fitur yang terkait dengan konten ucapan dari satu gambar dan menganalisis hubungan waktu antara seluruh urutan gambar untuk menyimpulkan konten.” Ini adalah kendala yang membutuhkan kemampuan pemrosesan bahasa alami dan penglihatan mesin. untuk mengatasi.

Sup akronim

Saat ini, pengenalan suara hadir dalam tiga rasa, tergantung pada sumber inputnya. Apa yang kita bicarakan hari ini berada di bawah penelitian Visual Speech Recognition (VSR) — yaitu, hanya menggunakan sarana visual untuk memahami apa yang disampaikan. Sebaliknya, ada Pengenalan Ucapan Otomatis (ASR) yang sepenuhnya mengandalkan audio, yaitu "Hey Siri," dan Pengenalan Ucapan Otomatis Audio-Visual (AV-ASR), yang menggabungkan isyarat audio dan visual ke dalam tebakannya.

“Penelitian tentang pengenalan suara otomatis (ASR) sangat matang dan mutakhir saat ini tidak dapat dikenali dibandingkan dengan apa yang mungkin dilakukan ketika penelitian dimulai,” kata Campbell-West. “Pengenalan ucapan visual (VSR) masih pada tahap eksploitasi yang relatif awal dan sistem akan terus matang.” Liopa aplikasi SRAVI, yang memungkinkan pasien rumah sakit untuk berkomunikasi terlepas dari apakah mereka dapat secara aktif verbalisasi, bergantung pada metodologi yang terakhir. “Ini dapat menggunakan kedua mode informasi untuk membantu mengatasi kekurangan yang lain,” katanya. “Di masa depan pasti akan ada sistem yang menggunakan isyarat tambahan untuk mendukung pemahaman.”

“Ada beberapa perbedaan antara implementasi VSR,” lanjut Campbell-West. “Dari perspektif teknis, arsitektur bagaimana model dibangun berbeda … Masalah pembelajaran mendalam dapat didekati dari dua sudut yang berbeda. Yang pertama adalah mencari arsitektur terbaik, yang kedua menggunakan sejumlah besar data untuk mencakup sebanyak mungkin variasi. Kedua pendekatan itu penting dan dapat digabungkan.”

Pada hari-hari awal penelitian VSR, kumpulan data seperti AVLetter harus diberi label tangan dan dikategorikan, batasan padat karya yang sangat membatasi jumlah data yang tersedia untuk melatih model pembelajaran mesin. Dengan demikian, penelitian awal pertama-tama berfokus pada dasar-dasar absolut — identifikasi tingkat alfabet dan angka — sebelum akhirnya maju ke identifikasi tingkat kata dan frasa, dengan tingkat kalimat menjadi seni terkini yang berupaya memahami ucapan manusia. dalam pengaturan dan situasi yang lebih alami.

Dalam beberapa tahun terakhir, munculnya teknik pembelajaran mendalam yang lebih maju, yang melatih model pada dasarnya di internet pada umumnya, bersama dengan ekspansi besar-besaran media sosial dan visual yang diposting online, telah memungkinkan para peneliti untuk menghasilkan kumpulan data yang jauh lebih besar, seperti Kalimat Membaca Bibir Oxford-BBC 2 (LRS2), yang didasarkan pada ribuan baris lisan dari berbagai program BBC. LRS3-TED mengumpulkan 150,000 kalimat dari berbagai program TED sementara database LSVSR (Large-Scale Visual Speech Recognition), salah satu penawaran terbesar yang ada saat ini 140,000 jam segmen audio dengan 2,934,899 pernyataan pidato dan lebih dari 127,000 kata.

Dan bukan hanya bahasa Inggris: Kumpulan data serupa ada untuk sejumlah bahasa seperti HIT-AVDB-II, yang didasarkan pada kumpulan puisi Cina, atau IV2, database Prancis yang terdiri dari 300 orang yang mengucapkan 15 frasa yang sama. Perangkat serupa juga ada untuk aplikasi berbahasa Rusia, Spanyol, dan Ceko.

Menatap ke Depan

Masa depan VSR bisa sangat mirip dengan masa lalu ASR, kata Campbell-West, “Ada banyak hambatan untuk adopsi VSR, seperti yang terjadi pada ASR selama pengembangannya selama beberapa dekade terakhir.” Privasi adalah hal yang besar, tentu saja. Meskipun generasi muda kurang terhambat dengan mendokumentasikan kehidupan mereka secara online, Campbell-West mengatakan, “orang-orang sekarang lebih sadar akan privasi daripada sebelumnya. Orang-orang mungkin menoleransi mikrofon sementara tidak menoleransi kamera.”

Terlepas dari itu, Campbell-West tetap bersemangat tentang potensi aplikasi VSR di masa depan, seperti teks otomatis dengan ketelitian tinggi. “Saya membayangkan sistem subtitle real-time sehingga Anda bisa mendapatkan subtitle langsung di kacamata Anda saat berbicara dengan seseorang,” kata Campbell-West. “Bagi siapa pun yang memiliki gangguan pendengaran, ini bisa menjadi aplikasi yang mengubah hidup, tetapi bahkan untuk penggunaan umum di lingkungan yang bising, ini bisa berguna.”

“Ada keadaan di mana kebisingan membuat ASR sangat sulit tetapi kontrol suara menguntungkan, seperti di dalam mobil,” lanjutnya. “VSR dapat membantu sistem ini menjadi lebih baik dan lebih aman bagi pengemudi dan penumpang.”

Di sisi lain, Lee, yang labnya di UW telah meneliti teknologi Brain-Computer Interface secara ekstensif, melihat tampilan teks yang dapat dikenakan lebih sebagai ukuran "sementara" sampai teknologi BCI semakin matang. “Kami tidak selalu ingin menjual BCI ke titik di mana, 'Oke, kami akan melakukan komunikasi otak-ke-otak bahkan tanpa berbicara keras,'” kata Lee. “Dalam satu dekade atau lebih, Anda pasti akan menemukan sinyal biologis dimanfaatkan dalam alat bantu dengar. Sesedikit [perangkat] melihat di mana mata Anda melirik mungkin dapat memberikan petunjuk di mana harus fokus mendengarkan.

“Saya ragu untuk benar-benar mengatakan 'oh ya, kita akan mendapatkan alat bantu dengar yang dikendalikan otak,' Lee mengakui. "Saya pikir itu bisa dilakukan, tetapi Anda tahu, itu akan memakan waktu."

Semua produk yang direkomendasikan oleh Engadget dipilih oleh tim editorial kami, terlepas dari perusahaan induk kami. Beberapa cerita kami menyertakan tautan afiliasi. Jika Anda membeli sesuatu melalui salah satu tautan ini, kami dapat memperoleh komisi afiliasi. Semua harga adalah benar pada saat penerbitan.

sumber