AI đã đọc môi tốt hơn chúng ta

TNày Sẽ Không Già, một bộ phim tài liệu năm 2018 về cuộc sống và khát vọng của những người lính Anh và New Zealand sống qua Thế chiến thứ nhất từ ​​được ca ngợi Lord of the Rings đạo diễn Peter Jackson, đã có những thước phim câm hàng trăm năm tuổi được hiện đại hóa thông qua cả quá trình thuộc địa hóa và ghi âm thanh mới cho các đoạn hội thoại chưa từng tồn tại trước đây. Để có được ý tưởng về những gì những người nổi bật trong đoạn phim lưu trữ nói, Jackson đã thuê một nhóm người đọc môi pháp y để đoán những lời nói được ghi lại của họ. Được báo cáo, "Những người đọc môi rất chính xác, họ thậm chí có thể xác định phương ngữ và giọng của những người nói."

“Những khối hoa này không sống trong một thế giới đen trắng, im lặng, và bộ phim này không nói về chiến tranh; đó là kinh nghiệm của người lính chiến đấu trong chiến tranh, ”Jackson nói với Sentinel hàng ngày vào năm 2018. “Tôi muốn khán giả xem càng gần càng tốt những gì những người lính đã nhìn thấy và cách họ nhìn thấy và nghe thấy nó.”

Đó là một kỳ tích về ngôn ngữ khi một nghiên cứu năm 2009 cho thấy hầu hết mọi người chỉ có thể đọc môi với độ chính xác khoảng 20 phần trăm và CDC's Hướng dẫn dành cho cha mẹ về khiếm thính ở trẻ em ước tính rằng, “một người đọc bài phát biểu giỏi có thể chỉ nhìn thấy 4 đến 5 từ trong một câu 12 từ”. Tương tự, một nghiên cứu năm 2011 của Đại học Oklahoma chỉ thấy độ chính xác khoảng 10 phần trăm trong các đối tượng thử nghiệm của nó.

“Bất kỳ cá nhân nào đạt được Điểm đọc nhép của CUNY đúng 30 phần trăm được coi là ngoại lệ, mang lại cho họ điểm T gần 80 gấp ba lần độ lệch chuẩn so với giá trị trung bình. Điểm chính xác của nhận dạng đọc môi là 45 phần trăm chính xác đặt một cá nhân 5 độ lệch chuẩn cao hơn mức trung bình,” nghiên cứu năm 2011 kết luận. "Những kết quả này xác định độ khó cố hữu trong việc nhận dạng câu chỉ bằng hình ảnh."

Đối với con người, đọc nhép cũng giống như đánh bóng trong các Giải đấu lớn - hãy liên tục thực hiện đúng dù chỉ ba lần trong số mười lần và bạn sẽ là một trong những người giỏi nhất từng chơi trò chơi. Đối với các hệ thống máy học hiện đại, đọc nhép giống như chơi cờ vây - chỉ hết vòng này đến vòng khác đánh bại bạn trên những chiếc bao đã tạo ra và bắt bạn làm nô lệ - với các hệ thống hiện đại ngày nay đang đạt được hiệu quả tốt độ chính xác từ cấp độ câu hơn 95%. Và khi họ tiếp tục cải thiện, chúng tôi có thể soon xem một ngày mà các tác vụ từ xử lý phim im lặng và đọc chính tả im lặng ở nơi công cộng đến nhận dạng sinh trắc học đều được xử lý bởi hệ thống AI.

Các vấn đề về ngữ cảnh

Bây giờ, người ta sẽ nghĩ rằng con người sẽ giỏi hơn trong việc đọc nhép môi bởi bây giờ chúng ta đã chính thức thực hành kỹ thuật này kể từ thời của tu sĩ Benedictine người Tây Ban Nha, Pedro Ponce de León, người được cho là tiên phong cho ý tưởng vào đầu thế kỷ 16.

đó là một bức tượng

Wikipedia / Miền công cộng

Tiến sĩ Fabian Campbell-West, CTO của nhà phát triển ứng dụng đọc môi nói: “Chúng ta thường nghĩ về lời nói như những gì chúng ta nghe thấy, nhưng phần nghe được của lời nói chỉ là một phần của nó. Liopa, nói với Engadget qua email. “Theo chúng tôi nhận thức, lời nói của một người có thể được chia thành các đơn vị thị giác và thính giác. Các đơn vị thị giác, được gọi là visemes, được xem như chuyển động của môi. Các đơn vị nghe được, được gọi là âm vị, được nghe như sóng âm thanh ”.

“Khi chúng tôi giao tiếp trực tiếp với nhau thường được ưu tiên hơn vì chúng tôi nhạy cảm với cả thông tin thị giác và thính giác,” anh tiếp tục. “Tuy nhiên, số âm vị nhiều gấp ba lần số âm vị. Nói cách khác, chỉ riêng cử động môi không chứa nhiều thông tin như phần nghe được của lời nói ”.

“Hầu hết các hành động đọc nhép, ngoài môi và đôi khi là lưỡi và răng, đều tiềm ẩn và khó phân biệt nếu không có ngữ cảnh,” nhà nghiên cứu của Đại học Oxford và nhà phát triển LipNet, Yannis Assael, lưu ý trong 2016, trích dẫn các nghiên cứu trước đó của Fisher. Này đồng âm là bí mật cho Đọc môi xấuthành công.

Điều hoang dã là Bad Lip Reading thường sẽ hoạt động trong bất kỳ ngôn ngữ nói nào, cho dù đó là cao độ như tiếng anh hoặc thuộc về âm điệu như tiếng việt. Campbell-West nói: “Ngôn ngữ tạo ra sự khác biệt, đặc biệt là những ngôn ngữ có âm thanh độc đáo không phổ biến ở các ngôn ngữ khác. “Mỗi ngôn ngữ có cú pháp và quy tắc phát âm sẽ ảnh hưởng đến cách nó được diễn giải. Nói rộng ra, các phương pháp để hiểu là như nhau ”.

“Các ngôn ngữ theo tông màu rất thú vị bởi vì chúng sử dụng cùng một từ với những thay đổi về âm điệu khác nhau (như âm vực của âm nhạc) để truyền đạt ý nghĩa,” ông tiếp tục. “Về mặt trực giác, điều này sẽ tạo ra một thách thức đối với việc đọc môi, tuy nhiên, nghiên cứu cho thấy rằng vẫn có thể diễn giải lời nói theo cách này. Một phần lý do là sự thay đổi giai điệu đòi hỏi những thay đổi sinh lý có thể biểu hiện trực quan. Việc đọc môi cũng được thực hiện theo thời gian, vì vậy ngữ cảnh của các hình ảnh, từ và cụm từ trước đó có thể giúp hiểu được ”.

“Điều quan trọng là kiến ​​thức về ngôn ngữ của bạn tốt đến mức nào vì về cơ bản bạn đang hạn chế tập hợp những điều mơ hồ mà bạn có thể tìm kiếm,” Adrian KC Lee, ScD, Giáo sư và Chủ nhiệm Khoa Khoa học Nghe và Nói, Khoa học Nghe và Nói tại Đại học Washington, nói với Engadget. “Nói, 'lạnh lùng; và 'giữ' phải không? Nếu bạn chỉ ngồi trước gương, bạn không thể thực sự phân biệt được. Vì vậy, từ quan điểm vật lý, điều đó là không thể, nhưng nếu tôi đang nắm giữ điều gì đó thay vì nói về thời tiết, bạn, theo bối cảnh, đã biết. "

Ngoài bối cảnh chung của sự chuyển đổi lớn hơn, phần lớn những gì mọi người truyền đạt khi họ nói đều không phải bằng lời nói. “Giao tiếp thường dễ dàng hơn khi bạn có thể nhìn thấy người đó cũng như nghe thấy họ,” Campbell-West nói, “nhưng sự gia tăng gần đây của các cuộc gọi điện video đã cho chúng ta thấy rằng không chỉ là nhìn thấy người đó mà còn có nhiều sắc thái hơn. Có rất nhiều tiềm năng để xây dựng các hệ thống tự động thông minh để hiểu giao tiếp của con người hơn những gì hiện có thể. ”

Thiếu rừng cho cây, về mặt ngôn ngữ

Trong khi đầu đọc môi của con người và máy có cùng mục tiêu cuối cùng, mục đích của các quy trình riêng lẻ của chúng khác nhau rất nhiều. Với tư cách là một nhóm các nhà nghiên cứu từ Đại học Khoa học và Công nghệ Iran lập luận vào năm 2021, “Trong những năm qua, một số phương pháp đã được đề xuất để một người đọc môi, nhưng có một sự khác biệt quan trọng giữa các phương pháp này và các phương pháp đọc môi được đề xuất trong AI. Mục đích của các phương pháp máy đọc môi được đề xuất là chuyển đổi thông tin hình ảnh thành từ ngữ… Tuy nhiên, mục đích chính của việc đọc môi của con người là để hiểu ý nghĩa của lời nói chứ không phải để hiểu từng từ một trong lời nói.”

Tóm lại, “con người nói chung là lười biếng và dựa vào ngữ cảnh bởi vì chúng ta có rất nhiều kiến ​​thức từ trước,” Lee giải thích. Và chính sự không hòa hợp đó trong quá trình - tương đương về mặt ngôn ngữ của việc thiếu rừng cho cây - tạo ra một thách thức độc đáo đối với mục tiêu tự động hóa đọc môi.

Ông Hảo nói: “Một trở ngại lớn trong việc nghiên cứu đọc nhép là thiếu cơ sở dữ liệu chuẩn và thực tế. “Kích thước và chất lượng của cơ sở dữ liệu quyết định hiệu quả đào tạo của mô hình này, và một cơ sở dữ liệu hoàn hảo cũng sẽ thúc đẩy việc khám phá và giải quyết các vấn đề ngày càng phức tạp và khó hơn trong các nhiệm vụ đọc nhép.” Các trở ngại khác có thể bao gồm các yếu tố môi trường như ánh sáng kém và shifthình nền có thể làm nhiễu hệ thống thị giác máy, cũng như có thể có sự khác biệt do tông màu da của người nói, góc quay của đầu họ (mà shiftlà góc nhìn của miệng) và sự hiện diện bị che khuất của các nếp nhăn và râu.

Như Assael lưu ý, "Việc đọc nhép bằng máy rất khó vì nó yêu cầu trích xuất các đặc điểm không gian từ video (vì cả vị trí và chuyển động đều quan trọng)." Tuy nhiên, như Mingfeng Hao của Đại học Tân Cương giải thích vào năm 2020 Khảo sát về công nghệ đọc môi, "Nhận dạng hành động, thuộc phân loại video, có thể được phân loại thông qua một hình ảnh." Vì vậy, "trong khi đọc nhép thường cần phải trích xuất các đặc điểm liên quan đến nội dung lời nói từ một hình ảnh duy nhất và phân tích mối quan hệ thời gian giữa toàn bộ chuỗi hình ảnh để suy ra nội dung." Đó là một trở ngại đòi hỏi cả khả năng xử lý ngôn ngữ tự nhiên và thị giác máy vượt qua.

Súp viết tắt

Ngày nay, nhận dạng giọng nói có ba loại, tùy thuộc vào nguồn đầu vào. Những gì chúng ta đang nói hôm nay thuộc nghiên cứu Nhận dạng giọng nói trực quan (VSR) - nghĩa là chỉ sử dụng các phương tiện trực quan để hiểu những gì đang được truyền đạt. Ngược lại, có Nhận dạng giọng nói tự động (ASR) hoàn toàn dựa vào âm thanh, tức là “Hey Siri” và Nhận dạng giọng nói tự động bằng âm thanh-hình ảnh (AV-ASR), kết hợp cả tín hiệu âm thanh và hình ảnh vào các dự đoán của nó.

Campbell-West cho biết: “Nghiên cứu về nhận dạng giọng nói tự động (ASR) đã rất hoàn thiện và hiện tại không thể nhận ra được tình trạng tiên tiến nhất so với những gì có thể xảy ra khi nghiên cứu bắt đầu. “Nhận dạng giọng nói trực quan (VSR) vẫn đang ở giai đoạn khai thác tương đối sớm và các hệ thống sẽ tiếp tục hoàn thiện.” Của Liopa Ứng dụng SRAVI, cho phép bệnh nhân trong bệnh viện giao tiếp bất kể họ có thể chủ động nói bằng lời hay không, dựa trên phương pháp luận thứ hai. “Điều này có thể sử dụng cả hai phương thức thông tin để giúp khắc phục những khiếm khuyết của phương thức kia,” ông nói. "Trong tương lai sẽ hoàn toàn có các hệ thống sử dụng các dấu hiệu bổ sung để hỗ trợ sự hiểu biết."

“Có một số khác biệt giữa việc triển khai VSR,” Campbell-West tiếp tục. “Từ góc độ kỹ thuật, kiến ​​trúc của cách các mô hình được xây dựng là khác nhau… Các vấn đề học sâu có thể được tiếp cận từ hai góc độ khác nhau. Đầu tiên là tìm kiếm kiến ​​trúc tốt nhất có thể, thứ hai là sử dụng một lượng lớn dữ liệu để bao gồm nhiều biến thể nhất có thể. Cả hai cách tiếp cận đều quan trọng và có thể được kết hợp với nhau ”.

Trong những ngày đầu của nghiên cứu VSR, các bộ dữ liệu như AVThư phải được gắn nhãn và phân loại bằng tay, một hạn chế đòi hỏi nhiều lao động đã hạn chế nghiêm trọng lượng dữ liệu có sẵn để đào tạo các mô hình học máy. Do đó, nghiên cứu ban đầu tập trung đầu tiên vào những điều cơ bản tuyệt đối - nhận dạng bảng chữ cái và cấp số - trước khi cuối cùng tiến tới nhận dạng cấp độ từ và cụm từ, với cấp độ câu là công nghệ tiên tiến hiện nay nhằm tìm cách hiểu giọng nói của con người. trong các bối cảnh và tình huống tự nhiên hơn.

Trong những năm gần đây, sự gia tăng của các kỹ thuật học sâu tiên tiến hơn, đào tạo các mô hình về cơ bản trên internet nói chung, cùng với sự mở rộng lớn của các phương tiện truyền thông xã hội và hình ảnh được đăng trực tuyến, đã cho phép các nhà nghiên cứu tạo ra các bộ dữ liệu lớn hơn nhiều, như Oxford-BBC Lip Reading Câu 2 (LRS2), dựa trên hàng nghìn câu thoại từ các chương trình khác nhau của BBC. LRS3-TED thu thập được 150,000 câu từ các chương trình TED khác nhau trong khi cơ sở dữ liệu LSVSR (Nhận dạng giọng nói hình ảnh quy mô lớn), một trong những cơ sở dữ liệu lớn nhất hiện đang tồn tại. 140,000 giờ phân đoạn âm thanh với 2,934,899 bài phát biểu và hơn 127,000 từ.

Và nó không chỉ là tiếng Anh: Các bộ dữ liệu tương tự tồn tại cho một số ngôn ngữ như HIT-AVDB-II, dựa trên một tập thơ Trung Quốc, hay IV2, một cơ sở dữ liệu tiếng Pháp gồm 300 người nói cùng 15 cụm từ. Các bộ tương tự cũng tồn tại cho các ứng dụng tiếng Nga, tiếng Tây Ban Nha và tiếng Séc.

Nhìn về phía trước

Campbell-West nói: “Tương lai của VSR có thể trở nên giống quá khứ của ASR,“ Có rất nhiều rào cản đối với việc áp dụng VSR, như đã có đối với ASR trong quá trình phát triển của nó trong vài thập kỷ qua. ” Tất nhiên, quyền riêng tư là một vấn đề lớn. Mặc dù các thế hệ trẻ ít bị ức chế hơn với việc ghi lại cuộc sống của họ trên mạng, Campbell-West nói, “mọi người nhận thức đúng đắn hơn về quyền riêng tư bây giờ so với trước đây. Mọi người có thể chấp nhận micrô trong khi không chấp nhận máy ảnh. "

Dù vậy, Campbell-West vẫn hào hứng với các ứng dụng tiềm năng trong tương lai của VSR, chẳng hạn như phụ đề tự động có độ trung thực cao. Campbell-West cho biết: “Tôi dự kiến ​​một hệ thống phụ đề thời gian thực để bạn có thể nhận được phụ đề trực tiếp trong kính của mình khi nói chuyện với ai đó. "Đối với bất kỳ ai khiếm thính, đây có thể là một ứng dụng thay đổi cuộc sống, nhưng ngay cả khi sử dụng chung trong môi trường ồn ào, điều này cũng có thể hữu ích."

“Có những trường hợp tiếng ồn làm cho ASR rất khó khăn nhưng điều khiển bằng giọng nói lại có lợi, chẳng hạn như trong ô tô,” anh tiếp tục. “VSR có thể giúp các hệ thống này trở nên tốt hơn và an toàn hơn cho người lái và hành khách.”

Mặt khác, Lee, người có phòng thí nghiệm tại UW đã nghiên cứu sâu rộng các công nghệ Giao diện Máy tính-Não bộ, coi việc hiển thị văn bản có thể đeo được nhiều hơn như một biện pháp “chốt chặn” cho đến khi công nghệ BCI phát triển hơn nữa. “Chúng tôi không nhất thiết muốn bán BCI đến mức,“ Được rồi, chúng tôi sẽ thực hiện giao tiếp giữa não với não mà không cần nói to, ”Lee nói. “Trong một thập kỷ hoặc lâu hơn, chắc chắn bạn sẽ thấy các tín hiệu sinh học được tận dụng trong máy trợ thính. Chỉ cần [thiết bị] nhìn thấy nơi mắt bạn liếc qua có thể giúp thiết bị biết được vị trí cần tập trung lắng nghe. "

“Tôi ngần ngại khi thực sự nói 'ồ đúng rồi, chúng ta sẽ có máy trợ thính điều khiển bằng não bộ,' Lee thừa nhận. “Tôi nghĩ điều đó có thể làm được, nhưng bạn biết đấy, sẽ mất thời gian.”

Tất cả các sản phẩm do Engadget đề xuất đều được lựa chọn bởi nhóm biên tập của chúng tôi, độc lập với công ty mẹ của chúng tôi. Một số câu chuyện của chúng tôi bao gồm các liên kết liên kết. Nếu bạn mua thứ gì đó thông qua một trong những liên kết này, chúng tôi có thể kiếm được hoa hồng liên kết. Tất cả giá đều chính xác tại thời điểm xuất bản.

nguồn