AI는 이미 우리가 하는 말을 더 잘 읽습니다.

T이봐 늙지 않을거야, 2018차 세계대전을 겪은 영국군과 뉴질랜드군 병사들의 삶과 열망에 대한 XNUMX년 다큐멘터리 반지의 제왕 Peter Jackson 감독은 이전에는 존재하지 않았던 대화를 위해 채색과 새로운 오디오 녹음을 통해 XNUMX년 이상 된 무성 영상을 현대화했습니다. 기록 영상에 등장하는 사람들이 말하는 내용을 이해하기 위해 잭슨은 녹음된 발언을 추측하기 위해 법의학 립 리더 팀을 고용했습니다. 보도에 의하면, "입술 판독기가 너무 정확해서 말하는 사람들의 사투리와 억양까지 알아낼 수 있었습니다."

“이 녀석들은 흑백의 고요한 세상에 살지 않았고, 이 영화는 전쟁에 관한 것이 아닙니다. 그것은 전쟁에 참전한 군인의 경험에 관한 것입니다.”라고 잭슨이 말했습니다. 일일 파수꾼 “병사들이 무엇을 보고, 어떻게 보고, 들었는지 관객들이 최대한 가깝게 보고 싶었습니다.”

2009년 연구에서 대부분의 사람들이 입술만 읽을 수 있다는 사실을 감안할 때 이는 상당한 언어학적 위업입니다. 약 20% 정확도로 그리고 CDC 어린이 부모 안내서의 청력 상실 "말을 잘하는 독자는 4단어 문장에서 5~12단어만 볼 수 있을 것"이라고 추정합니다. 비슷하게, 오클라호마 대학의 2011년 연구 테스트 대상에서 정확도가 약 10%에 불과했습니다.

"성취한 모든 개인은 CUNY 입술 읽기 점수 30%의 정답은 이상값으로 간주되어 평균에서 표준 편차의 거의 80배인 T-점수를 제공합니다. 입술 읽기 인식 정확도 점수가 45% 정확하면 평균보다 5 표준 편차가 높습니다.” 2011년 연구 결론. "이러한 결과는 시각적 전용 문장 인식의 고유한 어려움을 정량화합니다."

인간에게 입술 읽기는 메이저 리그의 타격과 매우 흡사합니다. XNUMX번 중 XNUMX번이라도 일관되게 맞으면 당신은 최고의 선수가 될 것입니다. 현대 기계 학습 시스템의 경우 입술 읽기는 바둑을 하는 것과 비슷합니다. 95% 이상의 문장 수준 단어 정확도. 그리고 그들이 계속해서 개선됨에 따라 우리는 soon 무성 영화 처리 및 공개적인 무음 받아쓰기에서 생체 인식에 이르기까지 작업이 AI 시스템에 의해 처리되는 날을 참조하십시오.

컨텍스트 문제

이제 우리가 스페인 베네딕도회의 승려인 Pedro Ponce de León 시대부터 공식적으로 이 기술을 연습해 왔다는 점을 감안할 때 지금쯤이면 인간이 입술 읽기를 더 잘할 것이라고 생각할 것입니다. 16세기 초에 아이디어를 개척.

동상이다

위키피디아 / 공개 도메인

입술 읽기 앱 개발자의 CTO인 Fabian Campbell-West 박사는 "우리는 일반적으로 말을 듣는 것으로 생각하지만 가청 부분은 일부일 뿐입니다."라고 말했습니다. 리오파, 이메일을 통해 Engadget에 말했습니다. “우리가 인지할 때 사람의 말은 시각 단위와 청각 단위로 나눌 수 있습니다. 비짐이라고 하는 시각 단위는 입술 움직임으로 간주됩니다. 음소라고 하는 가청 단위는 음파로 들립니다.”

“서로 의사소통을 할 때 우리는 시각 정보와 청각 정보 모두에 민감하기 때문에 종종 면대면을 선호합니다. “그러나 비짐보다 음소가 약 XNUMX배나 많습니다. 다시 말해서 입술의 움직임만으로는 들을 수 있는 말의 일부만큼 많은 정보를 담고 있지 않습니다.”

당시 옥스포드 대학의 연구원이자 LipNet 개발자인 Yannis Assael은 "입술과 때로는 혀와 치아를 제외한 대부분의 입술 읽기 동작은 잠재되어 있고 문맥 없이는 명확하게 하기 어렵습니다."라고 말했습니다. 2016년, Fisher의 초기 연구를 인용합니다. 이것들 동음이의어 의 비밀이다 나쁜 입술 읽기성공

이상한 점은 Bad Lip Reading이 일반적으로 모든 구어에서 작동한다는 것입니다. 피치 액센트 영어나 음조의 베트남 사람처럼. Campbell-West는 “언어는 특히 다른 언어에서는 흔히 볼 수 없는 독특한 소리를 가진 언어로 차이를 만듭니다. “각 언어에는 해석 방식에 영향을 미치는 구문 및 발음 규칙이 있습니다. 넓게 보면 이해하는 방식이 같다”고 말했다.

“성조 언어는 의미를 전달하기 위해 같은 단어를 다른 톤(음조와 같은) 변화와 함께 사용하기 때문에 흥미롭습니다.”라고 그는 계속했습니다. “직관적으로 이것은 입술 읽기에 도전이 될 것이지만 연구에 따르면 여전히 이런 식으로 말을 해석하는 것이 가능합니다. 그 이유 중 일부는 음색을 변경하려면 시각적으로 나타날 수 있는 생리학적 변화가 필요하기 때문입니다. 입술 읽기도 시간이 지남에 따라 수행되므로 이전 비짐, 단어 및 구문의 컨텍스트가 이해에 도움이 될 수 있습니다."

"기본적으로 검색할 수 있는 일련의 모호함을 제한하고 있기 때문에 언어에 대한 지식이 얼마나 좋은가가 중요합니다." Adrian KC Lee, ScD, 워싱턴 대학교 언어 및 청력 과학부 교수 및 학과장"라고 Engadget에 말했습니다. “추워요. 그리고 '잠깐'이죠? 거울 앞에 앉으면 그 차이를 구분할 수 없습니다. 그래서 물리적인 관점에서 보면 불가능하지만, 내가 무언가를 들고 있다면 날씨에 대해 이야기하는 것보다 컨텍스트에 의해 이미 알고 있습니다.”

더 큰 개종이라는 일반적인 맥락 외에도 사람들이 말할 때 전달하는 것의 대부분은 비언어적으로 전달됩니다. Campbell-West는 다음과 같이 말했습니다. “대개 상대방을 보고 들을 수 있을 때 의사 소통이 더 쉬워집니다. 하지만 최근 화상 통화가 급증하면서 사람을 보는 것뿐만 아니라 훨씬 더 많은 뉘앙스가 있음을 알게 되었습니다. 현재 가능한 것보다 인간 커뮤니케이션을 이해하기 위한 지능형 자동화 시스템을 구축할 가능성이 훨씬 더 많습니다.”

언어적으로 나무를 위한 숲을 놓치다

인간과 기계 립 리더의 일반적인 최종 목표는 같지만 개별 프로세스의 목표는 크게 다릅니다. 의 연구원 팀으로 이란 과학기술대학교 2021년 주장은 “지난 몇 년 동안 사람이 입술을 읽을 수 있는 여러 가지 방법이 제안되었지만 이러한 방법과 AI에서 제안하는 입술 읽기 방법에는 중요한 차이점이 있습니다. 기계에 의한 입술 읽기를 위해 제안된 방법의 목적은 시각 정보를 단어로 변환하는 것입니다… 그러나 인간의 입술 읽기의 주요 목적은 말의 모든 단어를 이해하는 것이 아니라 말의 의미를 이해하는 것입니다.”

간단히 말해서 "인간은 일반적으로 게으르고 사전 지식이 많기 때문에 컨텍스트에 의존합니다."라고 Lee는 설명했습니다. 그리고 언어적으로는 숲을 그리워하는 것과 같은 과정의 불협화음이 입술 읽기 자동화라는 목표에 독특한 도전을 제시합니다.

Hao는 “입술 읽기 연구의 주요 장애물은 표준적이고 실용적인 데이터베이스가 없다는 것입니다. "데이터베이스의 크기와 품질은 이 모델의 훈련 효과를 결정하며 완벽한 데이터베이스는 또한 입술 읽기 작업에서 점점 더 복잡하고 어려운 문제의 발견 및 해결을 촉진할 것입니다." 다른 장애물에는 열악한 조명과 같은 환경적 요인이 포함될 수 있습니다. shift머신 비전 시스템을 혼란스럽게 할 수 있는 배경, 화자의 피부색, 머리의 회전 각도( shift입의 시야각)와 주름과 수염의 모호한 존재.

Assael은 "머신 립리딩은 비디오에서 시공간적 특징을 추출해야 하기 때문에 어렵습니다(위치와 모션이 모두 중요하기 때문에)." 그러나 Xinjiang University의 Mingfeng Hao가 2020년대에 설명했듯이 입술 읽기 기술에 대한 설문 조사, “동영상 분류에 속하는 동작 인식은 하나의 이미지로 분류할 수 있습니다.” 따라서 “립리딩은 종종 단일 이미지에서 음성 콘텐츠와 관련된 특징을 추출하고 콘텐츠를 추론하기 위해 전체 이미지 시퀀스 간의 시간 관계를 분석해야 합니다.” 자연어 처리와 머신 비전 기능이 모두 필요한 장애물입니다. 극복하기.

약어 수프

오늘날 음성 인식은 입력 소스에 따라 세 가지 방식으로 제공됩니다. 오늘 우리가 이야기하는 것은 시각적 음성 인식(VSR) 연구에 속합니다. 즉, 시각적 수단만 사용하여 전달되는 내용을 이해합니다. 반대로 있다. 자동 음성 인식 오디오에 전적으로 의존하는 (ASR), 즉 "Hey Siri" 및 시청각 자동 음성 인식 (AV-ASR), 오디오 및 시각적 신호를 추측에 통합합니다.

Campbell-West는 "자동 음성 인식(ASR)에 대한 연구는 매우 성숙했으며 현재의 최첨단 기술은 연구가 시작되었을 때 가능했던 것에 비해 인식할 수 없습니다."라고 말했습니다. "시각 음성 인식(VSR)은 아직 개발 초기 단계에 있으며 시스템은 계속해서 성숙해질 것입니다." 리오파 스라비 앱, 병원 환자가 적극적으로 언어화할 수 있는지 여부에 관계 없이 의사 소통할 수 있도록 하는 는 후자의 방법론에 의존 합니다. "이는 두 가지 정보 모드를 모두 사용하여 다른 쪽의 결점을 극복하는 데 도움이 될 수 있습니다."라고 그는 말했습니다. "미래에는 이해를 지원하기 위해 추가 신호를 사용하는 시스템이 절대적으로 있을 것입니다."

Campbell-West는 “VSR 구현 간에는 몇 가지 차이점이 있습니다. “기술적 관점에서 모델이 구축되는 방식의 아키텍처가 다릅니다. 딥 러닝 문제는 두 가지 다른 각도에서 접근할 수 있습니다. 첫 번째는 가능한 최고의 아키텍처를 찾는 것이고, 두 번째는 가능한 한 많은 변화를 다루기 위해 많은 양의 데이터를 사용하는 것입니다. 두 접근 방식 모두 중요하며 결합할 수 있습니다.”

VSR 연구 초기에는 다음과 같은 데이터세트가 있었습니다. AV레터 기계 학습 모델을 훈련하는 데 사용할 수 있는 데이터의 양을 심각하게 제한하는 노동 집약적인 한계로 손으로 레이블을 지정하고 분류해야 했습니다. 따라서 초기 연구는 알파벳과 숫자 수준의 식별과 같은 절대적인 기본 사항에 먼저 초점을 맞춘 후에 결국 단어 및 구 수준의 식별로 발전했으며 문장 수준은 인간의 말을 이해하려는 오늘날의 최첨단 기술입니다. 보다 자연스러운 환경과 상황에서.

최근 몇 년 동안 기본적으로 인터넷에서 모델을 훈련시키는 보다 발전된 딥 러닝 기술의 등장과 온라인에 게시된 소셜 및 비주얼 미디어의 대규모 확장으로 연구자들은 다음과 같은 훨씬 더 큰 데이터 세트를 생성할 수 있었습니다. Oxford-BBC 입술 읽기 문장 2 (LRS2), 다양한 BBC 프로그램의 수천 개의 음성 대사를 기반으로 합니다. LRS3-TED는 다양한 TED 프로그램에서 150,000개의 문장을 수집했으며 현재 존재하는 가장 큰 LSVSR(Large-Scale Visual Speech Recognition) 데이터베이스를 제공합니다. 140,000시간의 오디오 세그먼트 2,934,899개의 연설문과 127,000개 이상의 단어로 구성되어 있습니다.

영어뿐만이 아닙니다. 다음과 같은 여러 언어에 대해 유사한 데이터 세트가 존재합니다. HIT-AVDB-II, 한 세트의 중국어 시 또는 2명의 사람들이 동일한 300개의 구절을 말하는 것으로 구성된 프랑스어 데이터베이스인 IV15를 기반으로 합니다. 러시아어, 스페인어 및 체코어 응용 프로그램에도 유사한 세트가 있습니다.

앞을

Campbell-West는 "VSR의 미래는 ASR의 과거와 매우 흡사할 것"이라고 말했습니다. 프라이버시는 물론 큰 것입니다. 젊은 세대는 자신의 삶을 온라인으로 문서화하는 데 덜 제약을 받지만 “사람들은 이전보다 개인 정보 보호에 대해 더 잘 알고 있습니다. 사람들은 카메라를 용납하지 않고 마이크를 용인할 수 있습니다.”

그럼에도 불구하고 Campbell-West는 충실도가 높은 자동 캡션과 같은 VSR의 잠재적인 미래 응용 프로그램에 대해 여전히 기대하고 있습니다. Campbell-West는 "실시간 자막 시스템을 구상하여 누군가와 이야기할 때 안경에 실시간 자막을 제공할 수 있습니다."라고 말했습니다. "난청이 있는 사람에게 이것은 삶을 바꾸는 응용 프로그램이 될 수 있지만 시끄러운 환경에서 일반적으로 사용하는 경우에도 유용할 수 있습니다."

그는 “소음이 ASR을 어렵게 만드는 상황이 있지만 자동차와 같이 음성 제어가 유리한 상황이 있다”고 말했다. "VSR은 이러한 시스템이 운전자와 승객을 위해 더 좋고 더 안전해지도록 도울 수 있습니다."

반면에 UW의 연구실에서 뇌-컴퓨터 인터페이스 기술을 광범위하게 연구한 Lee는 웨어러블 텍스트 디스플레이를 BCI 기술이 더 성숙할 때까지 "잠시 임시방편" 조치로 보고 있습니다. Lee는 "우리는 '좋아, 큰 소리로 말하지 않고도 두뇌 대 두뇌 커뮤니케이션을 할 것입니다'라고 할 정도로 BCI를 팔고 싶지는 않습니다."라고 말했습니다. “XNUMX년 정도 후면 보청기에서 생물학적 신호가 활용되고 있음을 알게 될 것입니다. 당신의 눈이 어디를 쳐다보는지 [장치]가 보는 것만으로도 청취에 집중할 위치에 대한 단서를 제공할 수 있습니다.”

Lee는 “나는 정말로 '오, 우리는 뇌로 제어되는 보청기를 갖게 될 것입니다.'라고 말하기를 주저합니다. "나는 그것이 가능하다고 생각하지만, 시간이 걸릴 것입니다."

Engadget에서 추천하는 모든 제품은 모회사와 무관한 편집 팀에서 선택합니다. 일부 스토리에는 제휴사 링크가 포함되어 있습니다. 이 링크 중 하나를 통해 무언가를 구매하면 제휴 수수료를 받을 수 있습니다. 모든 가격은 게시 당시에 정확합니다.

출처