AI はすでに私たちよりも読唇術が優れています

Tねぇ、シャル・ノット・グロウ・オールド、第一次世界大戦を生き抜いた英国とニュージーランドの兵士の生活と願望についての2018年のドキュメンタリー ロード·オブ·ザ·リング ピーター・ジャクソン監督は、XNUMX 年以上前の無声映像を、カラー化と、以前は存在しなかったダイアログの新しいオーディオの録音の両方によって近代化しました。 アーカイブ映像に登場する人々が何を言っているのかを理解するために、ジャクソンは法医学のリップ リーダーのチームを雇って、記録された発話を推測しました。 報告された、「リップ リーダーは非常に正確で、話す人々の方言やアクセントを判別することさえできました。」

「これらの野郎どもは白黒の静かな世界に住んでいたわけではなく、この映画は戦争に関するものではありません。 それは戦争を戦った兵士の経験についてです」とジャクソンは言いました 毎日のセンチネル 「聴衆には、兵士たちが何を見、どのように見て、どのように聞いたかを、できるだけ近くで見てもらいたかったのです。」

2009 年の研究でほとんどの人が唇しか読めないことが判明したことを考えると、これは言語学的偉業です。 約20%の精度で CDCの 子供の難聴 親のためのガイド は、「優れたスピーチ リーダーは、4 語の文章で 5 ~ 12 語しか理解できない可能性がある」と推定しています。 同様に、 オクラホマ大学による 2011 年の研究 被験者の精度は約 10% しかありませんでした。

「何かを成し遂げた個人は CUNY読唇スコア 30% 正解は外れ値と見なされ、平均値からの標準偏差の 80 倍近くの T スコアが得られます。 読唇術の認識精度スコアが 45% 正しい場合、個々の標準偏差は平均値より 5 標準偏差高くなります。」 2011年の研究は結論付けました. 「これらの結果は、視覚のみの文章認識に固有の難しさを数値化しています。」

人間にとって、読唇術はメジャー リーグのバッティングによく似ています。XNUMX 回中 XNUMX 回でも一貫して正しくできれば、史上最高の選手になることができます。 現代の機械学習システムにとって、読唇術は囲碁のようなものです — あなたを作り出し奴隷にした肉袋を次々と打ち負かす — 今日の最先端のシステムはうまく機能しています 95% 以上の文レベルの単語精度. そして、彼らが改善し続けるにつれて、私たちは soon サイレント映画の処理や公共の場でのサイレントディクテーションから生体認証までのタスクが AI システムによって処理される日を見てください。

コンテキストの問題

スペインのベネディクト会の修道士、ペドロ・ポンセ・デ・レオンが 16世紀初頭のアイデアの先駆者.

それは彫像です

ウィキペディア/パブリックドメイン

「私たちは通常、スピーチを聞いたものと考えていますが、スピーチの可聴部分はその一部にすぎません」と、読唇アプリ開発者の CTO である Fabian Campbell-West 博士は、 リオパ、電子メールで Engadget に語った。 「私たちが認識しているように、人の発話は視覚と聴覚の単位に分けることができます。 口形素と呼ばれる視覚単位は、唇の動きとして見られます。 音素と呼ばれる可聴単位は、音波として聞こえます。」

「私たちは視覚情報と聴覚情報の両方に敏感であるため、お互いに顔を合わせてコミュニケーションをとることが好まれることがよくあります」と彼は続けました。 「しかし、音素は口形素の約 XNUMX 倍あります。 つまり、唇の動きだけでは、音声の可聴部分ほど多くの情報が含まれていません。」

オックスフォード大学の当時の研究者でリップネット開発者のヤニス・アサール氏は、「ほとんどの読唇行動は、唇、時には舌と歯以外にも潜在的であり、文脈なしに明確にすることは困難です」と述べています。 in 2016、フィッシャーの以前の研究を引用します。 これらは ホモフェム の秘密です 悪い唇の読書の成功。

ワイルドなことに、Bad Lip Reading は一般的にどの言語でも機能します。 ピッチアクセント 英語のように、または 色調の ベトナム人みたい。 「言語、特に他の言語では一般的ではない独特の音を持つ言語は違いを生みます」と Campbell-West 氏は言います。 「各言語には、解釈方法に影響を与える構文と発音の規則があります。 大まかに言えば、理解するための方法は同じです。」

「声調言語は、意味を伝えるために同じ単語を異なる声調 (音楽のピッチなど) で使用するため、興味深いものです」と彼は続けました。 「直観的には、これは読唇術の課題となりますが、研究によると、この方法でスピーチを解釈することはまだ可能です. その理由の一部は、トーンを変更するには、視覚的に現れる生理的変化が必要だからです。 読唇術も時間の経過とともに行われるため、以前の口形素、単語、フレーズのコンテキストが理解に役立ちます。」

「検索できるあいまいさのセットを基本的に制限しているため、言語の知識がどれだけあるかという点で重要です」と Adrian KC Lee, ScD, ワシントン大学の音声および聴覚科学の音声および聴覚科学部門の教授および議長、エンガジェットに語った。 「寒い」と言ってください。 と「ホールド」ですよね? 鏡の前に座っているだけでは、違いはわかりません。 ですから、物理的な観点からは不可能ですが、もし私が何かを持っているのではなく、天気について話しているのであれば、文脈から、あなたはすでに知っています。」

より大きな変換の一般的なコンテキストに加えて、人々が話すときに伝えることの多くは、非言語的に伝えられます。 キャンベルウェスト氏は、「コミュニケーションは、相手の声を聞くだけでなく、見ることもできる方が簡単です」と述べています。 人間のコミュニケーションを理解するためのインテリジェントな自動システムを構築する可能性は、現在可能なものよりもはるかに多くあります。」

言語的に、木には森が欠けている

人間と機械の読唇術は、一般的な最終目標は同じですが、個々のプロセスの目標は大きく異なります。 からの研究者チームとして イラン科学技術大学 2021年に、「過去数年にわたって、人が読唇術を行うためのいくつかの方法が提案されてきましたが、これらの方法とAIで提案されている読唇法との間には重要な違いがあります. 機械による読唇術の提案された方法の目的は、視覚情報を言葉に変換することです…しかし、人間による読唇術の主な目的は、スピーチの意味を理解することであり、スピーチのすべての単語を理解することではありません。」

要するに、「人間は一般的に怠け者であり、多くの事前知識を持っているため、コンテキストに依存しています」と Lee 氏は説明します。 読唇術を自動化するという目標に対して、このような独特の課題を突きつけているのは、プロセス中の不協和音です。これは、言語的には、木を見て森を見失うようなものです。

「読唇術の研究における大きな障害は、標準的で実用的なデータベースがないことです」と Hao 氏は述べています。 「データベースのサイズと品質によって、このモデルのトレーニング効果が決まります。完全なデータベースは、読唇術タスクにおけるますます複雑で困難な問題の発見と解決も促進します。」 その他の障害には、照明の不足などの環境要因が含まれる場合があります。 shiftマシン ビジョン システムを混乱させる可能性のある背景や、話者の肌の色、頭の回転角度 ( shift口の角度) と、目立たないしわやあごひげの存在。

Assael 氏は次のように述べています。 しかし、2020年代に新疆大学のMingfeng Hao氏が説明するように 読唇技術に関する調査、「ビデオ分類に属する行動認識は、単一の画像で分類できます。」 そのため、「読唇術では、多くの場合、単一の画像から発話内容に関連する特徴を抽出し、一連の画像全体の時間関係を分析して内容を推測する必要があります。」これは、自然言語処理とマシン ビジョン機能の両方を必要とする障害です。克服するために。

頭字語スープ

現在、音声認識には、入力ソースに応じて XNUMX つの種類があります。 今日私たちが話していることは、Visual Speech Recognition (VSR) の研究に当てはまります。つまり、視覚的な手段のみを使用して、伝えられている内容を理解することです。 逆に、あります 自動音声認識 (ASR) 音声に完全に依存するもの、つまり「Hey Siri」、および オーディオビジュアル自動音声認識 (AV-ASR) は、音声と視覚の両方の手がかりを推測に組み込みます。

「自動音声認識 (ASR) の研究は非常に成熟しており、現在の最先端技術は、研究が開始されたときに可能だったものと比較して認識できません」と Campbell-West 氏は述べています。 「視覚音声認識 (VSR) はまだ悪用の比較的初期の段階にあり、システムは成熟し続けるでしょう。」 リオパズ スラビアプリ、積極的に言葉を発することができるかどうかに関係なく、病院の患者がコミュニケーションできるようにする方法は、後者の方法論に依存しています。 「これにより、両方のモードの情報を使用して、他方の欠点を克服することができます」と彼は言いました。 「将来的には、理解をサポートするために追加の手がかりを使用するシステムが絶対に登場するでしょう。」

「VSR の実装にはいくつかの違いがあります」と Campbell-West 氏は続けます。 「技術的な観点から見ると、モデルの構築方法のアーキテクチャは異なります…ディープラーニングの問題には、XNUMX つの異なる角度からアプローチできます。 XNUMX つ目は可能な限り最良のアーキテクチャを探すことであり、XNUMX つ目は大量のデータを使用して可能な限り多くのバリエーションをカバーすることです。 どちらのアプローチも重要であり、組み合わせることができます。」

VSR 研究の初期には、次のようなデータセット AVレターズ これは、機械学習モデルのトレーニングに使用できるデータの量を大幅に制限する労働集約的な制限でした。 そのため、初期の研究では、最初にアルファベットと数字レベルの識別という絶対的な基本に焦点を当て、最終的には単語および句レベルの識別に進み、文レベルは人間の音声を理解しようとする今日の最先端技術です。より自然な設定や状況で。

近年、インターネット上でモデルを訓練するより高度な深層学習技術の台頭と、オンラインで投稿されたソーシャル メディアやビジュアル メディアの大規模な拡大により、研究者はより大きなデータセットを生成できるようになりました。 オックスフォード BBC 読唇術の文章 2 (LRS2) は、さまざまな BBC 番組の何千ものセリフに基づいています。 LRS3-TED はさまざまな TED プログラムから 150,000 文を収集し、LSVSR (Large-Scale Visual Speech Recognition) データベースは現在存在する最大のものの XNUMX つです。 140,000 時間のオーディオ セグメント 2,934,899 のスピーチ ステートメントと 127,000 を超える単語が含まれています。

それは英語だけではありません。 ヒット-AVDB-IIは一連の中国の詩に基づいており、IV2 は 300 人が同じ 15 のフレーズを言っているフランスのデータベースです。 ロシア語、スペイン語、チェコ語のアプリケーションにも同様のセットが存在します。

今後

VSR の将来は、ASR の過去と非常によく似たものになる可能性がある、と Campbell-West 氏は言います。 もちろん、プライバシーは大きなものです。 若い世代は自分たちの生活をオンラインで記録することにそれほど抵抗はありませんが、Campbell-West 氏は次のように述べています。 カメラには耐えられないかもしれませんが、マイクには耐えられるかもしれません。」

それにもかかわらず、Campbell-West 氏は、忠実度の高い自動キャプションなど、VSR の潜在的な将来のアプリケーションに興奮し続けています。 「誰かと話しているときにメガネにライブ字幕を表示できるように、リアルタイムの字幕システムを考えています」と Campbell-West 氏は言います。 「難聴者にとって、これは人生を変えるアプリケーションになる可能性がありますが、騒がしい環境で一般的に使用する場合でも、これは役立つ可能性があります。」

「騒音が ASR を非常に困難にする状況がありますが、車内など、音声制御が有利です」と彼は続けました。 「VSR は、これらのシステムがドライバーと乗客にとってより良く、より安全になるのに役立つ可能性があります。」

一方、UW の研究室で Brain-Computer Interface 技術を広範に研究している Lee 氏は、ウェアラブル テキスト ディスプレイは、BCI 技術がさらに成熟するまでの「一時しのぎ」の手段であると考えています。 「大声で話さなくても、脳と脳のコミュニケーションができるようになるまでBCIを売り込む必要はありません」とリー氏は語った。 「XNUMX年ほどで、生体信号が補聴器に利用されるようになるでしょう。 [デバイス] が視線をどこに向けるかを見るだけで、どこに集中して聞くべきかの手がかりを得ることができるかもしれません。」

「『そうそう、脳制御補聴器を手に入れるつもりだ』と本当に言うのはためらわれます」とリーは認めました。 「実行可能だと思いますが、時間がかかります。」

Engadget が推奨するすべての製品は、親会社から独立した編集チームによって選択されています。 一部のストーリーにはアフィリエイト リンクが含まれています。 これらのリンクのいずれかから何かを購入すると、アフィリエイト コミッションが発生する場合があります。 すべての価格は公開時のものです。

ソース