Meta の新しい Make-a-Video AI は、テキスト プロンプトからクイック ムービー クリップを生成できます

Meta は XNUMX 月に Make-a-Scene テキストから画像への生成 AI を発表しました。 ミッドジャーニー、機械学習アルゴリズム (およびスクレイピングされたオンライン アートワークの大規模なデータベース) を利用して、書かれたプロンプトの幻想的な描写を作成します。 木曜日、Meta の CEO である Mark Zuckerberg は、Make-a-Scene のよりアニメーション化された現代的な Make-a-Video を公開しました。

その名前が示すように、Make-a-Video は「ユーザーがテキスト プロンプトを簡潔で高品質のビデオ クリップに変換できるようにする新しい AI システム」であると、Zuckerberg は木曜日の Meta ブログに書いています。 機能的には、Video は Scene と同じように機能します — 自然言語処理と生成的ニューラル ネットワークの組み合わせに依存して、非視覚的なプロンプトを画像に変換します — 異なる形式でコンテンツを取得するだけです。

「私たちの直感は単純です。テキストと画像のペアデータから世界がどのように見え、どのように記述されているかを学び、監視されていないビデオ映像から世界がどのように動くかを学びます」と、メタ研究者のチームは木曜日の朝に発表された研究論文に書いています. そうすることで、チームはビデオ モデルのトレーニングに必要な時間を短縮し、テキストとビデオのペア データの必要性を排除しながら、今日の画像生成モデルの「広大さ (美的、幻想的な描写などの多様性)」を維持することができました。 」   

Meta の AI 研究のほとんどすべてと同様に、Make-a-Video はオープンソース プロジェクトとしてリリースされています。 「このような新しいジェネレーティブ AI システムをどのように構築するかについては、慎重に検討したいと考えています」と Zuckerberg 氏は述べています。 「私たちは、このジェネレーティブ AI の研究と結果をコミュニティとオープンに共有してフィードバックを求めており、責任ある AI フレームワークを使用して、この新しいテクノロジーへのアプローチを改良および進化させていきます。」 

リリースされているすべてのジェネレーティブ AI と同様に、Make-a-Video の誤用の機会は少なくありません。 研究チームは、悪質な悪ふざけの可能性に先んじるために、NSFW 画像と有毒な言い回しの Make-a-Video トレーニング データセットを事前にスクラブしました。     

Engadget が推奨するすべての製品は、親会社から独立した編集チームによって選択されています。 一部のストーリーにはアフィリエイト リンクが含まれています。 これらのリンクのいずれかから何かを購入すると、アフィリエイト コミッションが発生する場合があります。 すべての価格は公開時のものです。

ソース