Nowa sztuczna inteligencja Meta Make-a-Video może generować szybkie klipy filmowe z monitów tekstowych

Meta zaprezentowała w lipcu swoją sztuczną inteligencję Make-a-Scene do generowania tekstu na obraz, która podobnie jak Dall-E i W połowie drogi, wykorzystuje algorytmy uczenia maszynowego (i ogromne bazy danych zeskrobanych dzieł sztuki online) do tworzenia fantastycznych przedstawień pisemnych podpowiedzi. W czwartek dyrektor generalny Meta, Mark Zuckerberg, ujawnił bardziej animowaną współczesną wersję Make-a-Video, Make-a-Video.

Jak sama nazwa wskazuje, Make-a-Video to „nowy system sztucznej inteligencji, który pozwala ludziom zamieniać podpowiedzi tekstowe w krótkie, wysokiej jakości klipy wideo” – napisał Zuckerberg na blogu Meta w czwartek. Funkcjonalnie Video działa w taki sam sposób, jak Scene — polegając na połączeniu przetwarzania języka naturalnego i generatywnych sieci neuronowych w celu konwersji podpowiedzi niewizualnych na obrazy — po prostu pobiera zawartość w innym formacie.

„Nasza intuicja jest prosta: dowiedz się, jak wygląda świat i jak jest opisany na podstawie sparowanych danych tekstowo-obrazowych, oraz dowiedz się, jak świat porusza się z nienadzorowanych materiałów wideo” – napisał zespół badaczy Meta w artykule badawczym opublikowanym w czwartek rano. Umożliwiło to zespołowi skrócenie czasu potrzebnego do wytrenowania modelu wideo i wyeliminowanie potrzeby parowania danych tekstowo-wideo, przy jednoczesnym zachowaniu „ogromu (różnorodność w estetyce, fantastycznych przedstawieniach itp.) dzisiejszych modeli generowania obrazów. ”   

Podobnie jak w przypadku większości badań Meta nad sztuczną inteligencją, Make-a-Video jest wydawane jako projekt open-source. „Chcemy przemyśleć, w jaki sposób budujemy nowe generatywne systemy sztucznej inteligencji, takie jak ten” – zauważył Zuckerberg. „Otwarcie dzielimy się tymi generatywnymi badaniami i wynikami sztucznej inteligencji ze społecznością w celu uzyskania opinii i będziemy nadal korzystać z naszej odpowiedzialnej struktury sztucznej inteligencji, aby udoskonalać i rozwijać nasze podejście do tej nowej technologii”. 

Podobnie jak w przypadku pozornie każdej wydanej generatywnej sztucznej inteligencji, możliwość niewłaściwego wykorzystania Make-a-Video nie jest mała. Aby wyprzedzić wszelkie potencjalne nikczemne wybryki, zespół badawczy zapobiegawczo przeskanował zestaw danych treningowych Make-a-Video wszelkich obrazów NSFW, a także toksycznych fraz.     

Wszystkie produkty polecane przez Engadget są wybierane przez naszą redakcję, niezależną od naszej macierzystej firmy. Niektóre z naszych historii zawierają linki afiliacyjne. Jeśli kupisz coś przez jeden z tych linków, możemy otrzymać prowizję partnerską. Wszystkie ceny są aktualne w momencie publikacji.

Źródło