Meta a skupina výzkumníků z Texaské univerzity v Austinu (UT Austin) pracují na vnesení realistického zvuku do metaverze.
As Kristen Garuman, ředitelka výzkumu ve společnosti Meta AI, vysvětluje (otevře se na nové kartě) , rozšířená a virtuální realita (AR a VR, v tomto pořadí) nabízí více než jen vizuální prvky. Zvuk hraje velmi důležitou roli při vytváření živého světa. Garuman říká, že „zvuk je utvářen prostředím, ve kterém [je].“ Existují různé faktory, které ovlivňují, jak se zvuk chová jako geometrie místnosti, co se v dané místnosti nachází a jak daleko je někdo od zdroje.
Aby toho bylo dosaženo, Meta má v plánu použít AR brýle pro záznam zvuku i videa z jednoho místa, poté pomocí sady tří modelů AI záznam transformovat a vyčistit tak, aby při přehrávání měl pocit, že se to děje přímo před vámi. doma. AI bude brát v úvahu místnost, ve které se nacházíte, aby odpovídala prostředí.
Při pohledu na projekty se zdá, že se Meta zaměřuje na brýle pro AR. Plán Meta pro VR headsety zahrnuje replikaci pohledů a zvuků prostředí, jako je koncert, takže máte pocit, jako byste tam byli osobně.
Zeptali jsme se Meta, jak mohou lidé poslouchat vylepšený zvuk. Budou lidé k poslechu potřebovat sluchátka, nebo to bude pocházet z náhlavní soupravy? Nedostali jsme odpověď.
Také jsme se zeptali Meta, jak mohou vývojáři získat tyto modely umělé inteligence. Byly vytvořeny jako open source, takže vývojáři třetích stran mohou na této technologii pracovat, ale Meta nenabídla žádné další podrobnosti.
Otázkou je, jak může Meta nahrávat zvuk na pár AR brýlí a odrážet nové nastavení.
První řešení je známé jako AViTAR, což je a "Model vizuálního akustického přizpůsobení." (otevře se na nové kartě) Toto je AI, která transformuje zvuk tak, aby odpovídal novému prostředí. Meta nabízí příklad matky nahrávající taneční recitál svého dítěte v hledišti s brýlemi pro AR.
Jeden z výzkumníků tvrdí, že dotyčná matka může tuto nahrávku vzít a přehrát si ji doma, kde AI zvuk přemění. Skenuje prostředí, vezme v úvahu všechny překážky v místnosti a recitál bude znít, jako by se to odehrávalo přímo před ní se stejnými brýlemi. Výzkumník uvádí, že zvuk bude pocházet z brýlí.
Chcete-li pomoci vyčistit zvuk, existuje Vizuálně informovaná dereverberace (otevře se na nové kartě) . V podstatě odstraňuje rušivý reverb z klipu. Uvedený příklad je záznam houslového koncertu na vlakovém nádraží, který si odnesete domů a AI nechá klip vyčistit, abyste neslyšeli nic jiného než hudbu.
Poslední model AI je VisualVoice (otevře se na nové kartě) , který využívá kombinaci vizuálních a zvukových podnětů k oddělení hlasů od ostatních zvuků. Představte si, že natočíte video dvou lidí, kteří se hádají. Tato umělá inteligence izoluje jeden hlas, abyste jim rozuměli, zatímco vše ostatní umlčíte. Meta vysvětluje, že vizuální podněty jsou důležité, protože umělá inteligence potřebuje vidět, kdo mluví, aby pochopila určité nuance a věděla, kdo mluví.
Co se týče vizuálů, Meta uvádí, že plánují zavést video a další podněty k dalšímu vylepšení zvuku řízeného umělou inteligencí. Vzhledem k tomu, že tato technologie je stále na počátku vývoje, není známo, zda a kdy Meta přinese tyto AI do náhlavní soupravy Quest ve vaší blízkosti.
Nezapomeňte si přečíst naši nejnovější recenzi na oculus quest 2 pokud uvažujete o koupi. Upozornění na spoiler: líbí se nám to.