Meta i grupa naukowców z University of Texas w Austin (UT Austin) pracują nad wprowadzeniem realistycznego dźwięku do metaverse.
As Kristen Garuman, dyrektor ds. badań w Meta AI, wyjaśnia (otwiera się w nowej karcie) , rzeczywistość rozszerzona i wirtualna (odpowiednio AR i VR) to coś więcej niż tylko wizualizacje. Dźwięk odgrywa bardzo ważną rolę w ożywianiu świata. Garuman mówi, że „dźwięk jest kształtowany przez środowisko, w którym się znajduje”. Istnieje wiele czynników, które wpływają na to, jak dźwięk zachowuje się jak geometria pomieszczenia, co znajduje się w tym pomieszczeniu i jak daleko ktoś jest od źródła.
Aby to osiągnąć, Meta planuje użyć okularów AR do nagrywania dźwięku i wideo z jednego miejsca, a następnie użyć zestawu trzech modeli AI, przekształcić i wyczyścić nagranie, aby wydawało się, że dzieje się przed tobą podczas odtwarzania. w domu. AI weźmie pod uwagę pomieszczenie, w którym się znajdujesz, aby dopasować je do otoczenia.
Patrząc na projekty, wydaje się, że Meta skupia się na okularach AR. Plan Meta dotyczący zestawów VR obejmuje replikowanie widoków i dźwięków otoczenia, na przykład na koncercie, dzięki czemu masz wrażenie, że jesteś tam osobiście.
Zapytaliśmy Meta, jak ludzie mogą słuchać ulepszonego dźwięku. Czy ludzie będą potrzebować słuchawek do słuchania, czy będą one pochodzić z zestawu słuchawkowego? Nie otrzymaliśmy odpowiedzi.
Zapytaliśmy również Meta, w jaki sposób programiści mogą uzyskać dostęp do tych modeli AI. Zostały one otwarte, aby zewnętrzni programiści mogli pracować nad technologią, ale Meta nie podała żadnych dalszych szczegółów.
Pytanie brzmi, w jaki sposób Meta może nagrywać dźwięk na okularach AR i odzwierciedlać nowe ustawienie.
Pierwsze rozwiązanie znane jest jako AViTAR, które jest „Model wizualnego dopasowania akustycznego”. (otwiera się w nowej karcie) To sztuczna inteligencja, która przekształca dźwięk, aby pasował do nowego środowiska. Meta podaje przykład matki nagrywającej recital taneczny swojego dziecka w audytorium w okularach AR.
Jeden z badaczy twierdzi, że dana matka może wziąć to nagranie i odtworzyć je w domu, gdzie sztuczna inteligencja zmieni dźwięk. Przeskanuje otoczenie, weźmie pod uwagę wszelkie przeszkody w pomieszczeniu i sprawi, że recital będzie brzmiał tak, jakby odbywał się tuż przed nią w tych samych okularach. Badacz twierdzi, że dźwięk będzie pochodził z okularów.
Aby pomóc w oczyszczeniu dźwięku, jest Wizualnie poinformowane odgłosy (otwiera się w nowej karcie) . Zasadniczo usuwa rozpraszający pogłos z klipu. Podany przykład to nagranie koncertu skrzypcowego na stacji kolejowej, zabranie go do domu i posprzątanie klipu przez sztuczną inteligencję, aby nie było nic oprócz muzyki.
Ostatni model AI to Wizualny głos (otwiera się w nowej karcie) , który wykorzystuje kombinację wskazówek wizualnych i dźwiękowych do oddzielania głosów od innych dźwięków. Wyobraź sobie nagranie wideo, na którym kłócą się dwie osoby. Ta sztuczna inteligencja wyizoluje jeden głos, abyś mógł go zrozumieć, jednocześnie uciszając wszystko inne. Meta wyjaśnia, że wskazówki wizualne są ważne, ponieważ sztuczna inteligencja musi widzieć, kto mówi, aby zrozumieć pewne niuanse i wiedzieć, kto mówi.
Jeśli chodzi o efekty wizualne, Meta twierdzi, że planują wprowadzenie wideo i innych wskazówek, aby jeszcze bardziej ulepszyć dźwięk sterowany przez sztuczną inteligencję. Ponieważ ta technologia jest wciąż w fazie rozwoju, nie wiadomo, czy i kiedy Meta wprowadzi te SI do zestawu słuchawkowego Quest w Twojej okolicy.
Koniecznie przeczytaj naszą najnowszą recenzję na OculusQuest 2 jeśli myślisz o zakupie. Uwaga, spoiler: nam się to podoba.