Meta ja joukko tutkijoita Texasin yliopistosta Austinista (UT Austin) työskentelevät tuodakseen realistisen äänen metaversumiin.
As Meta AI:n tutkimusjohtaja Kristen Garuman selittää (avautuu uuteen välilehteen) , lisättyyn ja virtuaaliseen todellisuuteen (AR ja VR, vastaavasti) on muutakin kuin pelkkä visuaalinen kuva. Äänellä on erittäin tärkeä rooli, jotta maailma tuntuu elävältä. Garuman sanoo, että "äänen muokkaa se ympäristö, jossa se on." On olemassa useita tekijöitä, jotka vaikuttavat äänen käyttäytymiseen, kuten huoneen geometria, mitä kyseisessä huoneessa on ja kuinka kaukana joku on lähteestä.
Tämän saavuttamiseksi Metan suunnitelmana on käyttää AR-laseja äänittämään sekä ääntä että videota yhdestä paikasta, minkä jälkeen kolmen tekoälymallin sarjalla muuntaa ja puhdistaa tallenne niin, että se tuntuu kuin se tapahtuisi edessäsi, kun toistat sitä. kotona. Tekoälyt ottavat huomioon huoneen, jossa olet, jotta se vastaa ympäristöä.
Projekteja tarkasteltaessa näyttää siltä, että Meta keskittyy AR-laseihin. Metan VR-kuulokkeiden suunnitelma sisältää ympäristön, kuten konsertin, näkemysten ja äänien kopioimisen, joten tuntuu kuin olisit paikalla.
Kysyimme Metalta, kuinka ihmiset voivat kuunnella parannettua ääntä. Tarvitsevatko ihmiset kuulokkeet kuunnellakseen vai tulevatko ne kuulokkeista? Emme saaneet vastausta.
Kysyimme myös Metalta, kuinka kehittäjät voivat saada käsiinsä nämä tekoälymallit. Niistä on tehty avoimen lähdekoodin, jotta kolmannen osapuolen kehittäjät voivat työskennellä tekniikan parissa, mutta Meta ei tarjonnut lisätietoja.
Kysymys kuuluu, kuinka Meta voi tallentaa ääntä AR-laseille ja saada sen heijastamaan uutta asetusta.
Ensimmäinen ratkaisu tunnetaan nimellä AViTAR, joka on a "Visual Acoustic Matching malli." (avautuu uuteen välilehteen) Tämä on tekoäly, joka muuttaa äänen vastaamaan uutta ympäristöä. Meta tarjoaa esimerkin äidistä, joka äänittää lapsensa tanssikonserttia auditoriossa AR-laseilla.
Yksi tutkijoista väittää, että kyseinen äiti voi ottaa tallenteen ja toistaa sen kotona, jossa tekoäly muuttaa äänen. Se skannaa ympäristöä, ottaa huomioon huoneessa olevat esteet ja antaa konsertin äänen kuin se tapahtuisi hänen edessään samoilla laseilla. Tutkijan mukaan ääni tulee laseista.
Äänen puhdistamisen helpottamiseksi on olemassa Visuaalisesti informoitu deeverberaatio (avautuu uuteen välilehteen) . Pohjimmiltaan se poistaa häiritsevän kaiun leikeestä. Annettu esimerkki on viulukonsertin nauhoittaminen rautatieasemalla, sen vieminen kotiin ja tekoäly puhdistaa leikkeen, jotta et kuule vain musiikkia.
Viimeinen AI-malli on VisualVoice (avautuu uuteen välilehteen) , joka käyttää visuaalisten ja äänimerkkien yhdistelmää erottamaan äänet muista äänistä. Kuvittele, että kuvaat videon, jossa kaksi ihmistä riitelee. Tämä tekoäly eristää yhden äänen, jotta voit ymmärtää niitä ja vaimentaa kaiken muun. Meta selittää, että visuaaliset vihjeet ovat tärkeitä, koska tekoälyn täytyy nähdä kuka puhuu ymmärtääkseen tiettyjä vivahteita ja tietääkseen, kuka puhuu.
Mitä tulee visuaalisuuteen, Meta ilmoittaa aikovansa tuoda videoita ja muita vihjeitä parantaakseen tekoälyn ohjaamaa ääntä entisestään. Koska tämä tekniikka on vielä kehitysvaiheessa, ei tiedetä, tuoko Meta nämä tekoälyt lähelläsi oleviin Quest-kuulokkeisiin ja milloin.
Muista lukea uusin arvostelumme aiheesta oculus-tehtävä 2 jos harkitset sellaisen ostamista. Spoilerihälytys: pidämme siitä.