Meta og en gruppe forskere fra University of Texas i Austin (UT Austin) jobber med å bringe realistisk lyd til metaversen.
As Kristen Garuman, forskningsdirektør ved Meta AI, forklarer (åpnes i ny fane) , det er mer til utvidet og virtuell virkelighet (henholdsvis AR og VR) enn bare visuelle. Lyd spiller en svært viktig rolle for å få en verden til å føles levende. Garuman sier "lyd er formet av miljøet som [det er] i." Det er ulike faktorer som påvirker hvordan lyden oppfører seg som geometrien til et rom, hva som er i rommet, og hvor langt noen er fra en kilde.
For å oppnå dette er Metas plan å bruke AR-briller til å ta opp både lyd og video fra ett sted, og deretter bruke et sett med tre AI-modeller, transformere og rense opptaket slik at det føles som om det skjer foran deg når du spiller det av. hjemme. AI-ene vil ta hensyn til rommet du er i, slik at det kan matche miljøet.
Når man ser på prosjektene, ser det ut til at Meta fokuserer på AR-briller. Metas plan for VR-headset inkluderer å gjenskape synet og lyden av et miljø, som en konsert, slik at det føles som om du er der personlig.
Vi spurte Meta hvordan folk kan lytte til den forbedrede lyden. Vil folk trenge et par hodetelefoner for å lytte, eller vil det komme fra hodesettet? Vi fikk ikke svar.
Vi spurte også Meta hvordan utviklere kan få tak i disse AI-modellene. De har blitt gjort åpen kildekode slik at tredjepartsutviklere kan jobbe med teknologien, men Meta ga ingen ytterligere detaljer.
Spørsmålet er hvordan kan Meta ta opp lyd på et par AR-briller og få det til å reflektere en ny innstilling.
Den første løsningen er kjent som AViTAR som er en "Visuell akustisk matchende modell." (åpnes i ny fane) Dette er AI-en som forvandler lyd for å matche et nytt miljø. Meta gir et eksempel på en mor som spiller inn barnets dansekonsert i et auditorium med et par AR-briller.
En av forskerne hevder at den aktuelle moren kan ta det opptaket og spille det av hjemme der AI vil forandre lyden. Den skanner omgivelsene, tar hensyn til eventuelle hindringer i et rom, og fremvisningen høres ut som om den skjer rett foran henne med de samme brillene. Forskeren sier at lyden vil komme fra brillene.
For å hjelpe med å rydde opp i lyd, er det Visuelt informert dereverberation (åpnes i ny fane) . I utgangspunktet fjerner det distraherende romklang fra klippet. Eksempelet som er gitt er å spille inn en fiolinkonsert på en togstasjon, ta den med hjem og la AI-en rydde opp i klippet slik at du ikke hører annet enn musikk.
Den siste AI-modellen er VisualVoice (åpnes i ny fane) , som bruker en kombinasjon av visuelle og lydsignaler for å skille stemmer fra andre lyder. Se for deg å spille inn en video av to personer som krangler. Denne AI-en vil isolere én stemme slik at du kan forstå dem mens du slår av alt annet. Meta forklarer at visuelle signaler er viktige fordi AI trenger å se hvem som snakker for å forstå visse nyanser og vite hvem som snakker.
Når det gjelder det visuelle, sier Meta at de planlegger å bringe inn video og andre signaler for å forbedre AI-drevet lyd ytterligere. Siden denne teknologien fortsatt er tidlig i utviklingen, er det ukjent om og når Meta vil bringe disse AI-ene til et Quest-headset nær deg.
Sørg for å lese vår siste anmeldelse på oculus quest 2 hvis du vurderer å kjøpe en. Spoilervarsel: vi liker det.