Meta lan klompok peneliti saka Universitas Texas ing Austin (UT Austin) ngupayakake nggawa audio realistis menyang metaverse.
As Kristen Garuman, Direktur Riset ing Meta AI, nerangake (mbukak ing tab anyar) , ana liyane kanggo nambah lan kasunyatan virtual (AR lan VR, mungguh) saka mung visual. Audio nduweni peran sing penting banget kanggo nggawe jagad iki urip. Garuman ujar "audio dibentuk dening lingkungan sing ana." Ana macem-macem faktor sing mengaruhi carane swara tumindak kaya geometri kamar, apa ing kamar ngandika, lan carane adoh wong saka sumber.
Kanggo nggayuh iki, rencana Meta yaiku nggunakake kaca tingal AR kanggo ngrekam audio lan video saka siji lokasi, banjur nggunakake telung model AI, ngowahi lan ngresiki rekaman supaya kaya kedadeyan ing ngarep nalika sampeyan muter maneh. Teng griyo. AI bakal nganggep kamar sing sampeyan lebokake supaya bisa cocog karo lingkungan.
Deleng proyek kasebut, katon Meta fokus ing kacamata AR. Rencana Meta kanggo headset VR kalebu niru pemandangan lan swara saka lingkungan, kaya konser, dadi kaya sampeyan ana ing kono.
We takon Meta carane wong bisa ngrungokake audio ditingkatake. Apa wong butuh sepasang headphone kanggo ngrungokake utawa bakal teka saka headset? Kita ora entuk tanggapan.
Kita uga takon Meta carane pangembang bisa nyekel model AI iki. Dheweke wis digawe sumber terbuka supaya pangembang pihak katelu bisa nggarap teknologi kasebut, nanging Meta ora menehi katrangan luwih lengkap.
Pitakonan yaiku kepiye Meta bisa ngrekam audio ing sepasang kacamata AR lan nggambarake setelan anyar.
Solusi pisanan dikenal minangka AviTAR yaiku a "Model Pencocokan Akustik Visual." (mbukak ing tab anyar) Iki minangka AI sing ngowahi audio supaya cocog karo lingkungan anyar. Meta nawakake conto ibu sing ngrekam tarian anak ing auditorium nganggo kaca tingal AR.
Salah sawijining peneliti ngaku yen ibune bisa njupuk rekaman kasebut lan muter maneh ing omah ing ngendi AI bakal ngowahi audio kasebut. Iku bakal mindai lingkungan, njupuk menyang akun sembarang alangan ing kamar, lan duwe swara recital kaya mengkono tengen ing ngarepe dheweke karo kaca tingal padha. Peneliti nyatakake audio bakal teka saka kaca tingal.
Kanggo mbantu ngresiki audio, ana Visual-Informed Dereverberation (mbukak ing tab anyar) . Sejatine, mbusak reverb sing ngganggu saka klip kasebut. Conto sing diwenehake yaiku ngrekam konser biola ing stasiun sepur, njupuk menyang omah, lan AI ngresiki klip kasebut supaya sampeyan ora krungu apa-apa kajaba musik.
Model AI pungkasan yaiku VisualVoice (mbukak ing tab anyar) , sing nggunakake kombinasi isyarat visual lan audio kanggo misahake swara saka swara liyane. Bayangna ngrekam video wong loro sing lagi padu. AI iki bakal ngisolasi siji swara supaya sampeyan bisa ngerti nalika nggawe bisu kabeh. Meta nerangake yen isyarat visual penting amarga AI kudu ndeleng sapa sing ngomong supaya ngerti nuansa tartamtu lan ngerti sapa sing ngomong.
Gegayutan karo visual, Meta nyatakake yen dheweke ngrancang nggawa video lan isyarat liyane kanggo nambah audio sing didorong AI. Wiwit teknologi iki isih awal pembangunan, ora dingerteni yen lan kapan Meta bakal nggawa AI kasebut menyang headset Quest sing cedhak karo sampeyan.
Aja manawa kanggo maca review paling anyar ing oculus quest 2 yen sampeyan mikir tuku siji. Tandha spoiler: kita seneng.