'data2vec' ຂອງ Meta ແມ່ນຂັ້ນຕອນຕໍ່ໄປໄປສູ່ເຄືອຂ່າຍ Neural Network ເພື່ອປົກຄອງພວກເຂົາທັງຫມົດ

ການແຂ່ງຂັນແມ່ນເພື່ອສ້າງເຄືອຂ່າຍ neural ທີ່ສາມາດປະມວນຜົນຂໍ້ມູນຫຼາຍປະເພດ, ແນວຄວາມຄິດຂອງປັນຍາປະດິດທົ່ວໄປຫຼາຍທີ່ບໍ່ຈໍາແນກປະເພດຂອງຂໍ້ມູນແຕ່ແທນທີ່ຈະສາມາດທໍາລາຍພວກມັນທັງຫມົດພາຍໃນໂຄງສ້າງພື້ນຖານດຽວກັນ.

ປະເພດຂອງຫຼາຍຮູບແບບ, ຍ້ອນວ່າເຄືອຂ່າຍ neural ເຫຼົ່ານີ້ເອີ້ນວ່າ, ກໍາລັງເຫັນກິດຈະກໍາທີ່ວຸ່ນວາຍ, ເຊິ່ງຂໍ້ມູນທີ່ແຕກຕ່າງກັນເຊັ່ນ: ຮູບພາບ, ຂໍ້ຄວາມ, ແລະສຽງເວົ້າ, ແມ່ນຜ່ານສູດການຄິດໄລ່ດຽວກັນເພື່ອຜະລິດຄະແນນໃນການທົດສອບທີ່ແຕກຕ່າງກັນເຊັ່ນ: ການຮັບຮູ້ຮູບພາບ, ຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດຫຼືການກວດພົບສຽງເວົ້າ.

ແລະເຄືອຂ່າຍທີ່ບໍ່ຊ້ໍາກັນເຫຼົ່ານີ້ກໍາລັງເລັ່ງຄະແນນໃນການທົດສອບ benchmark ຂອງ AI. ຜົນສໍາເລັດຫຼ້າສຸດແມ່ນສິ່ງທີ່ເອີ້ນວ່າ 'data2vec,' ພັດທະນາໂດຍນັກຄົ້ນຄວ້າຢູ່ໃນພະແນກ AI ຂອງ Meta, ພໍ່ແມ່ຂອງ Facebook, Instagram ແລະ WhatsApp. 

ຈຸດ, ຍ້ອນວ່ານັກວິທະຍາສາດຂອງ Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, ແລະ Michael Auli, ຂຽນ, ແມ່ນການເຂົ້າຫາບາງສິ່ງບາງຢ່າງທີ່ຄ້າຍຄືກັບຄວາມສາມາດໃນການຮຽນຮູ້ທົ່ວໄປທີ່ຈິດໃຈຂອງມະນຸດເບິ່ງຄືວ່າກວມເອົາ.

"ໃນຂະນະທີ່ປະຊາຊົນເບິ່ງຄືວ່າຈະຮຽນຮູ້ໃນລັກສະນະທີ່ຄ້າຍຄືກັນໂດຍບໍ່ຄໍານຶງເຖິງວິທີການທີ່ເຂົາເຈົ້າໄດ້ຮັບຂໍ້ມູນ - ບໍ່ວ່າຈະໃຊ້ສາຍຕາຫຼືສຽງ, ສໍາລັບການຍົກຕົວຢ່າງ," ຜູ້ຂຽນຂຽນ. ໃນ blog post, "ປະຈຸບັນມີຄວາມແຕກຕ່າງອັນໃຫຍ່ຫຼວງໃນວິທີການ" ເຄືອຂ່າຍ neural ຈັດການກັບຂໍ້ມູນປະເພດຕ່າງໆເຊັ່ນຮູບພາບ, ການເວົ້າ, ຂໍ້ຄວາມ, "ແລະຮູບແບບອື່ນໆ."

"ແນວຄວາມຄິດຫຼັກຂອງວິທີການນີ້," ພວກເຂົາເຈົ້າປະກາດຂອງ data2vec, "ແມ່ນເພື່ອຮຽນຮູ້ເພີ່ມເຕີມໂດຍທົ່ວໄປ: AI ຄວນຈະສາມາດຮຽນຮູ້ທີ່ຈະເຮັດຫຼາຍວຽກງານທີ່ແຕກຕ່າງກັນ, ລວມທັງສິ່ງທີ່ບໍ່ຄຸ້ນເຄີຍທັງຫມົດ."

CEO ຂອງ Meta, Mark Zuckerberg, ສະເຫນີຄໍາເວົ້າກ່ຽວກັບວຽກງານ, ເຊື່ອມໂຍງກັບ Metaverse ໃນອະນາຄົດ:

ຄວາມສຳເລັດທີ່ໜ້າຕື່ນເຕັ້ນ: ການຄົ້ນຄວ້າ Meta AI ໄດ້ສ້າງລະບົບທີ່ຮຽນຮູ້ຈາກການເວົ້າ, ການເບິ່ງເຫັນ ແລະ ຂໍ້ຄວາມໂດຍບໍ່ຈໍາເປັນຕ້ອງມີຂໍ້ມູນການຝຶກອົບຮົມທີ່ມີປ້າຍຊື່. ຜູ້​ຄົນ​ໄດ້​ປະ​ສົບ​ກັບ​ໂລກ​ໂດຍ​ການ​ປະ​ສົມ​ປະ​ສານ​ຂອງ​ການ​ເຫັນ, ສຽງ ແລະ​ຄຳ​ສັບ, ແລະ​ລະ​ບົບ​ເຊັ່ນ​ນີ້​ມື້​ໜຶ່ງ​ຈະ​ສາ​ມາດ​ເຂົ້າ​ໃຈ​ໂລກ​ໃນ​ແບບ​ທີ່​ເຮົາ​ເຮັດ. ອັນນີ້ໃນທີ່ສຸດຈະສ້າງເປັນແວ່ນຕາ AR ດ້ວຍຜູ້ຊ່ວຍ AI ດັ່ງນັ້ນ, ຕົວຢ່າງ, ມັນສາມາດຊ່ວຍໃຫ້ທ່ານແຕ່ງກິນຄ່ໍາ, ສັງເກດເຫັນວ່າເຈົ້າພາດສ່ວນປະກອບ, ກະຕຸ້ນໃຫ້ທ່ານປິດຄວາມຮ້ອນ, ຫຼືວຽກງານທີ່ສັບສົນຫຼາຍ.

ຊື່ data2vec ແມ່ນການຫຼິ້ນໃນຊື່ຂອງໂຄງການສໍາລັບພາສາ "ຝັງ" ພັດທະນາຢູ່ Google ໃນປີ 2013 ເອີ້ນວ່າ "word2vec." ໂປຣແກຣມນັ້ນໄດ້ຄາດຄະເນວ່າຄຳສັບຈະຮວມກັນແນວໃດ, ແລະດັ່ງນັ້ນ word2vec ມັນເປັນຕົວແທນຂອງເຄືອຂ່າຍ neural ທີ່ອອກແບບມາສຳລັບຂໍ້ມູນສະເພາະໃດໜຶ່ງ, ໃນກໍລະນີນັ້ນ. 

ນອກຈາກນີ້: ເປີດປະຕູເບາະ, ກະລຸນາ, HAL: AI ຂອງເມຕາຈຳລອງການອ່ານປາກ

ຢ່າງໃດກໍຕາມ, ໃນກໍລະນີຂອງ data2vec, Baevski ແລະເພື່ອນຮ່ວມງານກໍາລັງໃຊ້ສະບັບມາດຕະຖານຂອງສິ່ງທີ່ເອີ້ນວ່າ Transformer, ພັດທະນາໂດຍ Ashish Vaswani ແລະເພື່ອນຮ່ວມງານ. ທີ່ Google ໃນປີ 2017 ແລະຂະຫຍາຍມັນເພື່ອໃຊ້ສໍາລັບຂໍ້ມູນຫຼາຍປະເພດ. 

ເຄືອຂ່າຍ neural ຂອງ Transformer ໄດ້ຖືກພັດທະນາໃນເບື້ອງຕົ້ນສໍາລັບວຽກງານພາສາ, ແຕ່ມັນໄດ້ຖືກດັດແປງຢ່າງກວ້າງຂວາງໃນປີນັບຕັ້ງແຕ່ສໍາລັບຂໍ້ມູນຫຼາຍປະເພດ. Baevski et al. ສະແດງໃຫ້ເຫັນວ່າ Transformer ສາມາດຖືກນໍາໃຊ້ເພື່ອປະມວນຜົນຂໍ້ມູນຫຼາຍປະເພດໂດຍບໍ່ມີການປ່ຽນແປງ, ແລະເຄືອຂ່າຍ neural ທີ່ໄດ້ຮັບການຝຶກອົບຮົມຜົນໄດ້ຮັບສາມາດປະຕິບັດໃນຫຼາຍວຽກງານທີ່ແຕກຕ່າງກັນ. 

ໃນເອກະສານທາງການ, "data2vec: ຂອບວຽກທົ່ວໄປສໍາລັບການຮຽນຮູ້ດ້ວຍຕົນເອງໃນການປາກເວົ້າ, ວິໄສທັດ ແລະພາສາ,” Baevski et al., ຝຶກອົບຮົມ Transformer ສໍາລັບຂໍ້ມູນຮູບພາບ, ຮູບແບບຄື້ນສຽງເວົ້າ, ແລະການເປັນຕົວແທນຂອງພາສາຂໍ້ຄວາມ. 

Data2vec ແມ່ນ "ລະບົບການເບິ່ງແຍງຕົນເອງທີ່ມີປະສິດທິພາບສູງອັນທໍາອິດທີ່ເຮັດວຽກສໍາລັບຫຼາຍຮູບແບບ, ຄືການປາກເວົ້າ, ວິໄສທັດ, ແລະຂໍ້ຄວາມ," ຂຽນ Baevski ແລະທີມງານໃນບົດຄວາມ blog.

Transformer ທົ່ວໄປຫຼາຍກາຍເປັນສິ່ງທີ່ເອີ້ນວ່າການຝຶກອົບຮົມກ່ອນການຝຶກອົບຮົມທີ່ຫຼັງຈາກນັ້ນສາມາດຖືກນໍາໃຊ້ກັບເຄືອຂ່າຍ neural ສະເພາະເພື່ອປະຕິບັດວຽກງານສະເພາະ. ຕົວຢ່າງ, ຜູ້ຂຽນໃຊ້ data2vec ເປັນການຝຶກອົບຮົມກ່ອນການປະກອບສິ່ງທີ່ເອີ້ນວ່າ "ViT," "ວິໄສທັດ Transformer," ເຄືອຂ່າຍ neural ອອກແບບໂດຍສະເພາະສໍາລັບວຽກງານວິໄສທັດທີ່. ໄດ້ຖືກນໍາສະເຫນີໃນປີກາຍນີ້ ໂດຍ Alexey Dosovitskiy ແລະເພື່ອນຮ່ວມງານຢູ່ Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta ສະແດງໃຫ້ເຫັນຄະແນນສູງສຸດສໍາລັບການແຂ່ງຂັນການຮັບຮູ້ຮູບພາບ ImageNet ທີ່ເຄົາລົບ.


ເປົ້າຫມາຍ 2022

ເມື່ອນໍາໃຊ້ໃນ ViT ເພື່ອພະຍາຍາມແກ້ໄຂການທົດສອບການຮັບຮູ້ຮູບພາບຂອງ ImageNet ມາດຕະຖານ, ຜົນໄດ້ຮັບຂອງພວກເຂົາມາຢູ່ເທິງສຸດຂອງຊຸດ, ດ້ວຍຄວາມຖືກຕ້ອງຂອງ 84.1%, ດີກວ່າຄະແນນຂອງ 83.2% ທີ່ໄດ້ຮັບໂດຍທີມງານຂອງ Microsoft ທີ່ຜ່ານການຝຶກອົບຮົມກ່ອນ. ViT ນຳ​ໂດຍ Hangbo Bao, ປີທີ່ຜ່ານມາ.

ແລະ data2vec Transformer ດຽວກັນໃຫ້ຜົນໄດ້ຮັບທີ່ມີລັກສະນະສິລະປະສໍາລັບການຮັບຮູ້ສຽງເວົ້າແລະການແຂ່ງຂັນ, ຖ້າບໍ່ແມ່ນທີ່ດີທີ່ສຸດ, ສໍາລັບການຮຽນຮູ້ພາສາທໍາມະຊາດ:

ຜົນໄດ້ຮັບຈາກການທົດລອງສະແດງໃຫ້ເຫັນວ່າ data2vec ມີປະສິດທິພາບໃນທັງສາມຮູບແບບ, ກໍານົດສະຖານະໃຫມ່ຂອງ ViT-B ແລະ ViT-L ໃນ ImageNet-1K, ປັບປຸງການເຮັດວຽກທີ່ດີທີ່ສຸດກ່ອນຫນ້າໃນການປຸງແຕ່ງຄໍາເວົ້າກ່ຽວກັບການຮັບຮູ້ສຽງເວົ້າແລະການປະຕິບັດເທົ່າກັບ RoBERTa. ຢູ່ໃນມາດຕະຖານຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດ GLUE. 

ຂໍ້ຄຶດແມ່ນວ່ານີ້ແມ່ນເກີດຂຶ້ນໂດຍບໍ່ມີການດັດແປງໃດໆຂອງເຄືອຂ່າຍ neural ທີ່ຈະກ່ຽວກັບຮູບພາບ, ແລະດຽວກັນສໍາລັບການປາກເວົ້າແລະຂໍ້ຄວາມ. ແທນທີ່ຈະ, ທຸກໆປະເພດການປ້ອນຂໍ້ມູນຈະເຂົ້າໄປໃນເຄືອຂ່າຍດຽວກັນ, ແລະກໍາລັງສໍາເລັດວຽກງານທົ່ວໄປດຽວກັນ. ວຽກງານນັ້ນແມ່ນວຽກງານດຽວກັນທີ່ເຄືອຂ່າຍ Transformer ໃຊ້ຢູ່ສະເໝີ, ເອີ້ນວ່າ "ການຄາດເດົາໜ້າກາກ." 

ນອກຈາກນີ້: Supermodel ຂອງ Google: DeepMind Perceiver ແມ່ນບາດກ້າວໃນເສັ້ນທາງໄປສູ່ເຄື່ອງຈັກ AI ທີ່ສາມາດປຸງແຕ່ງທຸກຢ່າງແລະທຸກສິ່ງທຸກຢ່າງ.

ວິທີການທີ່ data2vec ປະຕິບັດການຄາດຄະເນຫນ້າກາກ, ແນວໃດກໍ່ຕາມ, ແມ່ນວິທີການທີ່ເອີ້ນວ່າການຮຽນຮູ້ "ການເບິ່ງແຍງຕົນເອງ". ໃນການຕັ້ງຄ່າການຄວບຄຸມຕົນເອງ, ເຄືອຂ່າຍ neural ແມ່ນການຝຶກອົບຮົມ, ຫຼືພັດທະນາ, ໂດຍຕ້ອງຜ່ານຫຼາຍຂັ້ນຕອນ. 

ທໍາອິດ, ເຄືອຂ່າຍກໍ່ສ້າງຕົວແທນຂອງຄວາມເປັນໄປໄດ້ຮ່ວມກັນຂອງການປ້ອນຂໍ້ມູນ, ບໍ່ວ່າຈະເປັນຮູບພາບຫຼືຄໍາເວົ້າຫຼືຂໍ້ຄວາມ. ຫຼັງຈາກນັ້ນ, ເຄືອຂ່າຍສະບັບທີສອງມີບາງລາຍການຂໍ້ມູນການປ້ອນຂໍ້ມູນເຫຼົ່ານັ້ນ "ຖືກປິດບັງ," ໄວ້ໂດຍບໍ່ໄດ້ເປີດເຜີຍ. ມັນຕ້ອງສ້າງຄວາມເປັນໄປໄດ້ຮ່ວມກັນທີ່ຮຸ່ນທໍາອິດຂອງເຄືອຂ່າຍກໍ່ສ້າງ, ເຊິ່ງບັງຄັບໃຫ້ມັນສ້າງການສະແດງຂໍ້ມູນທີ່ດີກວ່າແລະດີກວ່າໂດຍການຕື່ມຂໍ້ມູນໃສ່ໃນຊ່ອງຫວ່າງ. 

meta-2022-data2vec-network-architecture.jpg

ພາບລວມຂອງວິທີການ data2vec.


ເປົ້າຫມາຍ 2022

ທັງສອງເຄືອຂ່າຍ, ຫນຶ່ງທີ່ມີຮູບແບບເຕັມທີ່ຂອງຄວາມເປັນໄປໄດ້ຮ່ວມກັນ, ແລະຫນຶ່ງທີ່ມີສະບັບທີ່ບໍ່ສົມບູນທີ່ມັນກໍາລັງພະຍາຍາມສໍາເລັດ, ຖືກເອີ້ນວ່າ, "ອາຈານ" ແລະ "ນັກຮຽນ." ເຄືອຂ່າຍນັກຮຽນພະຍາຍາມພັດທະນາຄວາມຮູ້ສຶກຂອງຂໍ້ມູນ, ຖ້າເຈົ້າຈະ, ໂດຍການສ້າງສິ່ງທີ່ຄູໄດ້ບັນລຸແລ້ວ.

ເຈົ້າ​ສາ​ມາດ ເບິ່ງລະຫັດສໍາລັບຕົວແບບໃນ Github.

ເຄືອຂ່າຍ neural ປະຕິບັດການຂອງຄູແລະນັກຮຽນສໍາລັບສາມປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນແນວໃດ? ສິ່ງສໍາຄັນແມ່ນວ່າ "ເປົ້າຫມາຍ" ຂອງຄວາມເປັນໄປໄດ້ຮ່ວມກັນ, ໃນທັງສາມກໍລະນີຂໍ້ມູນ, ບໍ່ແມ່ນປະເພດຂໍ້ມູນຜົນຜະລິດສະເພາະ, ເຊັ່ນດຽວກັບສະບັບຂອງ Transformer ສໍາລັບປະເພດຂໍ້ມູນສະເພາະ, ເຊັ່ນ: BERT ຂອງ Google ຫຼື OpenAI's GPT-3. . 

ແທນທີ່ຈະ, data2vec ກໍາລັງຈັບເອົາບາງຊັ້ນເຄືອຂ່າຍ neural ທີ່ເປັນ ພາຍໃນ ເຄືອຂ່າຍ neural, ບາງບ່ອນຢູ່ໃນກາງ, ທີ່ເປັນຕົວແທນຂອງຂໍ້ມູນກ່ອນທີ່ມັນຈະຜະລິດເປັນຜົນຜະລິດສຸດທ້າຍ. 

ດັ່ງທີ່ຜູ້ຂຽນຂຽນ, "ຫນຶ່ງໃນຄວາມແຕກຕ່າງຕົ້ນຕໍຂອງວິທີການຂອງພວກເຮົາ [... ] ນອກ ເໜືອ ຈາກການປະຕິບັດການຄາດເດົາຫນ້າກາກ, ແມ່ນການໃຊ້ເປົ້າຫມາຍທີ່ອີງໃສ່ການສະເລ່ຍຫຼາຍຊັ້ນຈາກເຄືອຂ່າຍຄູ." ໂດຍສະເພາະ, "ພວກເຮົາ regress ການເປັນຕົວແທນຂອງຊັ້ນເຄືອຂ່າຍ neural ຫຼາຍແທນທີ່ຈະເປັນພຽງແຕ່ຊັ້ນເທິງ," ດັ່ງນັ້ນ "data2vec ຄາດຄະເນການເປັນຕົວແທນຂອງຂໍ້ມູນການປ້ອນຂໍ້ມູນລ້າໆ."

ພວກເຂົາກ່າວຕື່ມວ່າ, "ໂດຍທົ່ວໄປແລ້ວພວກເຮົາໃຊ້ຜົນຜະລິດຂອງ FFN [feed-forward network] ກ່ອນທີ່ຈະມີການເຊື່ອມຕໍ່ທີ່ເຫລືອລ້າສຸດໃນແຕ່ລະບລັອກເປັນເປົ້າຫມາຍ," ບ່ອນທີ່ "ຕັນ" ແມ່ນ Transformer ທຽບເທົ່າກັບຊັ້ນເຄືອຂ່າຍ neural.

ຈຸດ​ທີ່​ວ່າ​ທຸກ​ປະ​ເພດ​ຂໍ້​ມູນ​ທີ່​ເຂົ້າ​ໄປ​ກາຍ​ເປັນ​ການ​ທ້າ​ທາຍ​ດຽວ​ກັນ​ສໍາ​ລັບ​ເຄືອ​ຂ່າຍ​ນັກ​ສຶກ​ສາ​ໃນ​ການ reconstructing ບາງ​ສິ່ງ​ບາງ​ຢ່າງ​ຢູ່​ໃນ neural network ທີ່​ຄູ​ອາ​ຈານ​ໄດ້​ປະ​ກອບ​.

ໂດຍສະເລ່ຍນີ້ແມ່ນແຕກຕ່າງຈາກວິທີການອື່ນໆທີ່ຜ່ານມາໃນການສ້າງເຄືອຂ່າຍດຽວເພື່ອທໍາລາຍຂໍ້ມູນທັງຫມົດ. ຕົວຢ່າງ, ໃນຊ່ວງລຶະເບິ່ງຮ້ອນທີ່ຜ່ານມາ, ຫນ່ວຍບໍລິການ DeepMind ຂອງ Google ໄດ້ສະເຫນີສິ່ງທີ່ມັນເອີ້ນວ່າ "Perceiver," ຂອງຕົນເອງຫຼາຍຮູບແບບຂອງ Transformer. ການຝຶກອົບຮົມຂອງເຄືອຂ່າຍ neural ຂອງ Perceiver ແມ່ນຂະບວນການມາດຕະຖານຫຼາຍຂອງການຜະລິດຜົນຜະລິດທີ່ເປັນຄໍາຕອບຂອງວຽກງານທີ່ມີປ້າຍຊື່, ການຄວບຄຸມເຊັ່ນ ImageNet. ໃນວິທີການຄວບຄຸມຕົນເອງ, data2vec ບໍ່ໄດ້ໃຊ້ປ້າຍຊື່ເຫຼົ່ານັ້ນ, ມັນພຽງແຕ່ພະຍາຍາມສ້າງການເປັນຕົວແທນພາຍໃນຂອງເຄືອຂ່າຍຄືນໃຫມ່ຂອງຂໍ້ມູນ. 

ເຖິງແມ່ນວ່າຄວາມພະຍາຍາມທີ່ມີຄວາມທະເຍີທະຍານຫຼາຍຂື້ນຢູ່ໃນປີກ. Jeff Dean, ຫົວຫນ້າຄວາມພະຍາຍາມ AI ຂອງ Google, ໃນເດືອນຕຸລາ teased ກ່ຽວກັບ "Pathways," ສິ່ງທີ່ Dean ອ້າງວ່າເປັນ "ສະຖາປັດຕະຍະ ກຳ AI ລຸ້ນຕໍ່ໄປ” ສໍາລັບການປະມວນຜົນຂໍ້ມູນຫຼາຍຮູບແບບ.

ຈືຂໍ້ມູນການ, ວິທີການທົ່ວໄປຫຼາຍຂອງ data2vec ກັບຕາຫນ່າງ neural ດຽວສໍາລັບການຫຼາຍ modalities ຍັງມີຫຼາຍຂໍ້ມູນກ່ຽວກັບປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນ. ຮູບພາບ, ຄຳເວົ້າ ແລະຂໍ້ຄວາມຖືກກະກຽມທັງໝົດໂດຍການປະມວນຜົນຂໍ້ມູນກ່ອນ. ດ້ວຍວິທີນັ້ນ, ລັກສະນະຫຼາຍຮູບແບບຂອງເຄືອຂ່າຍຍັງອີງໃສ່ຂໍ້ຄຶດກ່ຽວກັບຂໍ້ມູນ, ສິ່ງທີ່ທີມງານຫມາຍເຖິງ "ຕົວເຂົ້າລະຫັດແບບຈໍາລອງສະເພາະຂະຫນາດນ້ອຍ."

ນອກຈາກນີ້: Google ເປີດຕົວ 'Pathways', AI ລຸ້ນຕໍ່ໄປທີ່ສາມາດຝຶກໄດ້ຫຼາຍວຽກ

"ເຖິງວ່າຈະມີລະບອບການຮຽນຮູ້ທີ່ເປັນເອກະພາບ, ພວກເຮົາຍັງໃຊ້ຕົວສະກັດຄຸນສົມບັດສະເພາະແລະກົນລະຍຸດການປິດບັງ,", ພວກເຂົາອະທິບາຍ.

ເພາະສະນັ້ນ, ພວກເຮົາຍັງບໍ່ທັນຢູ່ໃນໂລກທີ່ຕາຫນ່າງ neural ໄດ້ຖືກຝຶກອົບຮົມໂດຍບໍ່ມີຄວາມຮູ້ສຶກໃດໆຂອງປະເພດຂໍ້ມູນປ້ອນຂໍ້ມູນ. ພວກເຮົາຍັງບໍ່ຢູ່ໃນຈຸດເວລາທີ່ເຄືອຂ່າຍ neural ສາມາດສ້າງຕົວແທນຫນຶ່ງທີ່ລວມເອົາປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນທັງຫມົດ, ດັ່ງນັ້ນ neural net ແມ່ນການຮຽນຮູ້ສິ່ງຕ່າງໆປະສົມປະສານ.

ຄວາມຈິງນັ້ນແມ່ນຈະແຈ້ງຈາກການແລກປ່ຽນລະຫວ່າງ ZDNet ແລະຜູ້ຂຽນ. ZDNet ຍື່ນມືໄປຫາ Baevski ແລະທີມງານແລະຖາມວ່າ, "ການເປັນຕົວແທນທີ່ລ້າໆທີ່ເຮັດຫນ້າທີ່ເປັນເປົ້າຫມາຍຂອງການເຂົ້າລະຫັດລວມຂອງສາມຮູບແບບໃນຂັ້ນຕອນເວລາໃດກໍ່ຕາມ, ຫຼືພວກເຂົາມັກຈະເປັນວິທີການຫນຶ່ງ?"

Baevski ແລະທີມງານຕອບວ່າມັນແມ່ນກໍລະນີສຸດທ້າຍ, ແລະຂອງເຂົາເຈົ້າ reply ແມ່ນຫນ້າສົນໃຈທີ່ຈະອ້າງເຖິງຄວາມຍາວ:

ຕົວແປ latent ບໍ່ແມ່ນການເຂົ້າລະຫັດລວມກັນສໍາລັບສາມ modalities. ພວກ​ເຮົາ​ຝຶກ​ອົບ​ຮົມ​ຕົວ​ແບບ​ແຍກ​ຕ່າງ​ຫາກ​ສໍາ​ລັບ​ແຕ່​ລະ modality ແຕ່​ຂະ​ບວນ​ການ​ໂດຍ​ຜ່ານ​ການ​ທີ່​ຕົວ​ແບບ​ຮຽນ​ຮູ້​ແມ່ນ​ຄື​ກັນ​. ນີ້ແມ່ນນະວັດຕະກໍາຕົ້ນຕໍຂອງໂຄງການຂອງພວກເຮົານັບຕັ້ງແຕ່ກ່ອນທີ່ຈະມີຄວາມແຕກຕ່າງຂະຫນາດໃຫຍ່ໃນວິທີການຝຶກອົບຮົມໃນຮູບແບບທີ່ແຕກຕ່າງກັນ. ນັກວິທະຍາສາດດ້ານ neuroscientists ຍັງເຊື່ອວ່າມະນຸດຮຽນຮູ້ໃນລັກສະນະທີ່ຄ້າຍຄືກັນກ່ຽວກັບສຽງແລະໂລກສາຍຕາ. ໂຄງ​ການ​ຂອງ​ພວກ​ເຮົາ​ສະ​ແດງ​ໃຫ້​ເຫັນ​ວ່າ​ການ​ຮຽນ​ຮູ້​ຕົນ​ເອງ​ການ​ຄວບ​ຄຸມ​ຍັງ​ສາ​ມາດ​ເຮັດ​ວຽກ​ຄື​ກັນ​ສໍາ​ລັບ​ຮູບ​ແບບ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​.

ເນື່ອງຈາກຂໍ້ຈໍາກັດສະເພາະຂອງ modality ຂອງ data2vec, ເຄືອຂ່າຍ neural ທີ່ອາດຈະເປັນຢ່າງແທ້ຈິງ ເຄືອຂ່າຍດຽວເພື່ອປົກຄອງພວກເຂົາທັງຫມົດ ຍັງຄົງເປັນເຕັກໂນໂລຢີຂອງອະນາຄົດ.

ແຫຼ່ງຂໍ້ມູນ