'data2vec' ຂອງ Meta ແມ່ນຂັ້ນຕອນຕໍ່ໄປໄປສູ່ເຄືອຂ່າຍ Neural Network ເພື່ອປົກຄອງພວກເຂົາທັງຫມົດ

ການແຂ່ງຂັນແມ່ນເພື່ອສ້າງເຄືອຂ່າຍ neural ທີ່ສາມາດປະມວນຜົນຂໍ້ມູນຫຼາຍປະເພດ, ແນວຄວາມຄິດຂອງປັນຍາປະດິດທົ່ວໄປຫຼາຍທີ່ບໍ່ຈໍາແນກປະເພດຂອງຂໍ້ມູນແຕ່ແທນທີ່ຈະສາມາດທໍາລາຍພວກມັນທັງຫມົດພາຍໃນໂຄງສ້າງພື້ນຖານດຽວກັນ.

ປະເພດຂອງຫຼາຍຮູບແບບ, ຍ້ອນວ່າເຄືອຂ່າຍ neural ເຫຼົ່ານີ້ເອີ້ນວ່າ, ກໍາລັງເຫັນກິດຈະກໍາທີ່ວຸ່ນວາຍ, ເຊິ່ງຂໍ້ມູນທີ່ແຕກຕ່າງກັນເຊັ່ນ: ຮູບພາບ, ຂໍ້ຄວາມ, ແລະສຽງເວົ້າ, ແມ່ນຜ່ານສູດການຄິດໄລ່ດຽວກັນເພື່ອຜະລິດຄະແນນໃນການທົດສອບທີ່ແຕກຕ່າງກັນເຊັ່ນ: ການຮັບຮູ້ຮູບພາບ, ຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດຫຼືການກວດພົບສຽງເວົ້າ.

ແລະເຄືອຂ່າຍທີ່ບໍ່ຊ້ໍາກັນເຫຼົ່ານີ້ກໍາລັງເລັ່ງຄະແນນໃນການທົດສອບ benchmark ຂອງ AI. ຜົນສໍາເລັດຫຼ້າສຸດແມ່ນສິ່ງທີ່ເອີ້ນວ່າ 'data2vec,' ພັດທະນາໂດຍນັກຄົ້ນຄວ້າຢູ່ໃນພະແນກ AI ຂອງ Meta, ພໍ່ແມ່ຂອງ Facebook, Instagram ແລະ WhatsApp.

ຈຸດ, ຍ້ອນວ່ານັກວິທະຍາສາດຂອງ Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, ແລະ Michael Auli, ຂຽນ, ແມ່ນການເຂົ້າຫາບາງສິ່ງບາງຢ່າງທີ່ຄ້າຍຄືກັບຄວາມສາມາດໃນການຮຽນຮູ້ທົ່ວໄປທີ່ຈິດໃຈຂອງມະນຸດເບິ່ງຄືວ່າກວມເອົາ.

"ໃນຂະນະທີ່ປະຊາຊົນເບິ່ງຄືວ່າຈະຮຽນຮູ້ໃນລັກສະນະທີ່ຄ້າຍຄືກັນໂດຍບໍ່ຄໍານຶງເຖິງວິທີການທີ່ເຂົາເຈົ້າໄດ້ຮັບຂໍ້ມູນ - ບໍ່ວ່າຈະໃຊ້ສາຍຕາຫຼືສຽງ, ສໍາລັບການຍົກຕົວຢ່າງ," ຜູ້ຂຽນຂຽນ. ໃນ blog post, "ປະຈຸບັນມີຄວາມແຕກຕ່າງອັນໃຫຍ່ຫຼວງໃນວິທີການ" ເຄືອຂ່າຍ neural ຈັດການກັບຂໍ້ມູນປະເພດຕ່າງໆເຊັ່ນຮູບພາບ, ການເວົ້າ, ຂໍ້ຄວາມ, "ແລະຮູບແບບອື່ນໆ."

"ແນວຄວາມຄິດຫຼັກຂອງວິທີການນີ້," ພວກເຂົາເຈົ້າປະກາດຂອງ data2vec, "ແມ່ນເພື່ອຮຽນຮູ້ເພີ່ມເຕີມໂດຍທົ່ວໄປ: AI ຄວນຈະສາມາດຮຽນຮູ້ທີ່ຈະເຮັດຫຼາຍວຽກງານທີ່ແຕກຕ່າງກັນ, ລວມທັງສິ່ງທີ່ບໍ່ຄຸ້ນເຄີຍທັງຫມົດ."

CEO ຂອງ Meta, Mark Zuckerberg, ສະເຫນີຄໍາເວົ້າກ່ຽວກັບວຽກງານ, ເຊື່ອມໂຍງກັບ Metaverse ໃນອະນາຄົດ:

ຄວາມສຳເລັດທີ່ໜ້າຕື່ນເຕັ້ນ: ການຄົ້ນຄວ້າ Meta AI ໄດ້ສ້າງລະບົບທີ່ຮຽນຮູ້ຈາກການເວົ້າ, ການເບິ່ງເຫັນ ແລະ ຂໍ້ຄວາມໂດຍບໍ່ຈໍາເປັນຕ້ອງມີຂໍ້ມູນການຝຶກອົບຮົມທີ່ມີປ້າຍຊື່. ຜູ້ຄົນໄດ້ປະສົບກັບໂລກໂດຍການປະສົມປະສານຂອງການເຫັນ, ສຽງ ແລະຄຳສັບ, ແລະລະບົບເຊັ່ນນີ້ມື້ໜຶ່ງຈະສາມາດເຂົ້າໃຈໂລກໃນແບບທີ່ເຮົາເຮັດ. ອັນນີ້ໃນທີ່ສຸດຈະສ້າງເປັນແວ່ນຕາ AR ດ້ວຍຜູ້ຊ່ວຍ AI ດັ່ງນັ້ນ, ຕົວຢ່າງ, ມັນສາມາດຊ່ວຍໃຫ້ທ່ານແຕ່ງກິນຄ່ໍາ, ສັງເກດເຫັນວ່າເຈົ້າພາດສ່ວນປະກອບ, ກະຕຸ້ນໃຫ້ທ່ານປິດຄວາມຮ້ອນ, ຫຼືວຽກງານທີ່ສັບສົນຫຼາຍ.

ຊື່ data2vec ແມ່ນການຫຼິ້ນໃນຊື່ຂອງໂຄງການສໍາລັບພາສາ "ຝັງ" ພັດທະນາຢູ່ Google ໃນປີ 2013 ເອີ້ນວ່າ "word2vec." ໂປຣແກຣມນັ້ນໄດ້ຄາດຄະເນວ່າຄຳສັບຈະຮວມກັນແນວໃດ, ແລະດັ່ງນັ້ນ word2vec ມັນເປັນຕົວແທນຂອງເຄືອຂ່າຍ neural ທີ່ອອກແບບມາສຳລັບຂໍ້ມູນສະເພາະໃດໜຶ່ງ, ໃນກໍລະນີນັ້ນ.

ນອກຈາກນີ້: ເປີດປະຕູເບາະ, ກະລຸນາ, HAL: AI ຂອງເມຕາຈຳລອງການອ່ານປາກ

ຢ່າງໃດກໍຕາມ, ໃນກໍລະນີຂອງ data2vec, Baevski ແລະເພື່ອນຮ່ວມງານກໍາລັງໃຊ້ສະບັບມາດຕະຖານຂອງສິ່ງທີ່ເອີ້ນວ່າ Transformer, ພັດທະນາໂດຍ Ashish Vaswani ແລະເພື່ອນຮ່ວມງານ. ທີ່ Google ໃນປີ 2017 ແລະຂະຫຍາຍມັນເພື່ອໃຊ້ສໍາລັບຂໍ້ມູນຫຼາຍປະເພດ.

ເຄືອຂ່າຍ neural ຂອງ Transformer ໄດ້ຖືກພັດທະນາໃນເບື້ອງຕົ້ນສໍາລັບວຽກງານພາສາ, ແຕ່ມັນໄດ້ຖືກດັດແປງຢ່າງກວ້າງຂວາງໃນປີນັບຕັ້ງແຕ່ສໍາລັບຂໍ້ມູນຫຼາຍປະເພດ. Baevski et al. ສະແດງໃຫ້ເຫັນວ່າ Transformer ສາມາດຖືກນໍາໃຊ້ເພື່ອປະມວນຜົນຂໍ້ມູນຫຼາຍປະເພດໂດຍບໍ່ມີການປ່ຽນແປງ, ແລະເຄືອຂ່າຍ neural ທີ່ໄດ້ຮັບການຝຶກອົບຮົມຜົນໄດ້ຮັບສາມາດປະຕິບັດໃນຫຼາຍວຽກງານທີ່ແຕກຕ່າງກັນ.

ໃນເອກະສານທາງການ, "data2vec: ຂອບວຽກທົ່ວໄປສໍາລັບການຮຽນຮູ້ດ້ວຍຕົນເອງໃນການປາກເວົ້າ, ວິໄສທັດ ແລະພາສາ,” Baevski et al., ຝຶກອົບຮົມ Transformer ສໍາລັບຂໍ້ມູນຮູບພາບ, ຮູບແບບຄື້ນສຽງເວົ້າ, ແລະການເປັນຕົວແທນຂອງພາສາຂໍ້ຄວາມ.

Data2vec ແມ່ນ "ລະບົບການເບິ່ງແຍງຕົນເອງທີ່ມີປະສິດທິພາບສູງອັນທໍາອິດທີ່ເຮັດວຽກສໍາລັບຫຼາຍຮູບແບບ, ຄືການປາກເວົ້າ, ວິໄສທັດ, ແລະຂໍ້ຄວາມ," ຂຽນ Baevski ແລະທີມງານໃນບົດຄວາມ blog.

Transformer ທົ່ວໄປຫຼາຍກາຍເປັນສິ່ງທີ່ເອີ້ນວ່າການຝຶກອົບຮົມກ່ອນການຝຶກອົບຮົມທີ່ຫຼັງຈາກນັ້ນສາມາດຖືກນໍາໃຊ້ກັບເຄືອຂ່າຍ neural ສະເພາະເພື່ອປະຕິບັດວຽກງານສະເພາະ. ຕົວຢ່າງ, ຜູ້ຂຽນໃຊ້ data2vec ເປັນການຝຶກອົບຮົມກ່ອນການປະກອບສິ່ງທີ່ເອີ້ນວ່າ "ViT," "ວິໄສທັດ Transformer," ເຄືອຂ່າຍ neural ອອກແບບໂດຍສະເພາະສໍາລັບວຽກງານວິໄສທັດທີ່. ໄດ້ຖືກນໍາສະເຫນີໃນປີກາຍນີ້ ໂດຍ Alexey Dosovitskiy ແລະເພື່ອນຮ່ວມງານຢູ່ Google.

Popular now
ທົບທວນຄືນ Wyze Switch | PCMag

Meta ສະແດງໃຫ້ເຫັນຄະແນນສູງສຸດສໍາລັບການແຂ່ງຂັນການຮັບຮູ້ຮູບພາບ ImageNet ທີ່ເຄົາລົບ.

ເປົ້າຫມາຍ 2022

ເມື່ອນໍາໃຊ້ໃນ ViT ເພື່ອພະຍາຍາມແກ້ໄຂການທົດສອບການຮັບຮູ້ຮູບພາບຂອງ ImageNet ມາດຕະຖານ, ຜົນໄດ້ຮັບຂອງພວກເຂົາມາຢູ່ເທິງສຸດຂອງຊຸດ, ດ້ວຍຄວາມຖືກຕ້ອງຂອງ 84.1%, ດີກວ່າຄະແນນຂອງ 83.2% ທີ່ໄດ້ຮັບໂດຍທີມງານຂອງ Microsoft ທີ່ຜ່ານການຝຶກອົບຮົມກ່ອນ. ViT ນຳໂດຍ Hangbo Bao, ປີທີ່ຜ່ານມາ.

ແລະ data2vec Transformer ດຽວກັນໃຫ້ຜົນໄດ້ຮັບທີ່ມີລັກສະນະສິລະປະສໍາລັບການຮັບຮູ້ສຽງເວົ້າແລະການແຂ່ງຂັນ, ຖ້າບໍ່ແມ່ນທີ່ດີທີ່ສຸດ, ສໍາລັບການຮຽນຮູ້ພາສາທໍາມະຊາດ:

ຜົນໄດ້ຮັບຈາກການທົດລອງສະແດງໃຫ້ເຫັນວ່າ data2vec ມີປະສິດທິພາບໃນທັງສາມຮູບແບບ, ກໍານົດສະຖານະໃຫມ່ຂອງ ViT-B ແລະ ViT-L ໃນ ImageNet-1K, ປັບປຸງການເຮັດວຽກທີ່ດີທີ່ສຸດກ່ອນຫນ້າໃນການປຸງແຕ່ງຄໍາເວົ້າກ່ຽວກັບການຮັບຮູ້ສຽງເວົ້າແລະການປະຕິບັດເທົ່າກັບ RoBERTa. ຢູ່ໃນມາດຕະຖານຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດ GLUE.

ຂໍ້ຄຶດແມ່ນວ່ານີ້ແມ່ນເກີດຂຶ້ນໂດຍບໍ່ມີການດັດແປງໃດໆຂອງເຄືອຂ່າຍ neural ທີ່ຈະກ່ຽວກັບຮູບພາບ, ແລະດຽວກັນສໍາລັບການປາກເວົ້າແລະຂໍ້ຄວາມ. ແທນທີ່ຈະ, ທຸກໆປະເພດການປ້ອນຂໍ້ມູນຈະເຂົ້າໄປໃນເຄືອຂ່າຍດຽວກັນ, ແລະກໍາລັງສໍາເລັດວຽກງານທົ່ວໄປດຽວກັນ. ວຽກງານນັ້ນແມ່ນວຽກງານດຽວກັນທີ່ເຄືອຂ່າຍ Transformer ໃຊ້ຢູ່ສະເໝີ, ເອີ້ນວ່າ "ການຄາດເດົາໜ້າກາກ."

ນອກຈາກນີ້: Supermodel ຂອງ Google: DeepMind Perceiver ແມ່ນບາດກ້າວໃນເສັ້ນທາງໄປສູ່ເຄື່ອງຈັກ AI ທີ່ສາມາດປຸງແຕ່ງທຸກຢ່າງແລະທຸກສິ່ງທຸກຢ່າງ.

ວິທີການທີ່ data2vec ປະຕິບັດການຄາດຄະເນຫນ້າກາກ, ແນວໃດກໍ່ຕາມ, ແມ່ນວິທີການທີ່ເອີ້ນວ່າການຮຽນຮູ້ "ການເບິ່ງແຍງຕົນເອງ". ໃນການຕັ້ງຄ່າການຄວບຄຸມຕົນເອງ, ເຄືອຂ່າຍ neural ແມ່ນການຝຶກອົບຮົມ, ຫຼືພັດທະນາ, ໂດຍຕ້ອງຜ່ານຫຼາຍຂັ້ນຕອນ.

ທໍາອິດ, ເຄືອຂ່າຍກໍ່ສ້າງຕົວແທນຂອງຄວາມເປັນໄປໄດ້ຮ່ວມກັນຂອງການປ້ອນຂໍ້ມູນ, ບໍ່ວ່າຈະເປັນຮູບພາບຫຼືຄໍາເວົ້າຫຼືຂໍ້ຄວາມ. ຫຼັງຈາກນັ້ນ, ເຄືອຂ່າຍສະບັບທີສອງມີບາງລາຍການຂໍ້ມູນການປ້ອນຂໍ້ມູນເຫຼົ່ານັ້ນ "ຖືກປິດບັງ," ໄວ້ໂດຍບໍ່ໄດ້ເປີດເຜີຍ. ມັນຕ້ອງສ້າງຄວາມເປັນໄປໄດ້ຮ່ວມກັນທີ່ຮຸ່ນທໍາອິດຂອງເຄືອຂ່າຍກໍ່ສ້າງ, ເຊິ່ງບັງຄັບໃຫ້ມັນສ້າງການສະແດງຂໍ້ມູນທີ່ດີກວ່າແລະດີກວ່າໂດຍການຕື່ມຂໍ້ມູນໃສ່ໃນຊ່ອງຫວ່າງ.

ພາບລວມຂອງວິທີການ data2vec.

ເປົ້າຫມາຍ 2022

ທັງສອງເຄືອຂ່າຍ, ຫນຶ່ງທີ່ມີຮູບແບບເຕັມທີ່ຂອງຄວາມເປັນໄປໄດ້ຮ່ວມກັນ, ແລະຫນຶ່ງທີ່ມີສະບັບທີ່ບໍ່ສົມບູນທີ່ມັນກໍາລັງພະຍາຍາມສໍາເລັດ, ຖືກເອີ້ນວ່າ, "ອາຈານ" ແລະ "ນັກຮຽນ." ເຄືອຂ່າຍນັກຮຽນພະຍາຍາມພັດທະນາຄວາມຮູ້ສຶກຂອງຂໍ້ມູນ, ຖ້າເຈົ້າຈະ, ໂດຍການສ້າງສິ່ງທີ່ຄູໄດ້ບັນລຸແລ້ວ.

ເຈົ້າສາມາດ ເບິ່ງລະຫັດສໍາລັບຕົວແບບໃນ Github.

ເຄືອຂ່າຍ neural ປະຕິບັດການຂອງຄູແລະນັກຮຽນສໍາລັບສາມປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນແນວໃດ? ສິ່ງສໍາຄັນແມ່ນວ່າ "ເປົ້າຫມາຍ" ຂອງຄວາມເປັນໄປໄດ້ຮ່ວມກັນ, ໃນທັງສາມກໍລະນີຂໍ້ມູນ, ບໍ່ແມ່ນປະເພດຂໍ້ມູນຜົນຜະລິດສະເພາະ, ເຊັ່ນດຽວກັບສະບັບຂອງ Transformer ສໍາລັບປະເພດຂໍ້ມູນສະເພາະ, ເຊັ່ນ: BERT ຂອງ Google ຫຼື OpenAI's GPT-3. .

ແທນທີ່ຈະ, data2vec ກໍາລັງຈັບເອົາບາງຊັ້ນເຄືອຂ່າຍ neural ທີ່ເປັນ ພາຍໃນ ເຄືອຂ່າຍ neural, ບາງບ່ອນຢູ່ໃນກາງ, ທີ່ເປັນຕົວແທນຂອງຂໍ້ມູນກ່ອນທີ່ມັນຈະຜະລິດເປັນຜົນຜະລິດສຸດທ້າຍ.

ດັ່ງທີ່ຜູ້ຂຽນຂຽນ, "ຫນຶ່ງໃນຄວາມແຕກຕ່າງຕົ້ນຕໍຂອງວິທີການຂອງພວກເຮົາ [... ] ນອກ ເໜືອ ຈາກການປະຕິບັດການຄາດເດົາຫນ້າກາກ, ແມ່ນການໃຊ້ເປົ້າຫມາຍທີ່ອີງໃສ່ການສະເລ່ຍຫຼາຍຊັ້ນຈາກເຄືອຂ່າຍຄູ." ໂດຍສະເພາະ, "ພວກເຮົາ regress ການເປັນຕົວແທນຂອງຊັ້ນເຄືອຂ່າຍ neural ຫຼາຍແທນທີ່ຈະເປັນພຽງແຕ່ຊັ້ນເທິງ," ດັ່ງນັ້ນ "data2vec ຄາດຄະເນການເປັນຕົວແທນຂອງຂໍ້ມູນການປ້ອນຂໍ້ມູນລ້າໆ."

ພວກເຂົາກ່າວຕື່ມວ່າ, "ໂດຍທົ່ວໄປແລ້ວພວກເຮົາໃຊ້ຜົນຜະລິດຂອງ FFN [feed-forward network] ກ່ອນທີ່ຈະມີການເຊື່ອມຕໍ່ທີ່ເຫລືອລ້າສຸດໃນແຕ່ລະບລັອກເປັນເປົ້າຫມາຍ," ບ່ອນທີ່ "ຕັນ" ແມ່ນ Transformer ທຽບເທົ່າກັບຊັ້ນເຄືອຂ່າຍ neural.

ຈຸດທີ່ວ່າທຸກປະເພດຂໍ້ມູນທີ່ເຂົ້າໄປກາຍເປັນການທ້າທາຍດຽວກັນສໍາລັບເຄືອຂ່າຍນັກສຶກສາໃນການ reconstructing ບາງສິ່ງບາງຢ່າງຢູ່ໃນ neural network ທີ່ຄູອາຈານໄດ້ປະກອບ.

ໂດຍສະເລ່ຍນີ້ແມ່ນແຕກຕ່າງຈາກວິທີການອື່ນໆທີ່ຜ່ານມາໃນການສ້າງເຄືອຂ່າຍດຽວເພື່ອທໍາລາຍຂໍ້ມູນທັງຫມົດ. ຕົວຢ່າງ, ໃນຊ່ວງລຶະເບິ່ງຮ້ອນທີ່ຜ່ານມາ, ຫນ່ວຍບໍລິການ DeepMind ຂອງ Google ໄດ້ສະເຫນີສິ່ງທີ່ມັນເອີ້ນວ່າ "Perceiver," ຂອງຕົນເອງຫຼາຍຮູບແບບຂອງ Transformer. ການຝຶກອົບຮົມຂອງເຄືອຂ່າຍ neural ຂອງ Perceiver ແມ່ນຂະບວນການມາດຕະຖານຫຼາຍຂອງການຜະລິດຜົນຜະລິດທີ່ເປັນຄໍາຕອບຂອງວຽກງານທີ່ມີປ້າຍຊື່, ການຄວບຄຸມເຊັ່ນ ImageNet. ໃນວິທີການຄວບຄຸມຕົນເອງ, data2vec ບໍ່ໄດ້ໃຊ້ປ້າຍຊື່ເຫຼົ່ານັ້ນ, ມັນພຽງແຕ່ພະຍາຍາມສ້າງການເປັນຕົວແທນພາຍໃນຂອງເຄືອຂ່າຍຄືນໃຫມ່ຂອງຂໍ້ມູນ.

ເຖິງແມ່ນວ່າຄວາມພະຍາຍາມທີ່ມີຄວາມທະເຍີທະຍານຫຼາຍຂື້ນຢູ່ໃນປີກ. Jeff Dean, ຫົວຫນ້າຄວາມພະຍາຍາມ AI ຂອງ Google, ໃນເດືອນຕຸລາ teased ກ່ຽວກັບ "Pathways," ສິ່ງທີ່ Dean ອ້າງວ່າເປັນ "ສະຖາປັດຕະຍະ ກຳ AI ລຸ້ນຕໍ່ໄປ” ສໍາລັບການປະມວນຜົນຂໍ້ມູນຫຼາຍຮູບແບບ.

ຈືຂໍ້ມູນການ, ວິທີການທົ່ວໄປຫຼາຍຂອງ data2vec ກັບຕາຫນ່າງ neural ດຽວສໍາລັບການຫຼາຍ modalities ຍັງມີຫຼາຍຂໍ້ມູນກ່ຽວກັບປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນ. ຮູບພາບ, ຄຳເວົ້າ ແລະຂໍ້ຄວາມຖືກກະກຽມທັງໝົດໂດຍການປະມວນຜົນຂໍ້ມູນກ່ອນ. ດ້ວຍວິທີນັ້ນ, ລັກສະນະຫຼາຍຮູບແບບຂອງເຄືອຂ່າຍຍັງອີງໃສ່ຂໍ້ຄຶດກ່ຽວກັບຂໍ້ມູນ, ສິ່ງທີ່ທີມງານຫມາຍເຖິງ "ຕົວເຂົ້າລະຫັດແບບຈໍາລອງສະເພາະຂະຫນາດນ້ອຍ."

ນອກຈາກນີ້: Google ເປີດຕົວ 'Pathways', AI ລຸ້ນຕໍ່ໄປທີ່ສາມາດຝຶກໄດ້ຫຼາຍວຽກ

"ເຖິງວ່າຈະມີລະບອບການຮຽນຮູ້ທີ່ເປັນເອກະພາບ, ພວກເຮົາຍັງໃຊ້ຕົວສະກັດຄຸນສົມບັດສະເພາະແລະກົນລະຍຸດການປິດບັງ,", ພວກເຂົາອະທິບາຍ.

ເພາະສະນັ້ນ, ພວກເຮົາຍັງບໍ່ທັນຢູ່ໃນໂລກທີ່ຕາຫນ່າງ neural ໄດ້ຖືກຝຶກອົບຮົມໂດຍບໍ່ມີຄວາມຮູ້ສຶກໃດໆຂອງປະເພດຂໍ້ມູນປ້ອນຂໍ້ມູນ. ພວກເຮົາຍັງບໍ່ຢູ່ໃນຈຸດເວລາທີ່ເຄືອຂ່າຍ neural ສາມາດສ້າງຕົວແທນຫນຶ່ງທີ່ລວມເອົາປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນທັງຫມົດ, ດັ່ງນັ້ນ neural net ແມ່ນການຮຽນຮູ້ສິ່ງຕ່າງໆປະສົມປະສານ.

ຄວາມຈິງນັ້ນແມ່ນຈະແຈ້ງຈາກການແລກປ່ຽນລະຫວ່າງ ZDNet ແລະຜູ້ຂຽນ. ZDNet ຍື່ນມືໄປຫາ Baevski ແລະທີມງານແລະຖາມວ່າ, "ການເປັນຕົວແທນທີ່ລ້າໆທີ່ເຮັດຫນ້າທີ່ເປັນເປົ້າຫມາຍຂອງການເຂົ້າລະຫັດລວມຂອງສາມຮູບແບບໃນຂັ້ນຕອນເວລາໃດກໍ່ຕາມ, ຫຼືພວກເຂົາມັກຈະເປັນວິທີການຫນຶ່ງ?"

Baevski ແລະທີມງານຕອບວ່າມັນແມ່ນກໍລະນີສຸດທ້າຍ, ແລະຂອງເຂົາເຈົ້າ reply ແມ່ນຫນ້າສົນໃຈທີ່ຈະອ້າງເຖິງຄວາມຍາວ:

ຕົວແປ latent ບໍ່ແມ່ນການເຂົ້າລະຫັດລວມກັນສໍາລັບສາມ modalities. ພວກເຮົາຝຶກອົບຮົມຕົວແບບແຍກຕ່າງຫາກສໍາລັບແຕ່ລະ modality ແຕ່ຂະບວນການໂດຍຜ່ານການທີ່ຕົວແບບຮຽນຮູ້ແມ່ນຄືກັນ. ນີ້ແມ່ນນະວັດຕະກໍາຕົ້ນຕໍຂອງໂຄງການຂອງພວກເຮົານັບຕັ້ງແຕ່ກ່ອນທີ່ຈະມີຄວາມແຕກຕ່າງຂະຫນາດໃຫຍ່ໃນວິທີການຝຶກອົບຮົມໃນຮູບແບບທີ່ແຕກຕ່າງກັນ. ນັກວິທະຍາສາດດ້ານ neuroscientists ຍັງເຊື່ອວ່າມະນຸດຮຽນຮູ້ໃນລັກສະນະທີ່ຄ້າຍຄືກັນກ່ຽວກັບສຽງແລະໂລກສາຍຕາ. ໂຄງການຂອງພວກເຮົາສະແດງໃຫ້ເຫັນວ່າການຮຽນຮູ້ຕົນເອງການຄວບຄຸມຍັງສາມາດເຮັດວຽກຄືກັນສໍາລັບຮູບແບບທີ່ແຕກຕ່າງກັນ.

ເນື່ອງຈາກຂໍ້ຈໍາກັດສະເພາະຂອງ modality ຂອງ data2vec, ເຄືອຂ່າຍ neural ທີ່ອາດຈະເປັນຢ່າງແທ້ຈິງ ເຄືອຂ່າຍດຽວເພື່ອປົກຄອງພວກເຂົາທັງຫມົດ ຍັງຄົງເປັນເຕັກໂນໂລຢີຂອງອະນາຄົດ.

ແຫຼ່ງຂໍ້ມູນ

Post ທີ່ຜ່ານມາ

Post ຕໍ່ໄປ

Keep Calm and Stay Smart

01:13

ທີມງານຂອງພວກເຮົາທົດສອບຢ່າງເປັນມືອາຊີບຫຼາຍຮ້ອຍຊອບແວ, ບໍລິການ ແລະຍຸດທະສາດທຸລະກິດໃນແຕ່ລະປີຜ່ານທີ່ປຶກສາຂອງພວກເຮົາເອງ ແລະຄະນະຜູ້ນໍາທຸລະກິດ.

ພວກເຮົາເລືອກເອົາການແກ້ໄຂຢ່າງເຂັ້ມງວດພຽງແຕ່ດ້ວຍອັດຕາສ່ວນຜົນປະໂຫຍດສູງສຸດທີ່ງ່າຍຕໍ່ການໃຊ້, ຜູ້ທີ່ປະສົມປະສານຢ່າງເຫມາະສົມເຂົ້າໄປໃນປະເພດຂອງອົງການໃດກໍ່ຕາມແລະປະກອບມີລັກສະນະຊັ້ນນໍາເພື່ອຮັບປະກັນໃຫ້ທ່ານຢູ່ເທິງສຸດຂອງພາກທຸລະກິດຂອງທ່ານ.

'data2vec' ຂອງ Meta ແມ່ນຂັ້ນຕອນຕໍ່ໄປໄປສູ່ເຄືອຂ່າຍ Neural Network ເພື່ອປົກຄອງພວກເຂົາທັງຫມົດ

ຊອບແວທີ່ຕ້ອງມີໃນປີ 2024

ປະເພດອັນດັບ

ຄຳ ຕິຊົມຫຼ້າສຸດ

ວິດີໂອຕົວຢ່າງຂອງ Samsung Galaxy Z Flip 5, ກ່ອນເຫດການ Galaxy Unpacked, ສະແດງໃຫ້ເຫັນການອອກແບບ Hinge ໃຫມ່, ທາງເລືອກສີ

Twitter ກໍາລັງຈໍາກັດຈໍານວນ DMs ຜູ້ໃຊ້ທີ່ບໍ່ໄດ້ຮັບການຢັ້ງຢືນສາມາດສົ່ງໄດ້

ໂທລະສັບ Android ທີ່ຂ້ອຍມັກສາມາດເຮັດສິ່ງທີ່ iPhone 14 Pro Max ຂອງຂ້ອຍເຮັດບໍ່ໄດ້

ChatGPT ສໍາລັບ Android ກໍາລັງເປີດຕົວໃນອາທິດຫນ້າ, ແລະທ່ານສາມາດລົງທະບຽນລ່ວງຫນ້າໄດ້ໃນປັດຈຸບັນ

Xiaomi Smart TV 32A, Smart TV 40A, Smart TV 43A ກັບ Google TV, ລໍາໂພງ 20W ເປີດຕົວໃນປະເທດອິນເດຍ: : ລາຄາ, ຂໍ້ມູນຈໍາເພາະ

ແບດເຕີລີ່ທີ່ກິນໄດ້ນີ້ສາມາດພະລັງງານໂລກຂອງການວິນິດໄສແລະພະລັງງານທີ່ຍືນຍົງ