Meta's AI guru LeCun: ສ່ວນໃຫຍ່ຂອງວິທີການ AI ໃນມື້ນີ້ຈະບໍ່ນໍາໄປສູ່ປັນຍາທີ່ແທ້ຈິງ.

yann-lecun-sept-2022-1

Yann LeCun, ຫົວຫນ້ານັກວິທະຍາສາດ AI ຂອງ Meta ກ່າວວ່າ "ຂ້ອຍຄິດວ່າລະບົບ AI ຈໍາເປັນຕ້ອງສາມາດສົມເຫດສົມຜົນ". ວິທີການ AI ທີ່ນິຍົມໃນມື້ນີ້ເຊັ່ນ Transformers, ຫຼາຍໆຢ່າງທີ່ສ້າງຂຶ້ນຕາມການບຸກເບີກຂອງຕົນເອງໃນພາກສະຫນາມ, ຈະບໍ່ພຽງພໍ. ທ່ານ LeCun ເວົ້າວ່າ “ເຈົ້າຕ້ອງຖອຍຫລັງ ແລະເວົ້າວ່າ, ໂອເຄ, ພວກເຮົາໄດ້ສ້າງຂັ້ນໄດນີ້, ແຕ່ພວກເຮົາຕ້ອງການໄປດວງຈັນ, ແລະບໍ່ມີທາງທີ່ຂັ້ນໄດນີ້ຈະໄປຮອດພວກເຮົາໄປຮອດບ່ອນນັ້ນໄດ້,” LeCun ເວົ້າ.

Yann LeCun, ຫົວໜ້ານັກວິທະຍາສາດ AI ຂອງ Meta Properties, ເຈົ້າຂອງ Facebook, Instagram, ແລະ WhatsApp, ມີແນວໂນ້ມທີ່ຈະ tick off ຫຼາຍຄົນໃນພາກສະຫນາມຂອງລາວ. 

ດ້ວຍການປະກາດໃນເດືອນມິຖຸນາຂອງຊິ້ນຄິດ ໃນເຊີບເວີການທົບທວນເປີດ, LeCun ໄດ້ສະເຫນີພາບລວມຢ່າງກວ້າງຂວາງຂອງວິທີການທີ່ລາວຄິດວ່າຖືສັນຍາສໍາລັບການບັນລຸຄວາມສະຫລາດລະດັບມະນຸດໃນເຄື່ອງຈັກ. 

ໂດຍອ້າງອີງຖ້າບໍ່ເວົ້າໃນເອກະສານແມ່ນການຂັດແຍ້ງວ່າໂຄງການໃຫຍ່ໆໃນ AI ສ່ວນໃຫຍ່ໃນມື້ນີ້ຈະບໍ່ສາມາດບັນລຸເປົ້າຫມາຍລະດັບມະນຸດໄດ້.

ໃນ​ການ​ສົນ​ທະ​ນາ​ໃນ​ເດືອນ​ນີ້​ກັບ ZDNet ໂດຍຜ່ານ Zoom, LeCun ໄດ້ກ່າວຢ່າງຈະແຈ້ງວ່າລາວເບິ່ງດ້ວຍຄວາມສົງໄສຢ່າງໃຫຍ່ຫຼວງຫຼາຍຊ່ອງທາງທີ່ປະສົບຜົນສໍາເລັດທີ່ສຸດຂອງການຄົ້ນຄວ້າໃນການຮຽນຮູ້ເລິກເຊິ່ງໃນເວລານີ້.

"ຂ້າພະເຈົ້າຄິດວ່າພວກເຂົາມີຄວາມຈໍາເປັນແຕ່ບໍ່ພຽງພໍ," ຜູ້ຊະນະລາງວັນ Turing ກ່າວ ZDNet ຂອງ​ການ​ສະ​ແຫວງ​ຫາ​ເພື່ອນ​ຮ່ວມ​ງານ​ຂອງ​ຕົນ​. 

ເຫຼົ່ານັ້ນປະກອບມີຮູບແບບພາສາຂະຫນາດໃຫຍ່ເຊັ່ນ GPT-3 ທີ່ອີງໃສ່ Transformer ແລະ ilk ຂອງເຂົາເຈົ້າ. ໃນຖານະເປັນ LeCun ມີລັກສະນະມັນ, ຜູ້ອຸທິດຕົນຂອງ Transformer ເຊື່ອວ່າ, "ພວກເຮົາ tokenize ທຸກສິ່ງທຸກຢ່າງ, ແລະຝຶກອົບຮົມຂະຫນາດໃຫຍ່.ແບບຈໍາລອງເພື່ອເຮັດໃຫ້ການຄາດຄະເນທີ່ແຍກຕ່າງຫາກ, ແລະບາງທີ AI ຈະອອກມາຈາກສິ່ງນີ້."

"ພວກເຂົາບໍ່ຜິດ," ລາວເວົ້າວ່າ, "ໃນຄວາມຫມາຍທີ່ອາດຈະເປັນອົງປະກອບຂອງລະບົບອັດສະລິຍະໃນອະນາຄົດ, ແຕ່ຂ້ອຍຄິດວ່າມັນຂາດຊິ້ນສ່ວນທີ່ສໍາຄັນ."

ນອກຈາກນີ້: LeCun luminary AI ຂອງ Meta ສຳຫຼວດດ້ານພະລັງງານຂອງການຮຽນຮູ້ຢ່າງເລິກເຊິ່ງ

ມັນເປັນການວິພາກວິຈານທີ່ຫນ້າຕື່ນຕາຕື່ນໃຈຂອງສິ່ງທີ່ເບິ່ງຄືວ່າໄດ້ເຮັດວຽກມາຈາກນັກວິຊາການຜູ້ທີ່ສົມບູນແບບໃນການນໍາໃຊ້ເຄືອຂ່າຍ neural convolutional, ເຕັກນິກການປະຕິບັດທີ່ໄດ້ຮັບຜົນຜະລິດຢ່າງບໍ່ຫນ້າເຊື່ອໃນໂຄງການການຮຽນຮູ້ເລິກ. 

LeCun ເຫັນຂໍ້ບົກພ່ອງແລະຂໍ້ຈໍາກັດໃນຫຼາຍໆດ້ານທີ່ປະສົບຜົນສໍາເລັດສູງຂອງລະບຽບວິໄນ. 

ການເສີມສ້າງການຮຽນຮູ້ຈະບໍ່ພຽງພໍ, ລາວຮັກສາ. ນັກຄົ້ນຄວ້າເຊັ່ນ David Silver ຂອງ DeepMind, ຜູ້ທີ່ພັດທະນາໂຄງການ AlphaZero ທີ່ຊໍານິຊໍານານ Chess, Shogi ແລະ Go, ກໍາລັງສຸມໃສ່ໂຄງການທີ່ມີ "ການປະຕິບັດຫຼາຍ", LeCun ສັງເກດເຫັນ, ແຕ່ "ການຮຽນຮູ້ສ່ວນໃຫຍ່ທີ່ພວກເຮົາເຮັດ, ພວກເຮົາບໍ່ໄດ້ເຮັດ. ເຮັດມັນໂດຍການດໍາເນີນການຕົວຈິງ, ພວກເຮົາເຮັດມັນໂດຍການສັງເກດ." 

Lecun, 62 ປີ, ຈາກທັດສະນະຂອງຜົນສໍາເລັດຫຼາຍທົດສະວັດ, ຢ່າງໃດກໍຕາມ, ສະແດງຄວາມຮີບດ່ວນທີ່ຈະປະເຊີນຫນ້າກັບສິ່ງທີ່ລາວຄິດວ່າແມ່ນເສັ້ນທາງຕາບອດທີ່ຫຼາຍຄົນອາດຈະເລັ່ງ, ແລະພະຍາຍາມ coax ພາກສະຫນາມຂອງລາວໃນທິດທາງທີ່ລາວຄິດວ່າສິ່ງຕ່າງໆຄວນຈະໄປ. 

ທ່ານກ່າວວ່າ "ພວກເຮົາເຫັນການຮຽກຮ້ອງຫຼາຍຢ່າງກ່ຽວກັບສິ່ງທີ່ພວກເຮົາຄວນເຮັດເພື່ອກ້າວໄປສູ່ AI ລະດັບມະນຸດ," ລາວເວົ້າ. "ແລະມີແນວຄວາມຄິດທີ່ຂ້ອຍຄິດວ່າຖືກນໍາໄປໃນທາງທີ່ຜິດ."

Lecun ສັງເກດເຫັນວ່າ "ພວກເຮົາບໍ່ເຖິງຈຸດທີ່ເຄື່ອງຈັກອັດສະລິຍະຂອງພວກເຮົາມີຄວາມຮູ້ສຶກທົ່ວໄປຫຼາຍເທົ່າກັບແມວ." "ດັ່ງນັ້ນ, ເປັນຫຍັງພວກເຮົາບໍ່ເລີ່ມຕົ້ນຢູ່ທີ່ນັ້ນ?" 

ລາວໄດ້ປະຖິ້ມຄວາມເຊື່ອທີ່ຜ່ານມາຂອງລາວໃນການນໍາໃຊ້ເຄືອຂ່າຍທົ່ວໄປໃນສິ່ງຕ່າງໆເຊັ່ນການຄາດເດົາຂອບຕໍ່ໄປໃນວິດີໂອ. ທ່ານກ່າວວ່າ "ມັນແມ່ນຄວາມລົ້ມເຫຼວທີ່ສົມບູນ," ລາວເວົ້າ. 

LeCun ປະຕິເສດຜູ້ທີ່ລາວເອີ້ນວ່າ "ຜູ້ທີ່ອາດຈະເປັນໄປໄດ້ທາງສາສະຫນາ," ຜູ້ທີ່ "ຄິດວ່າທິດສະດີຄວາມເປັນໄປໄດ້ແມ່ນກອບດຽວທີ່ທ່ານສາມາດນໍາໃຊ້ເພື່ອອະທິບາຍການຮຽນຮູ້ເຄື່ອງຈັກ." 

ລາວເວົ້າວ່າວິທີການສະຖິຕິທີ່ບໍລິສຸດແມ່ນ intractable. “ມັນ ເກີນ ໄປ ທີ່ ຈະ ຮ້ອງ ຂໍ ໃຫ້ ມີ ຕົວ ແບບ ໂລກ ທີ່ ຈະ ເປັນ ໄປ ໄດ້ ຫມົດ; ພວກເຮົາບໍ່ຮູ້ວ່າຈະເຮັດແນວໃດ."

ບໍ່ພຽງແຕ່ນັກວິຊາການ, ແຕ່ AI ອຸດສາຫະກໍາຕ້ອງການການຄິດຄືນໃຫມ່ຢ່າງເລິກເຊິ່ງ, LeCun ໂຕ້ຖຽງ. ຝູງຊົນລົດໃຫຍ່ທີ່ຂັບລົດດ້ວຍຕົນເອງ, ການເລີ່ມຕົ້ນເຊັ່ນ Wayve, "ມີແງ່ດີເລັກນ້ອຍ," ລາວເວົ້າ, ໂດຍຄິດວ່າພວກເຂົາສາມາດ "ຖິ້ມຂໍ້ມູນໃສ່" ເຄືອຂ່າຍ neural ຂະຫນາດໃຫຍ່ "ແລະເຈົ້າສາມາດຮຽນຮູ້ຫຍັງຫຼາຍ."

"ເຈົ້າຮູ້, ຂ້ອຍຄິດວ່າມັນເປັນໄປໄດ້ທັງຫມົດທີ່ພວກເຮົາຈະມີລົດອັດຕະໂນມັດລະດັບຫ້າໂດຍບໍ່ມີຄວາມຮູ້ສຶກທົ່ວໄປ," ລາວເວົ້າ, ໂດຍອ້າງອີງໃສ່ "ADAS," ລະບົບການຊ່ວຍເຫຼືອຄົນຂັບຂັ້ນສູງ ຂໍ້ກໍານົດສໍາລັບການຂັບລົດດ້ວຍຕົນເອງ, "ແຕ່ທ່ານຈະຕ້ອງວິສະວະກໍານະລົກອອກຈາກມັນ."

ລາວເຊື່ອວ່າເທັກໂນໂລຍີການຂັບລົດດ້ວຍຕົນເອງແບບວິສະວະກຳເກີນໄປຈະເປັນສິ່ງແປກປະຫຼາດ ແລະເສື່ອມໂຊມຄືກັບບັນດາໂຄງການວິໄສທັດຄອມພິວເຕີທັງໝົດທີ່ລ້າສະໄໝໂດຍການຮຽນຮູ້ຢ່າງເລິກເຊິ່ງ.

"ໃນທີ່ສຸດ, ມັນຈະເປັນການແກ້ໄຂທີ່ຫນ້າພໍໃຈແລະເປັນໄປໄດ້ທີ່ດີກວ່າທີ່ກ່ຽວຂ້ອງກັບລະບົບທີ່ເຮັດວຽກທີ່ດີກວ່າທີ່ຈະເຂົ້າໃຈວິທີການເຮັດວຽກຂອງໂລກ."

ໃນທາງກົງກັນຂ້າມ, LeCun ສະເຫນີບາງທັດສະນະທີ່ຫ່ຽວແຫ້ງຂອງນັກວິຈານທີ່ໃຫຍ່ທີ່ສຸດຂອງລາວ, ເຊັ່ນ: ສາດສະດາຈານ NYU Gary Marcus - "ລາວບໍ່ເຄີຍປະກອບສ່ວນຫຍັງກັບ AI" - ແລະ Jürgen Schmidhuber, ຜູ້ປະສານງານຂອງສະຖາບັນ Dalle Molle ສໍາລັບການຄົ້ນຄວ້າປັນຍາທຽມ - "ມັນແມ່ນ. ງ່າຍຫຼາຍທີ່ຈະເຮັດການປູກທຸງ."

ນອກເຫນືອຈາກການວິພາກວິຈານ, ຈຸດສໍາຄັນກວ່າທີ່ເຮັດໂດຍ LeCun ແມ່ນວ່າບັນຫາພື້ນຖານທີ່ແນ່ນອນປະເຊີນຫນ້າກັບ AI ທັງຫມົດ, ໂດຍສະເພາະ, ວິທີການວັດແທກຂໍ້ມູນ.

"ເຈົ້າຕ້ອງຖອຍຫລັງແລະເວົ້າວ່າ, ໂອເຄ, ພວກເຮົາໄດ້ສ້າງຂັ້ນໄດນີ້, ແຕ່ພວກເຮົາຕ້ອງການໄປດວງຈັນ, ແລະບໍ່ມີທາງທີ່ຂັ້ນໄດນີ້ຈະນໍາພວກເຮົາໄປທີ່ນັ້ນ," LeCun ກ່າວກ່ຽວກັບຄວາມປາຖະຫນາຂອງລາວທີ່ຈະກະຕຸ້ນໃຫ້ຄິດຄືນໃຫມ່. ແນວຄວາມຄິດພື້ນຖານ. "ໂດຍພື້ນຖານແລ້ວ, ສິ່ງທີ່ຂ້ອຍຂຽນຢູ່ນີ້ແມ່ນ, ພວກເຮົາຈໍາເປັນຕ້ອງສ້າງບັ້ງໄຟ, ຂ້ອຍບໍ່ສາມາດໃຫ້ລາຍລະອຽດກ່ຽວກັບວິທີທີ່ພວກເຮົາສ້າງບັ້ງໄຟ, ແຕ່ນີ້ແມ່ນຫຼັກການພື້ນຖານ."

ເອກະສານ, ແລະຄວາມຄິດຂອງ LeCun ໃນການສໍາພາດ, ສາມາດເຂົ້າໃຈໄດ້ດີຂຶ້ນໂດຍການອ່ານບົດສໍາພາດຂອງ LeCun ໃນຕົ້ນປີນີ້ກັບ ZDNet ໃນ​ນັ້ນ​ລາວ​ໄດ້​ໂຕ້​ຖຽງ​ວ່າ​ການ​ຮຽນ​ຮູ້​ທີ່​ຄວບ​ຄຸມ​ຕົນ​ເອງ​ໂດຍ​ອີງ​ໃສ່​ພະ​ລັງ​ງານ​ເປັນ​ເສັ້ນ​ທາງ​ໄປ​ຂ້າງ​ຫນ້າ​ສໍາ​ລັບ​ການ​ຮຽນ​ຮູ້​ເລິກ. ການສະທ້ອນເຫຼົ່ານັ້ນໃຫ້ຄວາມຮູ້ສຶກຂອງວິທີການຫຼັກຂອງສິ່ງທີ່ລາວຫວັງວ່າຈະສ້າງເປັນທາງເລືອກສໍາລັບສິ່ງທີ່ລາວອ້າງວ່າຈະບໍ່ເຮັດໃຫ້ມັນໄປສູ່ເສັ້ນສໍາເລັດຮູບ. 

ສິ່ງທີ່ຕໍ່ໄປນີ້ແມ່ນ transcript ດັດແກ້ເລັກນ້ອຍຂອງການສໍາພາດ.

ZDNet: ຫົວຂໍ້ຂອງການສົນທະນາຂອງພວກເຮົາແມ່ນເຈ້ຍນີ້, "ເສັ້ນທາງໄປສູ່ຄວາມສະຫລາດຂອງເຄື່ອງຈັກອັດຕະໂນມັດ," ເຊິ່ງສະບັບ 0.9.2 ແມ່ນສະບັບທີ່ຍັງເຫຼືອ, ແມ່ນບໍ?

Yann LeCun: ແລ້ວ, ຂ້ອຍພິຈາລະນານີ້, ການຈັດລຽງ, ເປັນເອກະສານເຮັດວຽກ. ດັ່ງນັ້ນ, ຂ້າພະເຈົ້າໄດ້ຈັດພີມມາມັນກ່ຽວກັບການທົບທວນເປີດ, ລໍຖ້າໃຫ້ປະຊາຊົນອອກຄໍາເຫັນແລະຄໍາແນະນໍາ, ບາງທີການອ້າງອິງເພີ່ມເຕີມ, ແລະຫຼັງຈາກນັ້ນຂ້າພະເຈົ້າຈະຜະລິດສະບັບປັບປຸງ. 

ZDNet: ຂ້າພະເຈົ້າເຫັນວ່າ Juergen Schmidhuber ໄດ້ເພີ່ມບາງຄໍາເຫັນໃສ່ Open Review ແລ້ວ.

YL: ແມ່ນແລ້ວ, ລາວເຮັດສະເໝີ. ຂ້ອຍອ້າງເຖິງເອກະສານໜຶ່ງຂອງລາວຢູ່ໃນເຈ້ຍຂອງຂ້ອຍ. ຂ້າພະເຈົ້າຄິດວ່າການໂຕ້ຖຽງທີ່ລາວເຮັດໃນເຄືອຂ່າຍສັງຄົມທີ່ລາວສ້າງພື້ນຖານທັງຫມົດນີ້ໃນປີ 1991, ຍ້ອນວ່າລາວເຮັດໃນກໍລະນີອື່ນໆ, ບໍ່ແມ່ນກໍລະນີ. ຂ້ອຍຫມາຍຄວາມວ່າ, ມັນງ່າຍຫຼາຍທີ່ຈະເຮັດການປູກທຸງ, ແລະ, ປະເພດ, ຂຽນແນວຄວາມຄິດໂດຍບໍ່ມີການທົດລອງໃດໆ, ໂດຍບໍ່ມີທິດສະດີໃດໆ, ພຽງແຕ່ແນະນໍາວ່າທ່ານສາມາດເຮັດໄດ້ດ້ວຍວິທີນີ້. ແຕ່, ເຈົ້າຮູ້, ມັນມີຄວາມແຕກຕ່າງທີ່ໃຫຍ່ຫຼວງລະຫວ່າງພຽງແຕ່ມີຄວາມຄິດ, ແລະຫຼັງຈາກນັ້ນເຮັດໃຫ້ມັນເຮັດວຽກກັບບັນຫາຂອງຫຼິ້ນ, ແລະຫຼັງຈາກນັ້ນເຮັດໃຫ້ມັນເຮັດວຽກກັບບັນຫາທີ່ແທ້ຈິງ, ແລະຫຼັງຈາກນັ້ນເຮັດທິດສະດີທີ່ສະແດງໃຫ້ເຫັນວ່າເປັນຫຍັງມັນເຮັດວຽກ, ແລະຫຼັງຈາກນັ້ນ. ການ​ນໍາ​ໃຊ້​ມັນ​. ມີລະບົບຕ່ອງໂສ້ທັງຫມົດ, ແລະຄວາມຄິດຂອງລາວກ່ຽວກັບສິນເຊື່ອທາງວິທະຍາສາດແມ່ນວ່າມັນເປັນຄົນທໍາອິດທີ່ພຽງແຕ່, ການຈັດລຽງ, ເຈົ້າຮູ້, ມີຄວາມຄິດຂອງສິ່ງນັ້ນ, ທີ່ຄວນຈະໄດ້ຮັບສິນເຊື່ອທັງຫມົດ. ແລະນັ້ນເປັນເລື່ອງຕະຫຼົກ. 

ZDNet: ຢ່າເຊື່ອທຸກຢ່າງທີ່ເຈົ້າໄດ້ຍິນໃນສື່ສັງຄົມ. 

YL: ຂ້າພະເຈົ້າຫມາຍຄວາມວ່າ, ເອກະສານຕົ້ນຕໍທີ່ລາວເວົ້າວ່າຂ້ອຍຄວນອ້າງອີງບໍ່ມີແນວຄວາມຄິດຕົ້ນຕໍທີ່ຂ້ອຍເວົ້າກ່ຽວກັບເຈ້ຍ. ລາວໄດ້ເຮັດສິ່ງນີ້ກັບ GANs ແລະສິ່ງອື່ນໆ, ເຊິ່ງບໍ່ໄດ້ເປັນຄວາມຈິງ. ມັນງ່າຍທີ່ຈະເຮັດການປູກທຸງ, ມັນຍາກກວ່າທີ່ຈະປະກອບສ່ວນ. ແລະ, ໂດຍວິທີທາງການ, ໃນເອກະສານສະເພາະນີ້, ຂ້າພະເຈົ້າເວົ້າຢ່າງຈະແຈ້ງວ່ານີ້ບໍ່ແມ່ນເອກະສານວິທະຍາສາດໃນຄວາມຫມາຍປົກກະຕິຂອງຄໍາສັບ. ມັນເປັນເອກະສານຕໍາແໜ່ງຫຼາຍກວ່າກ່ຽວກັບບ່ອນທີ່ສິ່ງນີ້ຄວນຈະໄປ. ແລະ​ມີ​ແນວ​ຄວາມ​ຄິດ​ສອງ​ສາມ​ທີ່​ອາດ​ຈະ​ເປັນ​ໃຫມ່​, ແຕ່​ສ່ວນ​ໃຫຍ່​ຂອງ​ມັນ​ບໍ່​ແມ່ນ​. ຂ້ອຍບໍ່ໄດ້ອ້າງເອົາຄວາມສຳຄັນໃດໆກ່ຽວກັບສິ່ງທີ່ຂ້ອຍຂຽນໄວ້ໃນເຈ້ຍນັ້ນ, ໂດຍຫຼັກແລ້ວ.

yann-lecun-sept-2022-2

ການເສີມສ້າງການຮຽນຮູ້ຈະບໍ່ພຽງພໍ, LeCun ຮັກສາ. ນັກຄົ້ນຄວ້າເຊັ່ນ David Silver ຂອງ DeepMind, ຜູ້ທີ່ພັດທະນາໂຄງການ AlphaZero ທີ່ຊໍານິຊໍານານ Chess, Shogi ແລະ Go, ແມ່ນ "ອີງໃສ່ການປະຕິບັດຫຼາຍ," LeCun ສັງເກດເຫັນ, ແຕ່ "ການຮຽນຮູ້ສ່ວນໃຫຍ່ທີ່ພວກເຮົາເຮັດ, ພວກເຮົາບໍ່ໄດ້ເຮັດມັນໂດຍການໃຊ້ຕົວຈິງ. ການປະຕິບັດ, ພວກເຮົາເຮັດມັນໂດຍການສັງເກດ." 

ZDNet: ແລະນັ້ນອາດຈະເປັນບ່ອນທີ່ດີທີ່ຈະເລີ່ມຕົ້ນ, ເພາະວ່າຂ້ອຍຢາກຮູ້ຢາກເຫັນວ່າເປັນຫຍັງເຈົ້າຈຶ່ງໄປຕາມເສັ້ນທາງນີ້ດຽວນີ້? ເຈົ້າຄິດແນວໃດກ່ຽວກັບເລື່ອງນີ້? ເປັນຫຍັງເຈົ້າຈຶ່ງຢາກຂຽນອັນນີ້?

YL: ແລ້ວ, ດັ່ງນັ້ນ, ຂ້າພະເຈົ້າໄດ້ຄິດກ່ຽວກັບເລື່ອງນີ້ເປັນເວລາດົນນານ, ກ່ຽວກັບເສັ້ນທາງໄປສູ່ປັນຍາລະດັບມະນຸດຫຼືສັດໃນລະດັບຫຼືການຮຽນຮູ້ແລະຄວາມສາມາດ. ແລະ, ໃນການສົນທະນາຂອງຂ້ອຍ, ຂ້ອຍໄດ້ເວົ້າຢ່າງແຈ່ມແຈ້ງກ່ຽວກັບເລື່ອງທັງຫມົດນີ້ວ່າທັງການຮຽນຮູ້ແບບຄວບຄຸມແລະການຮຽນຮູ້ເສີມແມ່ນບໍ່ພຽງພໍທີ່ຈະເຮັດຕາມປະເພດຂອງການຮຽນຮູ້ທີ່ພວກເຮົາສັງເກດເຫັນໃນສັດແລະມະນຸດ. ຂ້າພະເຈົ້າໄດ້ດໍາເນີນການນີ້ສໍາລັບບາງສິ່ງບາງຢ່າງເຊັ່ນ: ເຈັດຫຼືແປດປີ. ດັ່ງນັ້ນ, ມັນບໍ່ແມ່ນບໍ່ດົນມານີ້. ຂ້າພະເຈົ້າໄດ້ມີບົດບັນທຶກສໍາຄັນຢູ່ NeurIPS ເມື່ອຫລາຍປີກ່ອນທີ່ຂ້າພະເຈົ້າເຮັດຈຸດນັ້ນ, ສໍາຄັນ, ແລະການໂອ້ລົມຕ່າງໆ, ມີການບັນທຶກ. ດຽວນີ້, ເປັນຫຍັງຂຽນເຈ້ຍດຽວນີ້? ຂ້ອຍມາຮອດຈຸດ - [ນັກຄົ້ນຄວ້າ Google Brain] Geoff Hinton ໄດ້ເຮັດບາງສິ່ງບາງຢ່າງທີ່ຄ້າຍຄືກັນ - ຂ້ອຍຫມາຍຄວາມວ່າ, ແນ່ນອນ, ລາວຫຼາຍກວ່າຂ້ອຍ, ພວກເຮົາເຫັນວ່າເວລາຫມົດໄປ. ພວກເຮົາບໍ່ຫນຸ່ມ.

ZDNet: ຫົກສິບແມ່ນຫ້າສິບໃຫມ່. 

YL: ນັ້ນແມ່ນຄວາມຈິງ, ແຕ່ຈຸດແມ່ນ, ພວກເຮົາເຫັນການຮຽກຮ້ອງຫຼາຍຢ່າງກ່ຽວກັບສິ່ງທີ່ພວກເຮົາຄວນເຮັດເພື່ອກ້າວໄປສູ່ລະດັບມະນຸດຂອງ AI. ແລະມີແນວຄວາມຄິດທີ່ຂ້ອຍຄິດວ່າຖືກນໍາໄປໃນທາງທີ່ຜິດ. ດັ່ງນັ້ນ, ຄວາມຄິດຫນຶ່ງແມ່ນ, ໂອ້, ພວກເຮົາພຽງແຕ່ຄວນເພີ່ມເຫດຜົນສັນຍາລັກຢູ່ເທິງສຸດຂອງຕາຫນ່າງ neural. ແລະຂ້ອຍບໍ່ຮູ້ວິທີເຮັດສິ່ງນີ້. ດັ່ງນັ້ນ, ບາງທີສິ່ງທີ່ຂ້ອຍໄດ້ອະທິບາຍໃນກະດາດອາດຈະເປັນວິທີການຫນຶ່ງທີ່ຈະເຮັດສິ່ງດຽວກັນໂດຍບໍ່ມີການຫມູນໃຊ້ສັນຍາລັກທີ່ຊັດເຈນ. ນີ້ແມ່ນການຈັດລຽງຕາມປະເພນີ Gary Marcuses ຂອງໂລກ. Gary Marcus ບໍ່ແມ່ນຄົນ AI, ໂດຍວິທີທາງການ, ລາວເປັນນັກຈິດຕະສາດ. ລາວບໍ່ເຄີຍປະກອບສ່ວນຫຍັງກັບ AI. ລາວເຮັດໄດ້ດີຫຼາຍໃນດ້ານຈິດຕະວິທະຍາການທົດລອງແຕ່ລາວບໍ່ເຄີຍຂຽນເອກະສານທົບທວນຄືນກ່ຽວກັບ AI. ດັ່ງນັ້ນ, ມີຄົນເຫຼົ່ານັ້ນ. 

ມີ [ນັກວິທະຍາສາດການຄົ້ນຄວ້າຫຼັກການ DeepMind] David Silvers ຂອງໂລກຜູ້ທີ່ເວົ້າວ່າ, ເຈົ້າຮູ້, ລາງວັນແມ່ນພຽງພໍ, ໂດຍພື້ນຖານແລ້ວ, ມັນແມ່ນທັງຫມົດກ່ຽວກັບການຮຽນຮູ້ເສີມ, ພວກເຮົາພຽງແຕ່ຕ້ອງການເຮັດໃຫ້ມັນມີປະສິດທິພາບຫຼາຍຂຶ້ນ, ໂອເຄ? ແລະ, ຂ້າພະເຈົ້າຄິດວ່າເຂົາເຈົ້າບໍ່ຜິດ, ແຕ່ຂ້າພະເຈົ້າຄິດວ່າຂັ້ນຕອນທີ່ຈໍາເປັນເພື່ອເຮັດໃຫ້ການຮຽນຮູ້ການເສີມປະສິດທິພາບຫຼາຍ, ໂດຍພື້ນຖານແລ້ວ, ຈະ relegate ການຮຽນຮູ້ການເສີມເພື່ອຈັດລຽງຂອງ cherry ສຸດ cake ໄດ້. ແລະສ່ວນທີ່ຂາດຫາຍໄປຕົ້ນຕໍແມ່ນການຮຽນຮູ້ວິທີການເຮັດວຽກຂອງໂລກ, ສ່ວນຫຼາຍແມ່ນໂດຍການສັງເກດໂດຍບໍ່ມີການປະຕິບັດ. ການຮຽນຮູ້ເສີມແມ່ນອີງໃສ່ການປະຕິບັດຫຼາຍ, ທ່ານຮຽນຮູ້ສິ່ງຕ່າງໆກ່ຽວກັບໂລກໂດຍການດໍາເນີນການແລະເບິ່ງຜົນໄດ້ຮັບ.

ZDNet: ແລະມັນສຸມໃສ່ລາງວັນ.

YL: ມັນສຸມໃສ່ລາງວັນ, ແລະມັນສຸມໃສ່ການປະຕິບັດເຊັ່ນດຽວກັນ. ດັ່ງນັ້ນ, ທ່ານຕ້ອງປະຕິບັດໃນໂລກເພື່ອໃຫ້ສາມາດຮຽນຮູ້ບາງສິ່ງບາງຢ່າງກ່ຽວກັບໂລກ. ແລະການຮຽກຮ້ອງຕົ້ນຕໍທີ່ຂ້ອຍເຮັດຢູ່ໃນເອກະສານກ່ຽວກັບການຮຽນຮູ້ແບບຄວບຄຸມຕົນເອງແມ່ນ, ການຮຽນຮູ້ສ່ວນໃຫຍ່ທີ່ພວກເຮົາເຮັດ, ພວກເຮົາບໍ່ໄດ້ເຮັດມັນໂດຍການດໍາເນີນການຕົວຈິງ, ພວກເຮົາເຮັດມັນໂດຍການສັງເກດ. ແລະມັນເປັນເລື່ອງທີ່ແປກປະຫຼາດຫຼາຍ, ທັງສໍາລັບການເສີມສ້າງຄົນໃນການຮຽນຮູ້, ໂດຍສະເພາະ, ແຕ່ຍັງສໍາລັບນັກຈິດຕະສາດແລະນັກວິທະຍາສາດທາງດ້ານສະຕິປັນຍາຫຼາຍຄົນທີ່ຄິດວ່າ, ເຈົ້າຮູ້, ການກະ ທຳ ແມ່ນ - ຂ້ອຍບໍ່ໄດ້ເວົ້າວ່າການກະ ທຳ ແມ່ນບໍ່ ຈຳ ເປັນ, ມັນ. is ທີ່ຈໍາເປັນ. ແຕ່ຂ້າພະເຈົ້າຄິດວ່າສ່ວນໃຫຍ່ຂອງສິ່ງທີ່ພວກເຮົາຮຽນຮູ້ສ່ວນຫຼາຍແມ່ນກ່ຽວກັບໂຄງສ້າງຂອງໂລກ, ແລະແນ່ນອນ, ການໂຕ້ຕອບແລະການກະທໍາແລະການຫຼິ້ນ, ແລະສິ່ງຕ່າງໆເຊັ່ນນັ້ນ, ແຕ່ຫຼາຍແມ່ນເປັນການສັງເກດການ.

ZDNet: ທ່ານຍັງຈະຈັດການທີ່ຈະຫມາຍຕິກຄົນ Transformer, ພາສາ - ຄົນທໍາອິດ, ໃນເວລາດຽວກັນ. ເຈົ້າສາມາດສ້າງມັນໂດຍບໍ່ມີພາສາທໍາອິດໄດ້ແນວໃດ? ທ່ານ​ອາດ​ຈະ​ມີ​ການ​ຄຸ້ມ​ຄອງ​ເພື່ອ​ຫມາຍ​ຕິກ​ຄົນ​ຈໍາ​ນວນ​ຫຼາຍ​. 

YL: ແລ້ວ, ຂ້ອຍຄຸ້ນເຄີຍກັບເລື່ອງນັ້ນ. ດັ່ງນັ້ນ, ແມ່ນແລ້ວ, ມີພາສາທໍາອິດ, ຜູ້ທີ່ເວົ້າວ່າ, ເຈົ້າຮູ້, ປັນຍາແມ່ນກ່ຽວກັບພາສາ, ຊັ້ນຍ່ອຍຂອງປັນຍາແມ່ນພາສາ, blah, blah, blah. ແຕ່ວ່າ, ປະເພດຂອງການ, ປະຕິເສດປັນຍາຂອງສັດ. ເຈົ້າຮູ້ບໍ່, ພວກເຮົາບໍ່ເຖິງຈຸດທີ່ເຄື່ອງຈັກອັດສະລິຍະຂອງພວກເຮົາມີສະຕິຮູ້ສຶກຜິດຊອບຫຼາຍເທົ່າກັບແມວ. ດັ່ງນັ້ນ, ເປັນຫຍັງພວກເຮົາບໍ່ເລີ່ມຕົ້ນຢູ່ທີ່ນັ້ນ? ມັນ​ແມ່ນ​ຫຍັງ​ທີ່​ອະ​ນຸ​ຍາດ​ໃຫ້​ແມວ​ຈັບ​ໂລກ​ອ້ອມ​ຂ້າງ, ເຮັດ​ສິ່ງ​ທີ່​ສະ​ຫຼາດ​ງາມ, ແລະ​ການ​ວາງ​ແຜນ​ແລະ​ສິ່ງ​ທີ່​ເຊັ່ນ​ນັ້ນ, ແລະ​ຫມາ​ດີກ​ວ່າ? 

ແລ້ວມີຄົນເວົ້າອອກມາວ່າ ໂອ້ ຄວາມປັນຍາເປັນເລື່ອງຂອງສັງຄົມແລ້ວບໍ? ພວກເຮົາສະຫລາດເພາະວ່າພວກເຮົາສົນທະນາກັບກັນແລະກັນແລະພວກເຮົາແລກປ່ຽນຂໍ້ມູນຂ່າວສານ, ແລະ blah, blah, blah. ມີຊະນິດພັນທີ່ບໍ່ສັງຄົມທຸກຊະນິດທີ່ບໍ່ເຄີຍພົບພໍ່ແມ່ທີ່ສະຫຼາດຫຼາຍ ເຊັ່ນ: ປາໝຶກ ຫຼືໝາກກ້ຽງ.ຂ້າພະເຈົ້າຫມາຍຄວາມວ່າ, ພວກເຂົາ [orangutans] ແນ່ນອນໄດ້ຮັບການສຶກສາໂດຍແມ່ຂອງພວກເຂົາ, ແຕ່ພວກມັນບໍ່ແມ່ນສັດສັງຄົມ. 

ແຕ່ປະເພດອື່ນໆຂອງປະຊາຊົນທີ່ຂ້ອຍອາດຈະ tick off ແມ່ນຄົນທີ່ເວົ້າວ່າການປັບຂະຫນາດແມ່ນພຽງພໍ. ດັ່ງນັ້ນ, ໂດຍພື້ນຖານແລ້ວ, ພວກເຮົາພຽງແຕ່ໃຊ້ Transformers ຂະຫນາດໃຫຍ່, ພວກເຮົາຝຶກອົບຮົມໃຫ້ເຂົາເຈົ້າກ່ຽວກັບຂໍ້ມູນ multimodal ທີ່ກ່ຽວຂ້ອງກັບ, ທ່ານຮູ້ຈັກ, ວິດີໂອ, ຂໍ້ຄວາມ, blah, blah, blah. ພວກເຮົາ, ປະເພດ, petrifyທຸກສິ່ງທຸກຢ່າງ, ແລະ tokenize ທຸກສິ່ງທຸກຢ່າງ, ແລະຫຼັງຈາກນັ້ນຝຶກອົບຮົມ giganticແບບຈໍາລອງເພື່ອເຮັດໃຫ້ການຄາດຄະເນທີ່ບໍ່ຊ້ໍາກັນ, ໂດຍພື້ນຖານແລ້ວ, ແລະບາງຢ່າງ AI ຈະອອກມາຈາກສິ່ງນີ້. ພວກເຂົາບໍ່ຜິດ, ໃນຄວາມຫມາຍທີ່ອາດຈະເປັນອົງປະກອບຂອງລະບົບອັດສະລິຍະໃນອະນາຄົດ. ແຕ່ຂ້ອຍຄິດວ່າມັນຂາດຊິ້ນສ່ວນທີ່ສໍາຄັນ. 

ມີ​ຄົນ​ອີກ​ປະ​ເພດ​ຫນຶ່ງ​ທີ່​ຂ້າ​ພະ​ເຈົ້າ​ຈະ​ຫມາຍ​ຕິກ​ອອກ​ກັບ​ເຈ້ຍ​ນີ້​. ແລະມັນເປັນ probabilists, probabilists ທາງສາສະຫນາ. ດັ່ງນັ້ນ, ຄົນທີ່ຄິດວ່າທິດສະດີຄວາມເປັນໄປໄດ້ແມ່ນກອບດຽວທີ່ທ່ານສາມາດນໍາໃຊ້ເພື່ອອະທິບາຍການຮຽນຮູ້ເຄື່ອງຈັກ. ແລະໃນຂະນະທີ່ຂ້າພະເຈົ້າພະຍາຍາມອະທິບາຍໃນສິ້ນ, ມັນເປັນພື້ນຖານຫຼາຍເກີນໄປທີ່ຈະຮ້ອງຂໍໃຫ້ມີຮູບແບບໂລກທີ່ຈະເປັນໄປໄດ້ຢ່າງສົມບູນ. ພວກເຮົາບໍ່ຮູ້ວິທີເຮັດມັນ. ມີ intractability ຄອມພິວເຕີ. ສະນັ້ນຂ້າພະເຈົ້າສະເຫນີໃຫ້ຖິ້ມຄວາມຄິດທັງຫມົດນີ້. ແລະແນ່ນອນ, ທ່ານຮູ້, ນີ້ແມ່ນເສົາຫຼັກອັນໃຫຍ່ຫຼວງຂອງການຮຽນຮູ້ເຄື່ອງຈັກບໍ່ພຽງແຕ່, ແຕ່ສະຖິຕິທັງຫມົດ, ເຊິ່ງອ້າງວ່າເປັນທາງການປົກກະຕິສໍາລັບການຮຽນຮູ້ເຄື່ອງຈັກ. 

ສິ່ງ​ອື່ນ - 

ZDNet: ທ່ານຢູ່ໃນມ້ວນ...

YL: — ແມ່ນ​ສິ່ງ​ທີ່​ເອີ້ນ​ວ່າ​ຕົວ​ແບບ​ຜະ​ລິດ​ຕະ​ພັນ​. ດັ່ງນັ້ນ, ຄວາມຄິດທີ່ທ່ານສາມາດຮຽນຮູ້ທີ່ຈະຄາດຄະເນ, ແລະທ່ານອາດຈະຮຽນຮູ້ຫຼາຍກ່ຽວກັບໂລກໂດຍການຄາດເດົາ. ດັ່ງນັ້ນ, ຂ້າພະເຈົ້າໃຫ້ທ່ານສິ້ນຂອງວິດີໂອແລະຂ້າພະເຈົ້າຂໍໃຫ້ລະບົບທີ່ຈະຄາດຄະເນສິ່ງທີ່ເກີດຂຶ້ນຕໍ່ໄປໃນວິດີໂອ. ແລະຂ້ອຍອາດຈະຂໍໃຫ້ເຈົ້າຄາດຄະເນພາບວິດີໂອຕົວຈິງທີ່ມີລາຍລະອຽດທັງຫມົດ. ແຕ່ສິ່ງທີ່ຂ້ອຍໂຕ້ແຍ້ງຢູ່ໃນເຈ້ຍແມ່ນວ່າຕົວຈິງແລ້ວແມ່ນຫຼາຍເກີນໄປທີ່ຈະຖາມແລະສັບສົນເກີນໄປ. ແລະນີ້ແມ່ນສິ່ງທີ່ຂ້ອຍປ່ຽນໃຈ. ຈົນກ່ວາປະມານສອງປີກ່ອນຫນ້ານີ້, ຂ້າພະເຈົ້າເຄີຍເປັນຜູ້ສະຫນັບສະຫນູນຂອງສິ່ງທີ່ຂ້າພະເຈົ້າເອີ້ນວ່າຕົວແບບການຜະລິດຕົວແປ latent, ແບບຈໍາລອງທີ່ຄາດຄະເນສິ່ງທີ່ຈະເກີດຂຶ້ນຕໍ່ໄປຫຼືຂໍ້ມູນທີ່ຂາດຫາຍໄປ, ອາດຈະເປັນການຊ່ວຍເຫຼືອຂອງຕົວແປ latent, ຖ້າການຄາດຄະເນບໍ່ສາມາດເປັນ. ກໍານົດ. ແລະຂ້ອຍໄດ້ປະຖິ້ມເລື່ອງນີ້. ແລະເຫດຜົນທີ່ຂ້ອຍໄດ້ປະຖິ້ມເລື່ອງນີ້ແມ່ນອີງໃສ່ຜົນໄດ້ຮັບທາງ empirical, ບ່ອນທີ່ປະຊາຊົນໄດ້ພະຍາຍາມສະຫມັກ, ການຈັດລຽງ, ການຄາດຄະເນຫຼືການຝຶກອົບຮົມທີ່ອີງໃສ່ການຟື້ນຟູຂອງປະເພດທີ່ໃຊ້ໃນ BERT.ແລະຮູບແບບພາສາຂະຫນາດໃຫຍ່, ພວກເຂົາເຈົ້າໄດ້ພະຍາຍາມໃຊ້ນີ້ກັບຮູບພາບ, ແລະມັນເປັນຄວາມລົ້ມເຫຼວຢ່າງສົມບູນ. ແລະເຫດຜົນທີ່ມັນເປັນຄວາມລົ້ມເຫຼວທີ່ສົມບູນ, ອີກເທື່ອຫນຶ່ງ, ເນື່ອງຈາກວ່າຂໍ້ຈໍາກັດຂອງຕົວແບບ probabilistic ທີ່ມັນຂ້ອນຂ້າງງ່າຍທີ່ຈະຄາດຄະເນ tokens discrete ເຊັ່ນຄໍາສັບຕ່າງໆເພາະວ່າພວກເຮົາສາມາດຄິດໄລ່ການແຈກຢາຍຄວາມເປັນໄປໄດ້ຂອງຄໍາສັບຕ່າງໆໃນວັດຈະນານຸກົມ. ນັ້ນງ່າຍ. ແຕ່ຖ້າພວກເຮົາຂໍໃຫ້ລະບົບຜະລິດການແຈກຢາຍຄວາມເປັນໄປໄດ້ຂອງເຟຣມວິດີໂອທີ່ເປັນໄປໄດ້ທັງຫມົດ, ພວກເຮົາບໍ່ມີຄວາມຄິດທີ່ຈະກໍານົດຕົວກໍານົດການມັນ, ຫຼືພວກເຮົາມີຄວາມຄິດບາງຢ່າງທີ່ຈະກໍານົດຕົວກໍານົດການມັນ, ແຕ່ພວກເຮົາບໍ່ຮູ້ວ່າຈະປັບມັນເປັນປົກກະຕິ. ມັນຕີບັນຫາທາງຄະນິດສາດທີ່ຫຍຸ້ງຍາກທີ່ພວກເຮົາບໍ່ຮູ້ວິທີແກ້. 

yann-lecun-sept-2022-3

Lecun ສັງເກດເຫັນວ່າ "ພວກເຮົາບໍ່ເຖິງຈຸດທີ່ເຄື່ອງຈັກອັດສະລິຍະຂອງພວກເຮົາມີຄວາມຮູ້ສຶກທົ່ວໄປຫຼາຍເທົ່າກັບແມວ." "ດັ່ງນັ້ນ, ເປັນຫຍັງພວກເຮົາບໍ່ເລີ່ມຕົ້ນຢູ່ທີ່ນັ້ນ? ມັນ​ແມ່ນ​ຫຍັງ​ທີ່​ອະ​ນຸ​ຍາດ​ໃຫ້​ແມວ​ຈັບ​ໂລກ​ອ້ອມ​ຂ້າງ, ເຮັດ​ສິ່ງ​ທີ່​ສະ​ຫຼາດ​ງາມ, ແລະ​ການ​ວາງ​ແຜນ​ແລະ​ສິ່ງ​ທີ່​ເຊັ່ນ​ນັ້ນ, ແລະ​ຫມາ​ດີກ​ວ່າ?”

ດັ່ງນັ້ນ, ນັ້ນແມ່ນເຫດຜົນທີ່ຂ້ອຍເວົ້າວ່າໃຫ້ປະຖິ້ມທິດສະດີຄວາມເປັນໄປໄດ້ຫຼືກອບສໍາລັບສິ່ງຕ່າງໆເຊັ່ນນັ້ນ, ແບບທີ່ອ່ອນແອກວ່າ, ແບບທີ່ອີງໃສ່ພະລັງງານ. ຂ້າ​ພະ​ເຈົ້າ​ໄດ້​ສະ​ຫນັບ​ສະ​ຫນູນ​ສໍາ​ລັບ​ການ​ນີ້​, ສໍາ​ລັບ​ການ​ທົດ​ສະ​ວັດ​, ສະ​ນັ້ນ​ບໍ່​ແມ່ນ​ສິ່ງ​ທີ່​ບໍ່​ດົນ​ມາ​ນີ້​. ແຕ່ໃນເວລາດຽວກັນ, ການປະຖິ້ມແນວຄວາມຄິດຂອງແບບຈໍາລອງການຜະລິດເນື່ອງຈາກວ່າມີຫຼາຍສິ່ງຫຼາຍຢ່າງໃນໂລກທີ່ບໍ່ເຂົ້າໃຈແລະບໍ່ສາມາດຄາດເດົາໄດ້. ຖ້າທ່ານເປັນວິສະວະກອນ, ທ່ານເອີ້ນວ່າສິ່ງລົບກວນ. ຖ້າທ່ານເປັນນັກຟີຊິກ, ທ່ານເອີ້ນວ່າຄວາມຮ້ອນ. ແລະຖ້າທ່ານເປັນຜູ້ຮຽນຮູ້ເຄື່ອງຈັກ, ທ່ານໂທຫາມັນ, ທ່ານຮູ້, ລາຍລະອຽດທີ່ບໍ່ກ່ຽວຂ້ອງຫຼືໃດກໍ່ຕາມ.

ດັ່ງນັ້ນ, ຕົວຢ່າງທີ່ຂ້ອຍໃຊ້ໃນກະດາດ, ຫຼືຂ້ອຍໄດ້ໃຊ້ໃນການໂອ້ລົມ, ແມ່ນ, ທ່ານຕ້ອງການລະບົບການຄາດເດົາໂລກທີ່ຈະຊ່ວຍໃຫ້ລົດຂັບລົດດ້ວຍຕົນເອງ, ແມ່ນບໍ? ມັນຕ້ອງການທີ່ຈະສາມາດຄາດເດົາໄດ້, ລ່ວງຫນ້າ, ເສັ້ນທາງຂອງລົດອື່ນໆທັງຫມົດ, ສິ່ງທີ່ຈະເກີດຂຶ້ນກັບສິ່ງຂອງອື່ນໆທີ່ອາດຈະເຄື່ອນຍ້າຍ, pedestrians, ລົດຖີບ, kid ແລ່ນຫຼັງຈາກບານ soccer, ສິ່ງຕ່າງໆເຊັ່ນວ່າ. ດັ່ງນັ້ນ, ທຸກປະເພດຂອງສິ່ງຕ່າງໆກ່ຽວກັບໂລກ. ແຕ່ຊາຍແດນຕິດກັບເສັ້ນທາງ, ອາດຈະມີຕົ້ນໄມ້, ແລະມື້ນີ້ມີລົມແຮງ, ດັ່ງນັ້ນໃບໄມ້ຈຶ່ງເຄື່ອນໄປຕາມລົມ, ແລະທາງຫລັງຂອງຕົ້ນໄມ້ມີຫນອງ, ແລະຍັງມີການສັ່ນສະເທືອນຢູ່ໃນຫນອງ. ແລະສິ່ງເຫຼົ່ານັ້ນແມ່ນ, ສໍາຄັນ, ປະກົດການທີ່ບໍ່ສາມາດຄາດເດົາໄດ້ສ່ວນໃຫຍ່. ແລະ, ທ່ານບໍ່ຕ້ອງການໃຫ້ຕົວແບບຂອງທ່ານໃຊ້ຊັບພະຍາກອນຈໍານວນຫຼວງຫຼາຍທີ່ຈະຄາດຄະເນສິ່ງເຫຼົ່ານັ້ນທີ່ທັງສອງຍາກທີ່ຈະຄາດຄະເນແລະບໍ່ກ່ຽວຂ້ອງ. ດັ່ງນັ້ນ, ນັ້ນແມ່ນເຫດຜົນທີ່ຂ້ອຍສະຫນັບສະຫນູນສະຖາປັດຕະຍະກໍາຝັງຕົວຮ່ວມກັນ, ສິ່ງເຫຼົ່ານັ້ນທີ່ຕົວແປທີ່ເຈົ້າພະຍາຍາມສ້າງແບບຈໍາລອງ, ເຈົ້າບໍ່ໄດ້ພະຍາຍາມຄາດເດົາມັນ, ເຈົ້າພະຍາຍາມສ້າງແບບຈໍາລອງ, ແຕ່ມັນແລ່ນຜ່ານຕົວເຂົ້າລະຫັດ, ແລະ. ຕົວເຂົ້າລະຫັດນັ້ນສາມາດລົບລ້າງລາຍລະອຽດຫຼາຍຢ່າງກ່ຽວກັບການປ້ອນຂໍ້ມູນທີ່ບໍ່ກ່ຽວຂ້ອງ ຫຼືສັບສົນເກີນໄປ — ໂດຍພື້ນຖານແລ້ວ, ເທົ່າກັບສຽງລົບກວນ.

ZDNet: ພວກເຮົາໄດ້ປຶກສາຫາລືໃນຕົ້ນປີນີ້ແບບຈໍາລອງທີ່ໃຊ້ພະລັງງານ, JEPA ແລະ H-JEPA. ຄວາມຮູ້ສຶກຂອງຂ້ອຍ, ຖ້າຂ້ອຍເຂົ້າໃຈເຈົ້າຢ່າງຖືກຕ້ອງ, ແມ່ນເຈົ້າຊອກຫາຈຸດຂອງພະລັງງານຕໍ່າທີ່ການຄາດຄະເນຂອງສອງຝັງ X ແລະ Y ແມ່ນຄ້າຍຄືກັນທີ່ສຸດ, ຊຶ່ງຫມາຍຄວາມວ່າຖ້າມີນົກກາງແກຢູ່ໃນຕົ້ນໄມ້ຢູ່ໃນຫນຶ່ງ, ແລະມີບາງສິ່ງບາງຢ່າງຢູ່ໃນ. ພື້ນຫລັງຂອງ scene, ສິ່ງເຫຼົ່ານັ້ນອາດຈະບໍ່ແມ່ນຈຸດສໍາຄັນທີ່ເຮັດໃຫ້ການຝັງເຫຼົ່ານີ້ໃກ້ຊິດກັບກັນແລະກັນ.

YL: ສິດ. ດັ່ງນັ້ນ, ສະຖາປັດຕະຍະກໍາ JEPA ພະຍາຍາມຊອກຫາການຊື້ຂາຍ, ການປະນີປະນອມ, ລະຫວ່າງການສະກັດເອົາຕົວແທນທີ່ມີຂໍ້ມູນສູງສຸດກ່ຽວກັບວັດສະດຸປ້ອນແຕ່ຍັງຄາດເດົາໄດ້ຈາກກັນແລະກັນກັບບາງລະດັບຂອງຄວາມຖືກຕ້ອງຫຼືຄວາມຫນ້າເຊື່ອຖື. ມັນພົບການຊື້ຂາຍ. ດັ່ງນັ້ນ, ຖ້າມັນມີທາງເລືອກລະຫວ່າງການໃຊ້ຊັບພະຍາກອນຈໍານວນຫຼວງຫຼາຍລວມທັງລາຍລະອຽດຂອງການເຄື່ອນໄຫວຂອງໃບ, ແລະຫຼັງຈາກນັ້ນສ້າງແບບຈໍາລອງຂອງນະໂຍບາຍດ້ານທີ່ຈະຕັດສິນໃຈວ່າໃບໄມ້ເຄື່ອນຍ້າຍຈາກນີ້ແນວໃດ, ຫຼືພຽງແຕ່ຖິ້ມມັນລົງເທິງພື້ນ. ໂດຍພື້ນຖານແລ້ວພຽງແຕ່ແລ່ນຕົວແປ Y ໂດຍຜ່ານຕົວຄາດຄະເນທີ່ລົບລ້າງລາຍລະອຽດທັງຫມົດເຫຼົ່ານັ້ນ, ມັນອາດຈະເປັນພຽງແຕ່ລົບລ້າງມັນເພາະວ່າມັນຍາກເກີນໄປທີ່ຈະສ້າງແບບຈໍາລອງແລະເກັບກໍາ.

ZDNet: ສິ່ງຫນຶ່ງທີ່ແປກໃຈແມ່ນເຈົ້າເປັນຜູ້ສະຫນັບສະຫນູນທີ່ຍິ່ງໃຫຍ່ທີ່ເວົ້າວ່າ "ມັນເຮັດວຽກ, ພວກເຮົາຈະຊອກຫາທິດສະດີຂອງ thermodynamics ຕໍ່ມາເພື່ອອະທິບາຍມັນ." ໃນທີ່ນີ້ທ່ານໄດ້ປະຕິບັດວິທີການ, "ຂ້າພະເຈົ້າບໍ່ຮູ້ວ່າພວກເຮົາຈະຈໍາເປັນຕ້ອງແກ້ໄຂບັນຫານີ້ແນວໃດ, ແຕ່ຂ້າພະເຈົ້າຕ້ອງການທີ່ຈະສະເຫນີແນວຄວາມຄິດບາງຢ່າງທີ່ຈະຄິດກ່ຽວກັບມັນ," ແລະບາງທີເຖິງແມ່ນວ່າຈະເຂົ້າຫາທິດສະດີຫຼືສົມມຸດຕິຖານ, ຢູ່ທີ່. ຢ່າງຫນ້ອຍ. ນັ້ນແມ່ນສິ່ງທີ່ຫນ້າສົນໃຈເພາະວ່າມີປະຊາຊົນຈໍານວນຫຼາຍທີ່ໃຊ້ເງິນຫຼາຍໃນການເຮັດວຽກຂອງລົດທີ່ສາມາດເບິ່ງເຫັນຄົນຍ່າງໄດ້ໂດຍບໍ່ຄໍານຶງເຖິງວ່າລົດມີສະຕິທົ່ວໄປ. ແລະຂ້າພະເຈົ້າຈິນຕະນາການວ່າບາງຄົນເຫຼົ່ານັ້ນຈະເປັນ, ບໍ່ໄດ້ຖືກຕັດອອກ, ແຕ່ພວກເຂົາຈະເວົ້າວ່າ, "ດີ, ພວກເຮົາບໍ່ສົນໃຈວ່າມັນບໍ່ມີເຫດຜົນ, ພວກເຮົາໄດ້ສ້າງການຈໍາລອງ, ການຈໍາລອງແມ່ນເຮັດໃຫ້ປະລາດ, ແລະພວກເຮົາຈະສືບຕໍ່ປັບປຸງ, ພວກເຮົາຈະສືບຕໍ່ຂະຫຍາຍການຈໍາລອງ.” 

ແລະດັ່ງນັ້ນມັນຫນ້າສົນໃຈທີ່ທ່ານກໍາລັງຢູ່ໃນຕໍາແຫນ່ງທີ່ຈະເວົ້າວ່າ, ໃຫ້ພວກເຮົາເອົາບາດກ້າວກັບຄືນໄປບ່ອນແລະຄິດກ່ຽວກັບສິ່ງທີ່ພວກເຮົາກໍາລັງເຮັດ. ແລະອຸດສາຫະກໍາແມ່ນເວົ້າວ່າພວກເຮົາກໍາລັງພຽງແຕ່ຈະຂະຫນາດ, ຂະຫນາດ, ຂະຫນາດ, ຂະຫນາດ, ຂະຫນາດ, ເພາະວ່າ crank ນັ້ນເຮັດວຽກແທ້ໆ. ຂ້າພະເຈົ້າຫມາຍຄວາມວ່າ, crank semiconductor ຂອງ GPUs ກໍ່ເຮັດວຽກ.

YL: ມີ, ເຊັ່ນ, ຫ້າຄໍາຖາມຢູ່ທີ່ນັ້ນ. ດັ່ງນັ້ນ, ຂ້າພະເຈົ້າຫມາຍຄວາມວ່າ, ຂະຫນາດແມ່ນມີຄວາມຈໍາເປັນ. ຂ້າພະເຈົ້າບໍ່ໄດ້ວິພາກວິຈານຄວາມຈິງທີ່ວ່າພວກເຮົາຄວນຈະຂະຫນາດ. ພວກເຮົາຄວນປັບຂະຫນາດ. ຕາໜ່າງປະສາດເຫຼົ່ານັ້ນດີຂຶ້ນເມື່ອພວກມັນໃຫຍ່ຂຶ້ນ. ບໍ່ມີຄໍາຖາມທີ່ພວກເຮົາຄວນຂະຫນາດ. ແລະຜູ້ທີ່ຈະມີລະດັບຂອງຄວາມຮູ້ສຶກທົ່ວໄປບາງຢ່າງຈະໃຫຍ່. ບໍ່ມີທາງປະມານນັ້ນ, ຂ້າພະເຈົ້າຄິດວ່າ. ດັ່ງນັ້ນການປັບຂະຫນາດແມ່ນດີ, ມັນເປັນສິ່ງຈໍາເປັນ, ແຕ່ບໍ່ພຽງພໍ. ນັ້ນແມ່ນຈຸດທີ່ຂ້ອຍກໍາລັງເຮັດ. ມັນບໍ່ແມ່ນພຽງແຕ່ການປັບຂະຫນາດ. ນັ້ນແມ່ນຈຸດທໍາອິດ. 

ຈຸດທີສອງ, ບໍ່ວ່າຈະເປັນທິດສະດີມາກ່ອນແລະສິ່ງຕ່າງໆເຊັ່ນນັ້ນ. ດັ່ງນັ້ນ, ຂ້າພະເຈົ້າຄິດວ່າມີແນວຄວາມຄິດທີ່ມາກ່ອນ, ເຈົ້າຕ້ອງຖອຍຫລັງແລະເວົ້າວ່າ, ໂອເຄ, ພວກເຮົາກໍ່ສ້າງຂັ້ນໄດນີ້, ແຕ່ພວກເຮົາຕ້ອງການໄປດວງຈັນແລະບໍ່ມີທາງທີ່ຂັ້ນໄດນີ້ຈະໄປເຖິງພວກເຮົາ. ດັ່ງນັ້ນ, ໂດຍພື້ນຖານແລ້ວ, ສິ່ງທີ່ຂ້ອຍຂຽນຢູ່ນີ້ແມ່ນ, ພວກເຮົາຈໍາເປັນຕ້ອງສ້າງບັ້ງໄຟ. ຂ້າພະເຈົ້າບໍ່ສາມາດໃຫ້ລາຍລະອຽດກ່ຽວກັບວິທີທີ່ພວກເຮົາສ້າງລູກປືນ, ແຕ່ນີ້ແມ່ນຫຼັກການພື້ນຖານ. ແລະຂ້ອຍບໍ່ໄດ້ຂຽນທິດສະດີສໍາລັບມັນຫຼືຫຍັງ, ແຕ່, ມັນຈະເປັນບັ້ງໄຟ, ບໍ່? ຫຼືລິຟອາວະກາດ ຫຼືອັນໃດກໍໄດ້. ພວກເຮົາອາດຈະບໍ່ມີລາຍລະອຽດທັງຫມົດຂອງເຕັກໂນໂລຢີທັງຫມົດ. ພວກເຮົາພະຍາຍາມເຮັດໃຫ້ບາງສິ່ງເຫຼົ່ານັ້ນເຮັດວຽກໄດ້, ຄືກັບວ່າຂ້ອຍໄດ້ເຮັດວຽກຢູ່ JEPA. ການຝັງຕົວຮ່ວມກັນເຮັດວຽກໄດ້ດີສໍາລັບການຮັບຮູ້ຮູບພາບ, ແຕ່ເພື່ອນໍາໃຊ້ມັນເພື່ອຝຶກອົບຮົມຮູບແບບໂລກ, ມີຄວາມຫຍຸ້ງຍາກ. ພວກເຮົາກໍາລັງເຮັດວຽກກັບມັນ, ພວກເຮົາຫວັງວ່າພວກເຮົາຈະເຮັດໃຫ້ມັນເຮັດວຽກ soon, ແຕ່ພວກເຮົາອາດຈະພົບກັບອຸປະສັກບາງຢ່າງຢູ່ທີ່ນັ້ນທີ່ພວກເຮົາບໍ່ສາມາດຜ່ານໄດ້, ເປັນໄປໄດ້. 

ຫຼັງຈາກນັ້ນ, ມີແນວຄວາມຄິດທີ່ສໍາຄັນໃນເອກະສານກ່ຽວກັບການໃຫ້ເຫດຜົນ, ຖ້າພວກເຮົາຕ້ອງການໃຫ້ລະບົບສາມາດວາງແຜນ, ທີ່ທ່ານສາມາດຄິດວ່າເປັນຮູບແບບການສົມເຫດສົມຜົນທີ່ງ່າຍດາຍ, ພວກມັນຕ້ອງມີຕົວແປ latent. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ສິ່ງທີ່ບໍ່ໄດ້ຄິດໄລ່ໂດຍສຸດທິ neural ໃດໆແຕ່ສິ່ງທີ່ເປັນ - ມູນຄ່າຂອງມັນແມ່ນ inferred ເພື່ອຫຼຸດຜ່ອນບາງຫນ້າທີ່ຈຸດປະສົງ, ບາງຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍ. ແລະຫຼັງຈາກນັ້ນທ່ານສາມາດນໍາໃຊ້ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍນີ້ເພື່ອຂັບລົດພຶດຕິກໍາຂອງລະບົບ. ແລະນີ້ບໍ່ແມ່ນຄວາມຄິດໃຫມ່ເລີຍ, ແມ່ນບໍ? ນີ້​ແມ່ນ​ຄລາ​ສ​ສິກ​ຫຼາຍ, ການ​ຄວບ​ຄຸມ​ທີ່​ດີ​ທີ່​ສຸດ​ທີ່​ພື້ນ​ຖານ​ຂອງ​ການ​ນີ້​ກັບ​ຄືນ​ໄປ​ບ່ອນ​ທ້າຍ 50s, ຕົ້ນ 60s. ດັ່ງນັ້ນ, ບໍ່ໄດ້ອ້າງເຖິງຄວາມແປກໃຫມ່ໃດໆຢູ່ທີ່ນີ້. ແຕ່ສິ່ງທີ່ຂ້ອຍເວົ້າແມ່ນວ່າປະເພດຂອງການສົມມຸດຕິຖານນີ້ຕ້ອງເປັນສ່ວນຫນຶ່ງຂອງລະບົບອັດສະລິຍະທີ່ມີຄວາມສາມາດໃນການວາງແຜນ, ແລະພຶດຕິກໍາຂອງພວກມັນສາມາດຖືກກໍານົດຫຼືຄວບຄຸມບໍ່ໄດ້ໂດຍພຶດຕິກໍາທີ່ມີສາຍ, ບໍ່ແມ່ນໂດຍການ imitation ເນີ້ງ, ແຕ່ໂດຍຫນ້າທີ່ຈຸດປະສົງທີ່. ຂັບ​ເຄື່ອນ​ພຶດ​ຕິ​ກໍາ — ບໍ່​ໄດ້​ຂັບ​ເຄື່ອນ​ການ​ຮຽນ​ຮູ້​, ຈໍາ​ເປັນ​, ແຕ່​ວ່າ​ມັນ​ຂັບ​ເຄື່ອນ​ພຶດ​ຕິ​ກໍາ​. ເຈົ້າຮູ້, ພວກເຮົາມີສິ່ງນັ້ນຢູ່ໃນສະຫມອງຂອງພວກເຮົາ, ແລະສັດທຸກໂຕມີຄ່າໃຊ້ຈ່າຍພາຍໃນຫຼືແຮງຈູງໃຈພາຍໃນຂອງສິ່ງຕ່າງໆ. ນັ້ນເຮັດໃຫ້ເດັກນ້ອຍອາຍຸ XNUMX ເດືອນຢາກຢືນຂຶ້ນ. ຄ່າໃຊ້ຈ່າຍຂອງຄວາມສຸກໃນເວລາທີ່ທ່ານຢືນຂຶ້ນ, ຄໍາສັບໃນຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍແມ່ນ hardwired. ແຕ່ວິທີທີ່ເຈົ້າຢືນຂຶ້ນບໍ່ແມ່ນ, ນັ້ນແມ່ນການຮຽນຮູ້.

yann-lecun-sept-2022-4

"ການປັບຂະຫນາດແມ່ນດີ, ມັນເປັນສິ່ງຈໍາເປັນ, ແຕ່ບໍ່ພຽງພໍ," LeCun ຂອງຕົວແບບພາສາຍັກໃຫຍ່ເຊັ່ນໂຄງການ Transformer ຂອງແນວພັນ GPT-3 ເວົ້າ. ຜູ້ອຸທິດຕົນຂອງ Transformer ເຊື່ອວ່າ, "ພວກເຮົາ tokenize ທຸກສິ່ງທຸກຢ່າງ, ແລະຝຶກອົບຮົມຂະຫນາດໃຫຍ່ແບບຈໍາລອງເພື່ອເຮັດການຄາດເດົາທີ່ບໍ່ຊ້ໍາກັນ, ແລະບາງທີ AI ຈະອອກມາຈາກສິ່ງນີ້ ... ແຕ່ຂ້ອຍຄິດວ່າມັນຂາດຊິ້ນສ່ວນທີ່ສໍາຄັນ."

ZDNet: ພຽງແຕ່ເພື່ອສະຫຼຸບເຖິງຈຸດນັ້ນ, ຊຸມຊົນການຮຽນຮູ້ເລິກຫຼາຍເບິ່ງຄືວ່າດີທີ່ຈະເດີນຫນ້າກັບບາງສິ່ງບາງຢ່າງທີ່ບໍ່ມີຄວາມຮູ້ສຶກທົ່ວໄປ. ມັນເບິ່ງຄືວ່າທ່ານກໍາລັງເຮັດໃຫ້ການໂຕ້ຖຽງທີ່ຊັດເຈນຢູ່ທີ່ນີ້ວ່າໃນບາງຈຸດມັນກາຍເປັນຄວາມອຶດອັດ. ບາງຄົນເວົ້າວ່າພວກເຮົາບໍ່ຕ້ອງການລົດອັດຕະໂນມັດທີ່ມີຄວາມຮູ້ສຶກທົ່ວໄປເພາະວ່າການປັບຂະຫນາດຈະເຮັດມັນ. ມັນເບິ່ງຄືວ່າເຈົ້າເວົ້າວ່າມັນບໍ່ເປັນຫຍັງທີ່ຈະພຽງແຕ່ສືບຕໍ່ໄປຕາມເສັ້ນທາງນັ້ນບໍ?

YL: ເຈົ້າຮູ້, ຂ້ອຍຄິດວ່າມັນເປັນໄປໄດ້ທັງຫມົດທີ່ພວກເຮົາຈະມີລົດອັດຕະໂນມັດລະດັບຫ້າໂດຍບໍ່ມີຄວາມຮູ້ສຶກທົ່ວໄປ. ແຕ່ບັນຫາກັບວິທີການນີ້, ນີ້ແມ່ນເປັນການຊົ່ວຄາວ, ເພາະວ່າທ່ານຈະຕ້ອງໄດ້ວິສະວະກອນ hell ອອກຈາກມັນ. ດັ່ງນັ້ນ, ທ່ານຮູ້ຈັກ, ແຜນທີ່ໂລກທັງຫມົດ, ແຂງສາຍທຸກປະເພດຂອງພຶດຕິກໍາມຸມສະເພາະ, ເກັບກໍາຂໍ້ມູນພຽງພໍທີ່ທ່ານມີທັງຫມົດ, ປະເພດຂອງ, ສະຖານະການທີ່ແປກປະຫລາດທີ່ທ່ານສາມາດພົບໃນຖະຫນົນຫົນທາງ, blah, blah, blah. ແລະການຄາດເດົາຂອງຂ້ອຍແມ່ນວ່າມີການລົງທຶນແລະເວລາພຽງພໍ, ທ່ານພຽງແຕ່ສາມາດສ້າງນະຮົກອອກຈາກມັນ. ແຕ່ໃນທີ່ສຸດ, ມັນຈະເປັນການແກ້ໄຂທີ່ຫນ້າພໍໃຈແລະເປັນໄປໄດ້ທີ່ດີກວ່າທີ່ກ່ຽວຂ້ອງກັບລະບົບທີ່ເຮັດວຽກທີ່ດີກວ່າທີ່ຈະເຂົ້າໃຈວິທີການເຮັດວຽກຂອງໂລກ, ແລະມີ, ບາງລະດັບຂອງສິ່ງທີ່ພວກເຮົາເອີ້ນວ່າຄວາມຮູ້ສຶກທົ່ວໄປ. ມັນບໍ່ຈໍາເປັນຕ້ອງເປັນຄວາມຮູ້ສຶກທົ່ວໄປໃນລະດັບມະນຸດ, ແຕ່ບາງປະເພດຂອງຄວາມຮູ້ທີ່ລະບົບສາມາດໄດ້ຮັບໂດຍການເບິ່ງ, ແຕ່ບໍ່ໄດ້ເບິ່ງຄົນຂັບລົດ, ພຽງແຕ່ເບິ່ງສິ່ງທີ່ເຄື່ອນຍ້າຍແລະເຂົ້າໃຈຫຼາຍກ່ຽວກັບໂລກ, ສ້າງພື້ນຖານຂອງພື້ນຖານ. ຄວາມຮູ້ກ່ຽວກັບວິທີການເຮັດວຽກຂອງໂລກ, ຢູ່ເທິງສຸດທີ່ທ່ານສາມາດຮຽນຮູ້ທີ່ຈະຂັບລົດ. 

ໃຫ້ຂ້ອຍເອົາຕົວຢ່າງປະຫວັດສາດຂອງເລື່ອງນີ້. ວິໄສທັດຄອມພິວເຕີຄລາສສິກແມ່ນອີງໃສ່ຫຼາຍໂມດູນ hardwired, ວິສະວະກໍາ, ຢູ່ເທິງສຸດທີ່ທ່ານຈະມີ, ປະເພດຂອງການຮຽນຮູ້, ຊັ້ນບາງໆ. ດັ່ງນັ້ນ, ສິ່ງທີ່ຖືກຕີໂດຍ AlexNet ໃນປີ 2012, ໂດຍພື້ນຖານແລ້ວແມ່ນຂັ້ນຕອນທໍາອິດ, ປະເພດຂອງການສະກັດເອົາຄຸນສົມບັດທີ່ເຮັດດ້ວຍມື, ເຊັ່ນ SIFTs [ການຫັນປ່ຽນລັກສະນະການປ່ຽນແປງ (SIFT), ເຕັກນິກວິໄສທັດຄລາສສິກເພື່ອກໍານົດວັດຖຸທີ່ໂດດເດັ່ນໃນຮູບພາບ]. ແລະ HOG [Histogram of Oriented Gradints, ເຕັກນິກຄລາສສິກອື່ນ] ແລະສິ່ງອື່ນໆ. ແລະຫຼັງຈາກນັ້ນຊັ້ນທີສອງຂອງ, ການຈັດລຽງຂອງ, ລັກສະນະລະດັບກາງໂດຍອີງໃສ່ kernels ຄຸນນະສົມບັດແລະໃດກໍ່ຕາມ, ແລະບາງປະເພດຂອງວິທີການ unsupervised. ແລະຫຼັງຈາກນັ້ນຢູ່ເທິງສຸດນີ້, ທ່ານໃສ່ເຄື່ອງ vector ສະຫນັບສະຫນູນ, ຫຼືອື່ນ ໆ ການຈັດປະເພດທີ່ຂ້ອນຂ້າງງ່າຍດາຍ. ແລະນັ້ນແມ່ນ, ປະເພດຂອງທໍ່ມາດຕະຖານຈາກກາງຊຸມປີ 2000 ຫາປີ 2012. ແລະນັ້ນໄດ້ຖືກທົດແທນດ້ວຍຕາຫນ່າງ convolutional ໃນຕອນທ້າຍ, ບ່ອນທີ່ທ່ານບໍ່ໄດ້ hardwire ໃດໆຂອງນີ້, ທ່ານພຽງແຕ່ມີຂໍ້ມູນຫຼາຍ, ແລະທ່ານຝຶກອົບຮົມສິ່ງດັ່ງກ່າວຈາກຈຸດຈົບ, ຊຶ່ງເປັນວິທີການທີ່ຂ້າພະເຈົ້າໄດ້ສົ່ງເສີມມາເປັນເວລາດົນ, ແຕ່ທ່ານຮູ້ວ່າ, ຈົນກ່ວານັ້ນ, ບໍ່ແມ່ນການປະຕິບັດສໍາລັບບັນຫາໃຫຍ່. 

ມີເລື່ອງທີ່ຄ້າຍຄືກັນໃນການຮັບຮູ້ສຽງເວົ້າທີ່, ອີກເທື່ອຫນຶ່ງ, ມີຈໍານວນວິສະວະກໍາລາຍລະອຽດຈໍານວນຫຼວງຫຼາຍສໍາລັບວິທີທີ່ທ່ານດໍາເນີນການຂໍ້ມູນລ່ວງຫນ້າ, ທ່ານສະກັດ cepstrum ຂະຫນາດໃຫຍ່ [ການກົງກັນຂ້າມຂອງ Fast Fourier Transform ສໍາລັບການປະມວນຜົນສັນຍານ], ແລະຫຼັງຈາກນັ້ນ. ທ່ານມີ Hidden Markov Models, ມີການຈັດລຽງຂອງ, ສະຖາປັດຕະຍະກໍາທີ່ກໍານົດໄວ້ກ່ອນ, blah, blah, blah, ມີປະສົມຂອງ Gaussians. ແລະດັ່ງນັ້ນ, ມັນເປັນສະຖາປັດຕະຍະກໍາເລັກນ້ອຍຄືກັນກັບວິໄສທັດທີ່ທ່ານໄດ້ເຮັດດ້ວຍມືດ້ານຫນ້າ, ແລະຫຼັງຈາກນັ້ນເປັນຊັ້ນກາງທີ່ບໍ່ມີການເບິ່ງແຍງ, ການຝຶກອົບຮົມ, ແລະຫຼັງຈາກນັ້ນເປັນຊັ້ນຄວບຄຸມຢູ່ເທິງສຸດ. ແລະໃນປັດຈຸບັນ, ໂດຍພື້ນຖານແລ້ວ, ໄດ້ຖືກເຊັດອອກໂດຍຕາຫນ່າງ neural end-to-end. ດັ່ງນັ້ນຂ້ອຍຈຶ່ງເຫັນສິ່ງທີ່ຄ້າຍຄືກັນຢູ່ທີ່ນັ້ນເພື່ອພະຍາຍາມຮຽນຮູ້ທຸກຢ່າງ, ແຕ່ເຈົ້າຕ້ອງມີກ່ອນ, ຖາປັດຕະຍະທີ່ຖືກຕ້ອງ, ໂຄງສ້າງທີ່ຖືກຕ້ອງ.

yann-lecun-sept-2022-5

ຝູງຊົນລົດໃຫຍ່ທີ່ຂັບລົດດ້ວຍຕົນເອງ, ການເລີ່ມຕົ້ນເຊັ່ນ Waymo ແລະ Wayve, "ມີແງ່ດີເລັກນ້ອຍ," ລາວເວົ້າ, ໂດຍຄິດວ່າພວກເຂົາສາມາດ "ຖິ້ມຂໍ້ມູນໃສ່ມັນ, ແລະເຈົ້າສາມາດຮຽນຮູ້ຫຍັງຫຼາຍ." ລົດທີ່ຂັບລົດດ້ວຍຕົນເອງໃນລະດັບ 5 ຂອງ ADAS ເປັນໄປໄດ້, "ແຕ່ເຈົ້າຈະຕ້ອງວິສະວະກໍານະລົກອອກຈາກມັນ" ແລະຈະ "ແຕກຫັກ" ຄືກັບແບບຄອມພິວເຕີວິໄສທັດໃນຕົ້ນໆ.

ZDNet: ສິ່ງທີ່ທ່ານເວົ້າແມ່ນ, ບາງຄົນຈະພະຍາຍາມວິສະວະກໍາສິ່ງທີ່ບໍ່ໄດ້ເຮັດວຽກກັບການຮຽນຮູ້ເລິກສໍາລັບການນໍາໃຊ້, ເວົ້າວ່າ, ໃນອຸດສາຫະກໍາ, ແລະພວກເຂົາກໍາລັງຈະເລີ່ມຕົ້ນສ້າງບາງສິ່ງບາງຢ່າງທີ່ກາຍເປັນສິ່ງທີ່ລ້າສະໄຫມໃນວິໄສທັດຄອມພິວເຕີ?

YL: ສິດ. ແລະມັນເປັນບາງສ່ວນວ່າເປັນຫຍັງຄົນທີ່ເຮັດວຽກກ່ຽວກັບການຂັບຂີ່ແບບອັດຕະໂນມັດມີແງ່ດີຫນ້ອຍເກີນໄປໃນສອງສາມປີຜ່ານມາ, ເພາະວ່າ, ເຈົ້າຮູ້, ທ່ານມີສິ່ງເຫຼົ່ານີ້, ການຈັດລຽງ, ທົ່ວໄປເຊັ່ນຕາຫນ່າງ convolutional ແລະ Transformers, ທີ່ທ່ານສາມາດຖິ້ມຂໍ້ມູນໃສ່ມັນ. , ແລະມັນສາມາດຮຽນຮູ້ຫຍັງຫຼາຍ pretty. ດັ່ງນັ້ນ, ເຈົ້າເວົ້າວ່າ, ໂອເຄ, ຂ້ອຍມີວິທີແກ້ໄຂບັນຫານັ້ນ. ສິ່ງທໍາອິດທີ່ທ່ານເຮັດແມ່ນທ່ານສ້າງຕົວຢ່າງທີ່ລົດຂັບລົດຕົວມັນເອງເປັນເວລາສອງສາມນາທີໂດຍບໍ່ໄດ້ທໍາຮ້າຍໃຜ. ແລະຫຼັງຈາກນັ້ນເຈົ້າຮູ້ວ່າມີຫຼາຍກໍລະນີຫຼາຍມຸມ, ແລະເຈົ້າພະຍາຍາມວາງແຜນເສັ້ນໂຄ້ງວ່າຂ້ອຍດີຂຶ້ນຫຼາຍປານໃດເມື່ອຂ້ອຍຊຸດຝຶກອົບຮົມສອງເທົ່າ, ແລະເຈົ້າຮູ້ວ່າເຈົ້າບໍ່ເຄີຍໄປບ່ອນນັ້ນເພາະວ່າມີກໍລະນີແຈທຸກປະເພດ. . ແລະເຈົ້າຈໍາເປັນຕ້ອງມີລົດທີ່ຈະເຮັດໃຫ້ເກີດອຸບັດຕິເຫດຫນ້ອຍກວ່າທຸກໆ 200 ລ້ານກິໂລແມັດ, ແມ່ນບໍ? ດັ່ງນັ້ນ, ເຈົ້າເຮັດແນວໃດ? ດີ, ທ່ານຍ່າງໃນສອງທິດທາງ. 

ທິດທາງທໍາອິດແມ່ນ, ຂ້ອຍຈະຫຼຸດຜ່ອນຈໍານວນຂໍ້ມູນທີ່ຈໍາເປັນສໍາລັບລະບົບຂອງຂ້ອຍທີ່ຈະຮຽນຮູ້ໄດ້ແນວໃດ? ແລະນັ້ນກໍ່ແມ່ນບ່ອນທີ່ການຮຽນຮູ້ການເບິ່ງແຍງຕົນເອງເຂົ້າມາ. ສະນັ້ນ, ການແຕ່ງຕົວລົດຂັບລົດຕົນເອງຫຼາຍຄົນມີຄວາມສົນໃຈຫຼາຍໃນການຮຽນຮູ້ການເບິ່ງແຍງຕົນເອງເພາະວ່ານັ້ນແມ່ນວິທີການທີ່ຍັງໃຊ້ຂໍ້ມູນການຊີ້ນໍາຈໍານວນຫຼວງຫຼາຍເພື່ອການຮຽນຮູ້ແບບຮຽນແບບ, ແຕ່ໄດ້ຮັບການປະຕິບັດດີຂຶ້ນໂດຍ. ການຝຶກອົບຮົມກ່ອນ, ສໍາຄັນ. ແລະມັນຍັງບໍ່ທັນໄດ້ panned ຂ້ອນຂ້າງອອກ, ແຕ່ວ່າມັນຈະ. ແລະຫຼັງຈາກນັ້ນມີທາງເລືອກອື່ນ, ເຊິ່ງບໍລິສັດສ່ວນໃຫຍ່ທີ່ມີຄວາມກ້າວຫນ້າໃນຈຸດນີ້ໄດ້ຮັບຮອງເອົາ, ເຊິ່ງແມ່ນ, ບໍ່ເປັນຫຍັງ, ພວກເຮົາສາມາດເຮັດການຝຶກອົບຮົມໃນຕອນທ້າຍ, ແຕ່ມີຫຼາຍກໍລະນີທີ່ພວກເຮົາສາມາດ. t handle, ດັ່ງນັ້ນພວກເຮົາກໍາລັງຈະພຽງແຕ່ລະບົບວິສະວະກອນທີ່ຈະດູແລກໍລະນີແຈເຫຼົ່ານັ້ນ, ແລະ, ໂດຍພື້ນຖານແລ້ວ, ປະຕິບັດໃຫ້ເຂົາເຈົ້າເປັນກໍລະນີພິເສດ, ແລະ hardwire ການຄວບຄຸມ, ແລະຫຼັງຈາກນັ້ນ hardwire ຫຼາຍຂອງພຶດຕິກໍາພື້ນຖານເພື່ອຈັດການກັບສະຖານະການພິເສດ. ແລະຖ້າທ່ານມີທີມງານວິສະວະກອນຂະຫນາດໃຫຍ່ພຽງພໍ, ທ່ານອາດຈະດຶງມັນອອກ. ແຕ່ມັນຈະໃຊ້ເວລາດົນ, ແລະໃນທີ່ສຸດ, ມັນຍັງຄົງເປັນ brittle ເລັກນ້ອຍ, ອາດຈະເຊື່ອຖືໄດ້ພຽງພໍທີ່ທ່ານສາມາດນໍາໄປໃຊ້, ແຕ່ມີບາງລະດັບຂອງ brittleness, ເຊິ່ງ, ດ້ວຍວິທີການຮຽນຮູ້ເພີ່ມເຕີມທີ່ອາດຈະປາກົດຢູ່ໃນ. ໃນອະນາຄົດ, ລົດຈະບໍ່ມີເພາະວ່າມັນອາດຈະມີບາງລະດັບຂອງຄວາມຮູ້ສຶກທົ່ວໄປແລະຄວາມເຂົ້າໃຈກ່ຽວກັບວິທີການເຮັດວຽກຂອງໂລກ. 

ໃນໄລຍະສັ້ນ, ການຈັດລຽງ, ວິທີການວິສະວະກໍາຈະຊະນະ - ມັນຊະນະແລ້ວ. ນັ້ນແມ່ນ Waymo ແລະ Cruise ຂອງໂລກແລະ Wayveແລະອັນໃດກໍ່ຕາມ, ນັ້ນແມ່ນສິ່ງທີ່ເຂົາເຈົ້າເຮັດ. ຫຼັງຈາກນັ້ນ, ມີວິທີການຮຽນຮູ້ແບບຄວບຄຸມຕົນເອງ, ເຊິ່ງອາດຈະຊ່ວຍໃຫ້ວິທີການວິສະວະກໍາມີຄວາມກ້າວຫນ້າ. ແຕ່ຫຼັງຈາກນັ້ນ, ໃນໄລຍະຍາວ, ເຊິ່ງອາດຈະຍາວເກີນໄປສໍາລັບບໍລິສັດເຫຼົ່ານັ້ນທີ່ຈະລໍຖ້າ, ອາດຈະເປັນ, ປະເພດ, ລະບົບການຂັບຂີ່ອັດສະລິຍະທີ່ປະສົມປະສານຫຼາຍກວ່າເກົ່າ.

ZDNet: ພວກເຮົາເວົ້າເກີນຂອບເຂດການລົງທຶນຂອງນັກລົງທຶນສ່ວນໃຫຍ່.

YL: ຖືກ​ຕ້ອງ. ດັ່ງນັ້ນ, ຄໍາຖາມແມ່ນ, ປະຊາຊົນຈະສູນເສຍຄວາມອົດທົນຫຼືຫມົດເງິນກ່ອນທີ່ການປະຕິບັດບັນລຸລະດັບທີ່ຕ້ອງການ.

ZDNet: ມີສິ່ງທີ່ຫນ້າສົນໃຈທີ່ຈະເວົ້າກ່ຽວກັບວ່າເປັນຫຍັງທ່ານເລືອກບາງອົງປະກອບທີ່ທ່ານເລືອກໃນແບບຈໍາລອງ? ເພາະວ່າເຈົ້າອ້າງເຖິງ Kenneth Craik [1943,ລັກສະນະຂອງຄໍາອະທິບາຍ], ແລະເຈົ້າອ້າງເຖິງ Bryson and Ho [1969, ນຳໃຊ້ການຄວບຄຸມທີ່ດີທີ່ສຸດ], ແລະຂ້ອຍຢາກຮູ້ຢາກເຫັນວ່າເປັນຫຍັງເຈົ້າຈຶ່ງເລີ່ມມີອິດທິພົນເຫຼົ່ານີ້, ຖ້າເຈົ້າເຊື່ອໂດຍສະເພາະວ່າຄົນເຫຼົ່ານີ້ໄດ້ຕີມັນໄວ້ເທົ່າທີ່ເຂົາເຈົ້າໄດ້ເຮັດ. ເປັນຫຍັງເຈົ້າຈຶ່ງເລີ່ມຢູ່ທີ່ນັ້ນ?

YL: ດີ, ຂ້ອຍບໍ່ຄິດວ່າ, ແນ່ນອນ, ພວກເຂົາເຈົ້າມີລາຍລະອຽດທັງຫມົດທີ່ຖືກ nailed. ດັ່ງນັ້ນ, Bryson ແລະ Ho, ນີ້ແມ່ນປື້ມທີ່ຂ້າພະເຈົ້າອ່ານຄືນໃນປີ 1987 ໃນເວລາທີ່ຂ້າພະເຈົ້າເປັນ postdoc ກັບ Geoffrey Hinton ໃນ Toronto. ແຕ່ຂ້ອຍຮູ້ກ່ຽວກັບສາຍການເຮັດວຽກນີ້ກ່ອນເວລາທີ່ຂ້ອຍຂຽນ PhD ຂອງຂ້ອຍ, ແລະເຮັດໃຫ້ການເຊື່ອມຕໍ່ລະຫວ່າງການຄວບຄຸມທີ່ດີທີ່ສຸດແລະ backprop, ເປັນສິ່ງຈໍາເປັນ. ຖ້າທ່ານຢາກເປັນແທ້ໆ, ທ່ານຮູ້, Schmidhuber ຄົນອື່ນ, ທ່ານຈະເວົ້າວ່ານັກປະດິດທີ່ແທ້ຈິງຂອງ backprop ແມ່ນນັກທິດສະດີການຄວບຄຸມທີ່ດີທີ່ສຸດ Henry J. Kelley, Arthur Bryson, ແລະບາງທີແມ່ນ Lev Pontryagin, ຜູ້ທີ່ເປັນນັກທິດສະດີການຄວບຄຸມທີ່ດີທີ່ສຸດຂອງລັດເຊຍ. ໃນທ້າຍປີ 50s. 

ດັ່ງນັ້ນ, ພວກເຂົາເຈົ້າໄດ້ຄິດອອກ, ແລະໃນຕົວຈິງແລ້ວ, ຕົວຈິງແລ້ວ, ຕົວຈິງແລ້ວ, ທ່ານສາມາດເບິ່ງຮາກຂອງນີ້, ຄະນິດສາດຂ້າງລຸ່ມນີ້, ແມ່ນກົນຈັກ Lagrangian. ດັ່ງນັ້ນທ່ານສາມາດກັບຄືນໄປຫາ Euler ແລະ Lagrange, ໃນຄວາມເປັນຈິງ, ແລະປະເພດຂອງການຄົ້ນພົບນີ້ຢູ່ໃນຄໍານິຍາມຂອງກົນຈັກຄລາສສິກ Lagrangian, ແທ້. ດັ່ງນັ້ນ, ໃນສະພາບການຂອງການຄວບຄຸມທີ່ດີທີ່ສຸດ, ສິ່ງທີ່ຄົນເຫຼົ່ານີ້ມີຄວາມສົນໃຈໃນພື້ນຖານແມ່ນການຄິດໄລ່ trajectories ລູກ. ເຈົ້າຮູ້ບໍ່, ນີ້ແມ່ນຍຸກອະວະກາດຕອນຕົ້ນ. ແລະຖ້າທ່ານມີແບບຈໍາລອງຂອງບັ້ງໄຟ, ມັນບອກທ່ານວ່ານີ້ແມ່ນສະພາບຂອງບັ້ງໄຟໃນເວລານັ້ນ t, ແລະນີ້ແມ່ນການດໍາເນີນການທີ່ຂ້າພະເຈົ້າຈະປະຕິບັດ, ດັ່ງນັ້ນ, thrust ແລະ actuators ປະເພດຕ່າງໆ, ນີ້ແມ່ນສະຖານະຂອງບັ້ງໄຟໃນເວລານັ້ນ. t+1.

ZDNet: ຮູບແບບການປະຕິບັດຂອງລັດ, ຮູບແບບມູນຄ່າ.

YL: ນັ້ນແມ່ນ, ພື້ນຖານຂອງການຄວບຄຸມ. ດັ່ງນັ້ນ, ຕອນນີ້ທ່ານສາມາດຈໍາລອງການຍິງບັ້ງໄຟຂອງທ່ານໂດຍການຈິນຕະນາການລໍາດັບຄໍາສັ່ງ, ແລະຫຼັງຈາກນັ້ນທ່ານມີຄ່າໃຊ້ຈ່າຍບາງຢ່າງ, ເຊິ່ງແມ່ນໄລຍະຫ່າງຂອງບັ້ງໄຟໄປຫາເປົ້າຫມາຍຂອງມັນ, ສະຖານີອາວະກາດຫຼືສິ່ງໃດກໍ່ຕາມ. ແລະຫຼັງຈາກນັ້ນໂດຍບາງປະເພດຂອງການສືບເຊື້ອສາຍ gradient, ທ່ານສາມາດຄິດອອກ, ຂ້ອຍຈະປັບປຸງລໍາດັບການປະຕິບັດຂອງຂ້ອຍໄດ້ແນວໃດເພື່ອໃຫ້ລູກຂອງຂ້ອຍເຂົ້າໃກ້ເປົ້າຫມາຍທີ່ເປັນໄປໄດ້. ແລະນັ້ນຕ້ອງມາໂດຍສັນຍານການແຜ່ກະຈາຍກັບຄືນໄປບ່ອນໃນເວລາ. ແລະນັ້ນແມ່ນການຂະຫຍາຍພັນຄືນ, ການຂະຫຍາຍພັນແບບ gradient. ສັນຍານເຫຼົ່ານັ້ນ, ພວກມັນຖືກເອີ້ນວ່າຕົວແປ conjugate ໃນກົນຈັກ Lagrangian, ແຕ່ໃນຄວາມເປັນຈິງ, ພວກມັນແມ່ນ gradients. ດັ່ງນັ້ນ, ພວກເຂົາເຈົ້າ invented backprop, ແຕ່ພວກເຂົາເຈົ້າບໍ່ໄດ້ຮັບຮູ້ວ່າຫຼັກການນີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອຝຶກອົບຮົມລະບົບຫຼາຍຂັ້ນຕອນທີ່ສາມາດເຮັດການຮັບຮູ້ຮູບແບບຫຼືບາງສິ່ງບາງຢ່າງເຊັ່ນນັ້ນ. ນີ້ບໍ່ໄດ້ຮັບຮູ້ຢ່າງແທ້ຈິງຈົນກ່ວາບາງທີທ້າຍ 70s, ຕົ້ນ 80s, ແລະຫຼັງຈາກນັ້ນບໍ່ໄດ້ປະຕິບັດຕົວຈິງແລະເຮັດວຽກຈົນກ່ວາກາງ 80s. ໂອເຄ, ດັ່ງນັ້ນ, ນີ້ແມ່ນບ່ອນທີ່ backprop ແທ້ໆ, ປະເພດ, ໄດ້ເອົາອອກເພາະວ່າປະຊາຊົນສະແດງໃຫ້ເຫັນນີ້ແມ່ນສອງສາມເສັ້ນຂອງລະຫັດທີ່ທ່ານສາມາດຝຶກອົບຮົມ neural net, ສິ້ນສຸດ, multilayer. ແລະນັ້ນຍົກຂໍ້ຈໍາກັດຂອງ Perceptron. ແລະ, ແມ່ນແລ້ວ, ມີການເຊື່ອມຕໍ່ກັບການຄວບຄຸມທີ່ດີທີ່ສຸດ, ແຕ່ວ່າບໍ່ເປັນຫຍັງ.

ZDNet: ດັ່ງນັ້ນ, ມັນເປັນວິທີທາງຍາວຂອງການເວົ້າວ່າອິດທິພົນເຫຼົ່ານີ້ທີ່ທ່ານເລີ່ມຕົ້ນດ້ວຍການກັບຄືນສູ່ backprop, ແລະນັ້ນແມ່ນສໍາຄັນເປັນຈຸດເລີ່ມຕົ້ນສໍາລັບທ່ານບໍ?

YL: ແມ່ນແລ້ວ, ແຕ່ຂ້ອຍຄິດວ່າສິ່ງທີ່ຄົນລືມເລັກນ້ອຍກ່ຽວກັບເລື່ອງນີ້, ມີວຽກເລັກນ້ອຍກ່ຽວກັບເລື່ອງນີ້, ເຈົ້າຮູ້, ໃນຊຸມປີ 90, ຫຼືແມ້ກະທັ້ງ 80s, ລວມທັງຄົນເຊັ່ນ Michael Jordan [MIT Dept. of Brain ແລະວິທະຍາສາດມັນສະຫມອງ] ແລະປະຊາຊົນມັກຜູ້ທີ່ບໍ່ໄດ້ເຮັດຕາຫນ່າງ neural ອີກຕໍ່ໄປ, ແຕ່ຄວາມຄິດທີ່ວ່າທ່ານສາມາດນໍາໃຊ້ຕາຫນ່າງ neural ສໍາລັບການຄວບຄຸມ, ແລະທ່ານສາມາດນໍາໃຊ້ແນວຄວາມຄິດຄລາສສິກຂອງການຄວບຄຸມທີ່ດີທີ່ສຸດ. ດັ່ງນັ້ນ, ສິ່ງຕ່າງໆເຊັ່ນສິ່ງທີ່ເອີ້ນວ່າການຄວບຄຸມແບບຈໍາລອງ - ການຄາດເດົາ, ປະຈຸບັນເອີ້ນວ່າການຄວບຄຸມແບບຈໍາລອງ - ການຄາດເດົາ, ຄວາມຄິດນີ້ທີ່ທ່ານສາມາດຈໍາລອງຫຼືຈິນຕະນາການຜົນໄດ້ຮັບຂອງລໍາດັບຂອງການປະຕິບັດຖ້າທ່ານມີຕົວແບບທີ່ດີຂອງລະບົບທີ່ທ່ານກໍາລັງພະຍາຍາມຄວບຄຸມ. ແລະສະພາບແວດລ້ອມທີ່ມັນຢູ່ໃນ. ແລະຫຼັງຈາກນັ້ນໂດຍ gradient descent, ສໍາຄັນ - ນີ້ບໍ່ແມ່ນການຮຽນຮູ້, ນີ້ແມ່ນ inference - ທ່ານສາມາດຄິດອອກສິ່ງທີ່ເປັນລໍາດັບທີ່ດີທີ່ສຸດຂອງການປະຕິບັດທີ່ຈະຫຼຸດຜ່ອນຈຸດປະສົງຂອງຂ້າພະເຈົ້າ. ດັ່ງນັ້ນ, ການນໍາໃຊ້ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍທີ່ມີຕົວແປ latent ສໍາລັບ inference ແມ່ນ, ຂ້າພະເຈົ້າຄິດວ່າ, ບາງສິ່ງບາງຢ່າງທີ່ການປູກພືດໃນປະຈຸບັນຂອງຕາຫນ່າງ neural ຂະຫນາດໃຫຍ່ໄດ້ລືມກ່ຽວກັບ. ແຕ່ມັນເປັນອົງປະກອບຄລາສສິກຫຼາຍຂອງການຮຽນຮູ້ເຄື່ອງຈັກສໍາລັບເວລາດົນນານ. ດັ່ງນັ້ນ, ທຸກໆ Bayesian Net ຫຼືແບບຈໍາລອງກາຟິກຫຼືຮູບແບບກາຟິກທີ່ອາດຈະເປັນໄປໄດ້ໃຊ້ປະເພດຂອງ inference ນີ້. ທ່ານມີແບບຈໍາລອງທີ່ເກັບກໍາຄວາມເພິ່ງພາອາໄສລະຫວ່າງກຸ່ມຕົວແປ, ທ່ານກໍາລັງບອກມູນຄ່າຂອງບາງຕົວແປ, ແລະຫຼັງຈາກນັ້ນທ່ານຕ້ອງຄິດໄລ່ມູນຄ່າທີ່ເປັນໄປໄດ້ທີ່ສຸດຂອງຕົວແປທີ່ເຫຼືອ. ນັ້ນແມ່ນຫຼັກການພື້ນຖານຂອງ inference ໃນຮູບແບບກາຟິກແລະ Bayesian Nets, ແລະສິ່ງຕ່າງໆເຊັ່ນນັ້ນ. ແລະຂ້າພະເຈົ້າຄິດວ່າໂດຍພື້ນຖານແລ້ວສິ່ງທີ່ສົມເຫດສົມຜົນຄວນຈະເປັນ, ເຫດຜົນແລະການວາງແຜນ.

ZDNet: ເຈົ້າເປັນ closet Bayesian.

YL: ຂ້ອຍເປັນ Bayesian ທີ່ບໍ່ເປັນໄປໄດ້. ຂ້ອຍເວົ້າຕະຫຼົກນັ້ນກ່ອນ. ຕົວຈິງແລ້ວຂ້ອຍຢູ່ທີ່ NeurIPS ເມື່ອສອງສາມປີກ່ອນ, ຂ້ອຍຄິດວ່າມັນແມ່ນປີ 2018 ຫຼື 2019, ແລະຂ້ອຍຖືກຈັບໄດ້ໃນວິດີໂອໂດຍ Bayesian ທີ່ຖາມຂ້ອຍວ່າຂ້ອຍເປັນຄົນ Bayesian, ແລະຂ້ອຍເວົ້າວ່າ, ແມ່ນແລ້ວ, ຂ້ອຍເປັນ Bayesian, ແຕ່ຂ້ອຍ 'm a non-probabilistic Bayesian, sort-of, ເປັນ Bayesian ທີ່ອີງໃສ່ພະລັງງານ, ຖ້າທ່ານຕ້ອງການ. 

ZDNet: ເຊິ່ງແນ່ນອນວ່າສຽງຄ້າຍຄືບາງສິ່ງບາງຢ່າງຈາກ Star Trek. ທ່ານໄດ້ກ່າວໄວ້ໃນທ້າຍຂອງເອກະສານນີ້, ມັນຈະໃຊ້ເວລາຫຼາຍປີຂອງການເຮັດວຽກຫນັກແທ້ໆເພື່ອຮັບຮູ້ສິ່ງທີ່ທ່ານຈິນຕະນາການ. ບອກຂ້າພະເຈົ້າກ່ຽວກັບສິ່ງທີ່ບາງສ່ວນຂອງວຽກງານນັ້ນໃນປັດຈຸບັນປະກອບດ້ວຍ.

YL: ດັ່ງນັ້ນ, ຂ້າພະເຈົ້າອະທິບາຍວິທີທີ່ທ່ານຝຶກອົບຮົມແລະສ້າງ JEPA ໃນເຈ້ຍ. ແລະເງື່ອນໄຂທີ່ຂ້ອຍກໍາລັງສົ່ງເສີມແມ່ນມີວິທີໃດນຶ່ງໃນການຂະຫຍາຍເນື້ອຫາຂໍ້ມູນໃຫ້ສູງສຸດທີ່ຕົວແທນທີ່ຖືກສະກັດອອກມາມີກ່ຽວກັບການປ້ອນຂໍ້ມູນ. ແລະຫຼັງຈາກນັ້ນອັນທີສອງແມ່ນການຫຼຸດຜ່ອນຄວາມຜິດພາດຂອງການຄາດຄະເນ. ແລະຖ້າທ່ານມີຕົວແປທີ່ແຝງຢູ່ໃນຕົວຄາດຄະເນທີ່ຊ່ວຍໃຫ້ຜູ້ຄາດຄະເນບໍ່ສາມາດກໍານົດໄດ້, ທ່ານຕ້ອງເຮັດໃຫ້ຕົວແປທີ່ແຝງນີ້ເປັນປົກກະຕິໂດຍການຫຼຸດຜ່ອນເນື້ອໃນຂໍ້ມູນຂອງມັນ. ດັ່ງນັ້ນ, ທ່ານມີສອງບັນຫາໃນປັດຈຸບັນ, ເຊິ່ງແມ່ນວິທີທີ່ທ່ານເພີ່ມເນື້ອຫາຂໍ້ມູນຂອງຜົນຜະລິດຂອງເນັດ neural ບາງອັນ, ແລະອີກອັນຫນຶ່ງແມ່ນວິທີທີ່ທ່ານຫຼຸດຜ່ອນເນື້ອຫາຂໍ້ມູນຂອງຕົວແປບາງຕົວແປ? ແລະຖ້າທ່ານບໍ່ເຮັດສອງຢ່າງນັ້ນ, ລະບົບຈະລົ້ມລົງ. ມັນຈະບໍ່ຮຽນຮູ້ສິ່ງທີ່ຫນ້າສົນໃຈ. ມັນຈະໃຫ້ພະລັງງານສູນກັບທຸກສິ່ງທຸກຢ່າງ, ບາງສິ່ງບາງຢ່າງເຊັ່ນນັ້ນ, ເຊິ່ງບໍ່ແມ່ນຕົວແບບທີ່ດີຂອງການເພິ່ງພາອາໄສ. ມັນ​ເປັນ​ບັນ​ຫາ​ປ້ອງ​ກັນ​ການ​ພັງ​ລົງ​ທີ່​ຂ້າ​ພະ​ເຈົ້າ​ໄດ້​ກ່າວ​ເຖິງ​. 

ແລະຂ້າພະເຈົ້າເວົ້າກ່ຽວກັບທຸກສິ່ງທີ່ຄົນເຄີຍເຮັດ, ມີພຽງແຕ່ສອງປະເພດຂອງວິທີການເພື່ອປ້ອງກັນການລົ້ມລົງ. ຫນຶ່ງແມ່ນວິທີການກົງກັນຂ້າມ, ແລະອີກອັນຫນຶ່ງແມ່ນວິທີການປົກກະຕິເຫຼົ່ານັ້ນ. ດັ່ງນັ້ນ, ແນວຄວາມຄິດຂອງການຂະຫຍາຍເນື້ອຫາຂໍ້ມູນສູງສຸດຂອງການເປັນຕົວແທນຂອງສອງວັດສະດຸປ້ອນແລະການຫຼຸດຜ່ອນເນື້ອຫາຂໍ້ມູນຂອງຕົວແປທີ່ແຝງ, ເຊິ່ງເປັນວິທີການປົກກະຕິ. ແຕ່ການເຮັດວຽກຫຼາຍຢ່າງໃນສະຖາປັດຕະຍະກໍາຝັງຕົວຮ່ວມກັນແມ່ນໃຊ້ວິທີການກົງກັນຂ້າມ. ໃນຄວາມເປັນຈິງ, ພວກເຂົາອາດຈະເປັນທີ່ນິຍົມທີ່ສຸດໃນເວລານີ້. ດັ່ງນັ້ນ, ຄໍາຖາມແມ່ນແນ່ນອນວິທີທີ່ທ່ານວັດແທກເນື້ອຫາຂໍ້ມູນໃນວິທີທີ່ທ່ານສາມາດເພີ່ມປະສິດທິພາບຫຼືຫຼຸດລົງ? ແລະນັ້ນແມ່ນບ່ອນທີ່ສິ່ງທີ່ສັບສົນເພາະວ່າພວກເຮົາບໍ່ຮູ້ວິທີການວັດແທກເນື້ອຫາຂໍ້ມູນ. ພວກເຮົາສາມາດປະມານມັນ, ພວກເຮົາສາມາດຜູກມັດມັນ, ພວກເຮົາສາມາດເຮັດສິ່ງຕ່າງໆເຊັ່ນນັ້ນ. ແຕ່ຕົວຈິງແລ້ວພວກເຂົາບໍ່ໄດ້ວັດແທກເນື້ອໃນຂໍ້ມູນ, ເຊິ່ງ, ຕົວຈິງແລ້ວ, ໃນບາງຂອບເຂດແມ່ນບໍ່ໄດ້ກໍານົດໄດ້ດີ.

ZDNet: ມັນບໍ່ແມ່ນກົດຫມາຍຂອງ Shannon? ມັນບໍ່ແມ່ນທິດສະດີຂໍ້ມູນຂ່າວສານ? ທ່ານໄດ້ຮັບຈໍານວນທີ່ແນ່ນອນຂອງ entropy, entropy ດີແລະ entropy ທີ່ບໍ່ດີ, ແລະ entropy ທີ່ດີແມ່ນລະບົບສັນຍາລັກທີ່ເຮັດວຽກ, entropy ທີ່ບໍ່ດີແມ່ນສິ່ງລົບກວນ. ມັນບໍ່ແມ່ນການແກ້ໄຂທັງຫມົດໂດຍ Shannon?

YL: ເຈົ້າເວົ້າຖືກ, ແຕ່ມີຂໍ້ບົກຜ່ອງທີ່ສໍາຄັນທີ່ຢູ່ເບື້ອງຫຼັງ. ທ່ານຖືກຕ້ອງໃນຄວາມ ໝາຍ ວ່າຖ້າທ່ານມີຂໍ້ມູນເຂົ້າມາຫາທ່ານແລະທ່ານສາມາດ ຈຳ ນວນຂໍ້ມູນເປັນສັນຍາລັກທີ່ແຍກຕ່າງຫາກ, ແລະຫຼັງຈາກນັ້ນທ່ານວັດແທກຄວາມເປັນໄປໄດ້ຂອງແຕ່ລະສັນຍາລັກເຫຼົ່ານັ້ນ, ຈໍານວນຂໍ້ມູນສູງສຸດຂອງສັນຍາລັກເຫຼົ່ານັ້ນແມ່ນຕົວເລກ. ຜົນລວມຫຼາຍກວ່າສັນຍາລັກທີ່ເປັນໄປໄດ້ຂອງ Pi log Pi, ສິດ? ຢູ່ໃສ Pi ແມ່ນຄວາມເປັນໄປໄດ້ຂອງສັນຍາລັກ ຂ້ອຍ — ນັ້ນ​ແມ່ນ​ອັນ​ໂທ​ປີ Shannon. [ກົດ​ຫມາຍ​ວ່າ​ດ້ວຍ Shannon ໄດ້​ຖືກ​ສ້າງ​ຕັ້ງ​ໂດຍ​ທົ່ວ​ໄປ​ເປັນ H = – ∑ pi log pi.]

ນີ້ແມ່ນບັນຫາ, ເຖິງແມ່ນວ່າ: ແມ່ນຫຍັງ Pi? ມັນງ່າຍໃນເວລາທີ່ຈໍານວນຂອງສັນຍາລັກມີຂະຫນາດນ້ອຍແລະສັນຍາລັກໄດ້ຖືກແຕ້ມເປັນເອກະລາດ. ເມື່ອມີສັນຍາລັກຫຼາຍ, ແລະຄວາມເພິ່ງພາອາໄສ, ມັນຍາກຫຼາຍ. ດັ່ງນັ້ນ, ຖ້າທ່ານມີລໍາດັບຂອງ bits ແລະທ່ານສົມມຸດວ່າ bits ເປັນເອກະລາດຂອງກັນແລະກັນແລະຄວາມເປັນໄປໄດ້ແມ່ນເທົ່າທຽມກັນລະຫວ່າງຫນຶ່ງຫາສູນຫຼືໃດກໍ່ຕາມ, ຫຼັງຈາກນັ້ນທ່ານສາມາດວັດແທກ entropy ໄດ້ຢ່າງງ່າຍດາຍ, ບໍ່ມີບັນຫາ. ແຕ່ຖ້າຫາກວ່າສິ່ງທີ່ມາຫາທ່ານແມ່ນ vectors ມິຕິລະດັບສູງ, ເຊັ່ນ, ທ່ານຮູ້ຈັກ, ກອບຂໍ້ມູນ, ຫຼືບາງສິ່ງບາງຢ່າງເຊັ່ນນີ້, ແມ່ນຫຍັງ. Pi? ການແຈກຢາຍແມ່ນຫຍັງ? ກ່ອນອື່ນ ໝົດ ທ່ານຕ້ອງຄິດໄລ່ພື້ນທີ່ນັ້ນ, ເຊິ່ງເປັນພື້ນທີ່ທີ່ມີມິຕິລະດັບສູງ, ຢ່າງຕໍ່ເນື່ອງ. ທ່ານບໍ່ມີຄວາມຄິດແນວໃດທີ່ຈະ quantize ນີ້ຢ່າງຖືກຕ້ອງ. ທ່ານສາມາດນໍາໃຊ້ k-means, ແລະອື່ນໆ. ນີ້ແມ່ນສິ່ງທີ່ຄົນເຮັດໃນເວລາທີ່ເຂົາເຈົ້າເຮັດການບີບອັດວິດີໂອແລະການບີບອັດຮູບພາບ. ແຕ່ມັນເປັນພຽງແຕ່ປະມານ. ແລະຫຼັງຈາກນັ້ນທ່ານຕ້ອງເຮັດສົມມຸດຕິຖານຂອງເອກະລາດ. ດັ່ງນັ້ນ, ມັນເປັນທີ່ຊັດເຈນວ່າໃນວິດີໂອ, ກອບຢ່າງຕໍ່ເນື່ອງບໍ່ແມ່ນເອກະລາດ. ມີຄວາມເພິ່ງພາອາໄສ, ແລະກອບນັ້ນອາດຈະຂຶ້ນກັບກອບອື່ນທີ່ທ່ານເຫັນຫນຶ່ງຊົ່ວໂມງກ່ອນຫນ້ານີ້, ເຊິ່ງເປັນຮູບຂອງສິ່ງດຽວກັນ. ດັ່ງນັ້ນ, ເຈົ້າຮູ້, ທ່ານບໍ່ສາມາດວັດແທກໄດ້ Pi. ການວັດແທກ Pi, ທ່ານຕ້ອງມີລະບົບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ຮຽນຮູ້ການຄາດເດົາ. ແລະດັ່ງນັ້ນທ່ານກັບຄືນໄປບ່ອນບັນຫາທີ່ຜ່ານມາ. ດັ່ງນັ້ນ, ທ່ານພຽງແຕ່ສາມາດປະມານການວັດແທກຂໍ້ມູນ, ທີ່ສໍາຄັນ. 

yann-lecun-sept-2022-6

"ຄໍາຖາມແມ່ນແນ່ນອນວ່າເຈົ້າວັດແທກເນື້ອຫາຂໍ້ມູນໃນວິທີທີ່ເຈົ້າສາມາດເພີ່ມປະສິດທິພາບຫຼືຫຼຸດລົງໄດ້ແນວໃດ?" LeCun ເວົ້າວ່າ. "ແລະນັ້ນແມ່ນບ່ອນທີ່ສິ່ງທີ່ສັບສົນເພາະວ່າພວກເຮົາບໍ່ຮູ້ວິທີການວັດແທກເນື້ອຫາຂໍ້ມູນ." ທີ່ດີທີ່ສຸດທີ່ສາມາດເຮັດໄດ້ມາເຖິງຕອນນັ້ນແມ່ນການຊອກຫາຕົວແທນທີ່ "ດີພໍສໍາລັບວຽກງານທີ່ພວກເຮົາຕ້ອງການ."

ໃຫ້ຂ້ອຍເອົາຕົວຢ່າງທີ່ຊັດເຈນກວ່າ. ຫນຶ່ງໃນ algorithm ທີ່ພວກເຮົາໄດ້ຮັບການຫຼີ້ນກັບ, ແລະຂ້າພະເຈົ້າໄດ້ເວົ້າກ່ຽວກັບການສິ້ນ, ນີ້ແມ່ນສິ່ງທີ່ເອີ້ນວ່າ VICReg, variance-invariance-covariance normalization. ມັນຢູ່ໃນເອກະສານແຍກຕ່າງຫາກທີ່ຈັດພີມມາຢູ່ ICLR, ແລະ ມັນໄດ້ຖືກໃສ່ໃນ arXiv ປະມານຫນຶ່ງປີກ່ອນ, 2021. ແລະແນວຄວາມຄິດຢູ່ທີ່ນັ້ນແມ່ນເພື່ອຂະຫຍາຍຂໍ້ມູນຂ່າວສານສູງສຸດ. ແລະ​ແນວ​ຄວາມ​ຄິດ​ທີ່​ແທ້​ຈິງ​ໄດ້​ອອກ​ມາ​ຈາກ​ເຈ້ຍ​ກ່ອນ​ຫນ້າ​ນີ້​ໂດຍ​ກຸ່ມ​ຂອງ​ຂ້າ​ພະ​ເຈົ້າ​ເອີ້ນ​ວ່າ ຝາແຝດ Barlow. ທ່ານຂະຫຍາຍເນື້ອໃນຂໍ້ມູນຂອງ vector ອອກຈາກຕາຫນ່າງ neural ໂດຍ, ໂດຍພື້ນຖານແລ້ວ, ສົມມຸດວ່າການເພິ່ງພາອາໄສພຽງແຕ່ລະຫວ່າງຕົວແປແມ່ນ correlation, linear dependency. ດັ່ງນັ້ນ, ຖ້າທ່ານສົມມຸດວ່າການເພິ່ງພາອາໄສອັນດຽວທີ່ເປັນໄປໄດ້ລະຫວ່າງຄູ່ຂອງຕົວແປ, ຫຼືລະຫວ່າງຕົວແປໃນລະບົບຂອງເຈົ້າ, ແມ່ນຄວາມສໍາພັນລະຫວ່າງຄູ່ຂອງມູນຄ່າ, ເຊິ່ງເປັນການປະມານທີ່ຫຍາບຄາຍທີ່ສຸດ, ຫຼັງຈາກນັ້ນທ່ານສາມາດຂະຫຍາຍເນື້ອຫາຂໍ້ມູນອອກຈາກລະບົບຂອງເຈົ້າສູງສຸດ. ໂດຍໃຫ້ແນ່ໃຈວ່າຕົວແປທັງຫມົດມີຄວາມແຕກຕ່າງກັນທີ່ບໍ່ແມ່ນສູນ - ໃຫ້ເວົ້າວ່າ, ການປ່ຽນແປງຫນຶ່ງ, ມັນບໍ່ສໍາຄັນວ່າມັນເປັນແນວໃດ - ແລະຫຼັງຈາກນັ້ນໃຫ້ມັນກັບຄືນ, ຂະບວນການດຽວກັນທີ່ເອີ້ນວ່າ whitening, ມັນບໍ່ແມ່ນໃຫມ່. ບັນຫານີ້ແມ່ນວ່າທ່ານສາມາດມີຄວາມເພິ່ງພາອາໄສທີ່ສັບສົນຫຼາຍລະຫວ່າງກຸ່ມຕົວແປຫຼືແມ້ກະທັ້ງຄູ່ຂອງຕົວແປທີ່ບໍ່ຂຶ້ນກັບເສັ້ນ, ແລະພວກມັນບໍ່ສະແດງຢູ່ໃນຄວາມກ່ຽວຂ້ອງ. ດັ່ງນັ້ນ, ສໍາລັບຕົວຢ່າງ, ຖ້າທ່ານມີຕົວແປສອງຕົວແປ, ແລະຈຸດທັງຫມົດຂອງສອງຕົວແປນັ້ນຂື້ນຢູ່ໃນປະເພດຂອງກ້ຽວວຽນ, ມີຄວາມເພິ່ງພາທີ່ເຂັ້ມແຂງຫຼາຍລະຫວ່າງສອງຕົວແປ, ແມ່ນບໍ? ແຕ່ໃນຄວາມເປັນຈິງ, ຖ້າທ່ານຄິດໄລ່ຄວາມກ່ຽວຂ້ອງກັນລະຫວ່າງສອງຕົວແປ, ພວກມັນບໍ່ກ່ຽວຂ້ອງກັນ. ດັ່ງນັ້ນ, ນີ້ແມ່ນຕົວຢ່າງທີ່ເນື້ອໃນຂໍ້ມູນຂອງຕົວແປທັງສອງນີ້ແມ່ນມີຂະຫນາດນ້ອຍຫຼາຍ, ມັນເປັນພຽງແຕ່ປະລິມານຫນຶ່ງເພາະວ່າມັນເປັນຕໍາແຫນ່ງຂອງທ່ານຢູ່ໃນກ້ຽວວຽນ. ພວກມັນບໍ່ມີຄວາມກ່ຽວຂ້ອງກັນ, ດັ່ງນັ້ນທ່ານຄິດວ່າທ່ານມີຂໍ້ມູນຫຼາຍຢ່າງທີ່ອອກມາຈາກຕົວແປສອງຕົວແປນັ້ນ, ໃນຕົວຈິງແລ້ວທ່ານບໍ່ມີ, ທ່ານພຽງແຕ່ມີ, ທ່ານຮູ້, ທ່ານສາມາດຄາດຄະເນຫນຶ່ງໃນຕົວແປຈາກຕົວແປອື່ນ, ທີ່ສໍາຄັນ. ດັ່ງນັ້ນ, ມັນສະແດງໃຫ້ເຫັນວ່າພວກເຮົາມີພຽງແຕ່ວິທີການປະມານການວັດແທກເນື້ອຫາຂໍ້ມູນເທົ່ານັ້ນ.

ZDNet: ແລະນັ້ນແມ່ນສິ່ງໜຶ່ງທີ່ເຈົ້າຕ້ອງເຮັດວຽກໃນຕອນນີ້? ນີ້ແມ່ນຄໍາຖາມທີ່ໃຫຍ່ກວ່າວ່າພວກເຮົາຈະຮູ້ໄດ້ແນວໃດເມື່ອພວກເຮົາຂະຫຍາຍເນື້ອຫາຂໍ້ມູນໃຫ້ສູງສຸດ?

YL:  ຫຼືວ່າພຣັອກຊີທີ່ພວກເຮົາກໍາລັງໃຊ້ສໍາລັບການນີ້ດີພຽງພໍສໍາລັບວຽກງານທີ່ພວກເຮົາຕ້ອງການ. ໃນຄວາມເປັນຈິງ, ພວກເຮົາເຮັດສິ່ງນີ້ຕະຫຼອດເວລາໃນການຮຽນຮູ້ເຄື່ອງຈັກ. ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍທີ່ພວກເຮົາຫຼຸດລົງແມ່ນບໍ່ເຄີຍເປັນຕົວທີ່ພວກເຮົາຕ້ອງການຫຼຸດຫນ້ອຍທີ່ສຸດ. ດັ່ງນັ້ນ, ສໍາລັບການຍົກຕົວຢ່າງ, ທ່ານຕ້ອງການທີ່ຈະເຮັດການຈັດປະເພດ, okay? ຟັງຊັນຄ່າໃຊ້ຈ່າຍທີ່ທ່ານຕ້ອງການທີ່ຈະຫຼຸດຫນ້ອຍລົງໃນເວລາທີ່ທ່ານຝຶກອົບຮົມການຈັດປະເພດແມ່ນຈໍານວນຄວາມຜິດພາດທີ່ຕົວຈັດປະເພດກໍາລັງເຮັດ. ແຕ່ນັ້ນແມ່ນຫນ້າທີ່ບໍ່ແຕກຕ່າງກັນ, ຄ່າໃຊ້ຈ່າຍທີ່ຫນ້າຢ້ານທີ່ທ່ານບໍ່ສາມາດຫຼຸດຜ່ອນໄດ້ເພາະວ່າເຈົ້າຮູ້ວ່າເຈົ້າຈະປ່ຽນນ້ໍາຫນັກຂອງເສັ້ນປະສາດຂອງເຈົ້າ, ບໍ່ມີຫຍັງຈະປ່ຽນແປງຈົນກ່ວາຫນຶ່ງໃນຕົວຢ່າງເຫຼົ່ານັ້ນໄດ້ປ່ຽນການຕັດສິນໃຈ, ແລະຫຼັງຈາກນັ້ນກະໂດດ. ໃນຄວາມຜິດພາດ, ໃນທາງບວກຫຼືທາງລົບ.

ZDNet: ດັ່ງນັ້ນທ່ານມີຕົວແທນທີ່ເປັນຫນ້າທີ່ຈຸດປະສົງທີ່ທ່ານສາມາດເວົ້າໄດ້ແນ່ນອນ, ພວກເຮົາສາມາດໄຫຼ gradients ຂອງສິ່ງນີ້ໄດ້.

YL: ຖືກ​ຕ້ອງ. ດັ່ງນັ້ນປະຊາຊົນໃຊ້ການສູນເສຍຂ້າມ entropy ນີ້, ຫຼື SOFTMAX, ທ່ານມີຊື່ຫຼາຍສໍາລັບມັນ, ແຕ່ວ່າມັນເປັນສິ່ງດຽວກັນ. ແລະໂດຍພື້ນຖານແລ້ວມັນເປັນການປະມານກ້ຽງຂອງຈໍານວນຂອງຄວາມຜິດພາດທີ່ລະບົບເຮັດໃຫ້, ບ່ອນທີ່ກ້ຽງແມ່ນເຮັດໄດ້ໂດຍພື້ນຖານ, ຄໍານຶງເຖິງຄະແນນທີ່ລະບົບໃຫ້ແຕ່ລະປະເພດ.

ZDNet: ມີອັນໃດທີ່ພວກເຮົາບໍ່ໄດ້ກວມເອົາທີ່ເຈົ້າຕ້ອງການໃຫ້ກວມເອົາ?

YL: ມັນອາດຈະເປັນການເນັ້ນຫນັກໃສ່ຈຸດຕົ້ນຕໍ. ຂ້າພະເຈົ້າຄິດວ່າລະບົບ AI ຈໍາເປັນຕ້ອງສາມາດໃຫ້ເຫດຜົນ, ແລະຂະບວນການສໍາລັບການນີ້ທີ່ຂ້າພະເຈົ້າສະຫນັບສະຫນູນແມ່ນຫຼຸດຜ່ອນຈຸດປະສົງບາງຢ່າງກ່ຽວກັບຕົວແປບາງອັນ. ທີ່ອະນຸຍາດໃຫ້ລະບົບການວາງແຜນແລະເຫດຜົນ. ຂ້າພະເຈົ້າຄິດວ່າພວກເຮົາຄວນຈະປະຖິ້ມໂຄງຮ່າງການທີ່ເປັນໄປໄດ້ເພາະວ່າມັນເປັນເລື່ອງທີ່ຫຍຸ້ງຍາກໃນເວລາທີ່ພວກເຮົາຕ້ອງການເຮັດສິ່ງຕ່າງໆເຊັ່ນການຈັບພາບທີ່ເພິ່ງພາອາໄສລະຫວ່າງຕົວແປທີ່ມີມິຕິລະດັບສູງ, ຢ່າງຕໍ່ເນື່ອງ. ແລະຂ້ອຍກໍາລັງຊຸກຍູ້ໃຫ້ປະຖິ້ມແບບຈໍາລອງການຜະລິດເພາະວ່າລະບົບຈະຕ້ອງອຸທິດຊັບພະຍາກອນຫຼາຍເກີນໄປໃນການຄາດຄະເນສິ່ງທີ່ຍາກທີ່ຈະຄາດຄະເນແລະອາດຈະບໍລິໂພກຊັບພະຍາກອນຫຼາຍເກີນໄປ. ແລະນັ້ນແມ່ນຂ້ອນຂ້າງຫຼາຍ. ນັ້ນແມ່ນຂໍ້ຄວາມຕົ້ນຕໍ, ຖ້າທ່ານຕ້ອງການ. ແລະຫຼັງຈາກນັ້ນສະຖາປັດຕະຍະກໍາໂດຍລວມ. ຫຼັງຈາກນັ້ນ, ມີການຄາດເດົາເຫຼົ່ານັ້ນກ່ຽວກັບລັກສະນະຂອງສະຕິແລະພາລະບົດບາດຂອງ configurator, ແຕ່ນີ້ແມ່ນການຄາດເດົາຢ່າງແທ້ຈິງ.

ZDNet: ພວກເຮົາຈະໄປເຖິງຄັ້ງຕໍ່ໄປ. ຂ້າ​ພະ​ເຈົ້າ​ຈະ​ຖາມ​ທ່ານ​ວ່າ​, ທ່ານ​ຈະ​ມາດ​ຕະ​ຖານ​ສິ່ງ​ນີ້​ແນວ​ໃດ​? ແຕ່ຂ້ອຍເດົາວ່າເຈົ້າຢູ່ໄກຈາກການຈັດດັດຊະນີດຽວນີ້ບໍ?

YL: ບໍ່​ຈໍາ​ເປັນ​ວ່າ​ໄກ​ໃນ, ຈັດ​ລຽງ​ລໍາ​ດັບ​ຂອງ, ສະ​ບັບ​ງ່າຍ​ດາຍ. ທ່ານສາມາດເຮັດສິ່ງທີ່ທຸກຄົນເຮັດໃນການຄວບຄຸມຫຼືການຮຽນຮູ້ເສີມ, ເຊິ່ງແມ່ນ, ທ່ານໄດ້ຝຶກອົບຮົມການຫຼິ້ນເກມ Atari ຫຼືບາງສິ່ງບາງຢ່າງເຊັ່ນນັ້ນຫຼືບາງເກມອື່ນໆທີ່ມີຄວາມບໍ່ແນ່ນອນໃນມັນ.

ZDNet: ຂໍຂອບໃຈສໍາລັບການໃຊ້ເວລາຂອງທ່ານ, Yann.

ແຫຼ່ງຂໍ້ມູນ