Meta's 'data2vec' হল ওয়ান নিউরাল নেটওয়ার্কের জন্য পরবর্তী পদক্ষেপ যা তাদের সকলকে শাসন করতে

একটি নিউরাল নেটওয়ার্ক তৈরি করার দৌড় চলছে যা একাধিক ধরণের ডেটা প্রক্রিয়া করতে পারে, একটি আরও সাধারণ কৃত্রিম বুদ্ধিমত্তার ধারণা যা ডেটার প্রকারের বিষয়ে বৈষম্য করে না বরং একই মৌলিক কাঠামোর মধ্যে সেগুলিকে সঙ্কুচিত করতে পারে।

মাল্টি-মোডালিটির ধরণ, যেমন এই নিউরাল নেটওয়ার্কগুলিকে বলা হয়, ক্রিয়াকলাপের একটি ঝাঁকুনি দেখছে যেখানে বিভিন্ন ডেটা, যেমন চিত্র, পাঠ্য এবং স্পিচ অডিও, একই অ্যালগরিদমের মাধ্যমে পাস করা হয় বিভিন্ন পরীক্ষায় স্কোর তৈরি করতে ছবি স্বীকৃতি, প্রাকৃতিক ভাষা বোঝা বা বক্তৃতা সনাক্তকরণ।

এবং এই দুশ্চিন্তাগ্রস্ত নেটওয়ার্কগুলি AI এর বেঞ্চমার্ক পরীক্ষায় স্কোর বাড়াচ্ছে। ফেসবুক, ইনস্টাগ্রাম এবং হোয়াটসঅ্যাপের মূল মেটা-এর AI বিভাগের গবেষকরা তৈরি করেছেন 'data2vec' নামের সর্বশেষ কৃতিত্ব। 

মেটার বিজ্ঞানী আলেক্সি বেয়েভস্কি, ওয়েই-নিং হু, কিয়ানটং জু, অরুণ বাবু, জিয়াতাও গু এবং মাইকেল আউলির লেখার বিষয় হল, সাধারণ শেখার ক্ষমতার মতো আরও কিছুর কাছে যাওয়া যা মানুষের মনকে অন্তর্ভুক্ত বলে মনে হয়।

"যদিও লোকেরা কীভাবে তথ্য পায় তা নির্বিশেষে একইভাবে শিখতে দেখা যায় - উদাহরণস্বরূপ তারা দৃষ্টি বা শব্দ ব্যবহার করে কিনা," লেখক লিখেছেন একটি ব্লগ পোস্টে, "বর্তমানে উপায়ে বড় পার্থক্য রয়েছে" নিউরাল নেটওয়ার্কগুলি বিভিন্ন ধরণের ডেটা যেমন চিত্র, বক্তৃতা, পাঠ্য, "এবং অন্যান্য পদ্ধতিগুলি পরিচালনা করে।"

"এই পদ্ধতির মূল ধারণা," তারা data2vec-এর ঘোষণা করে, "আরও সাধারণভাবে শিখতে হবে: AI সম্পূর্ণরূপে অপরিচিত সহ অনেকগুলি বিভিন্ন কাজ করতে শিখতে সক্ষম হওয়া উচিত।"

মেটার সিইও, মার্ক জুকারবার্গ, কাজের সম্পর্কে একটি উদ্ধৃতি অফার করেছেন, এটিকে ভবিষ্যতের মেটাভার্সের সাথে সংযুক্ত করেছেন:

উত্তেজনাপূর্ণ অগ্রগতি: মেটা এআই গবেষণা এমন একটি সিস্টেম তৈরি করেছে যা লেবেলযুক্ত প্রশিক্ষণ ডেটার প্রয়োজন ছাড়াই বক্তৃতা, দৃষ্টি এবং পাঠ্য থেকে শেখে। লোকেরা দৃষ্টি, শব্দ এবং শব্দের সংমিশ্রণের মাধ্যমে বিশ্বকে অনুভব করে এবং এর মতো সিস্টেমগুলি একদিন আমরা যেভাবে করি সেইভাবে বিশ্বকে বুঝতে পারে। এই সব শেষ পর্যন্ত একটি AI সহকারীর সাথে AR চশমা তৈরি করা হবে, উদাহরণস্বরূপ, এটি আপনাকে রাতের খাবার রান্না করতে সাহায্য করতে পারে, আপনি যদি কোনও উপাদান মিস করেন কিনা তা লক্ষ্য করে, আপনাকে তাপ কমানোর জন্য বা আরও জটিল কাজগুলি করতে সাহায্য করতে পারে।

Data2vec নামটি হল ভাষা "এম্বেডিং" এর জন্য একটি প্রোগ্রামের নামের একটি নাটক 2013 সালে Google এ বিকশিত হয়েছে "word2vec" বলা হয়। সেই প্রোগ্রামটি ভবিষ্যদ্বাণী করেছিল যে কীভাবে শব্দগুলি একত্রিত হয়, এবং তাই word2vec এটি একটি নির্দিষ্ট ধরণের ডেটার জন্য ডিজাইন করা একটি নিউরাল নেটওয়ার্কের প্রতিনিধি, সেই ক্ষেত্রে পাঠ্য। 

এছাড়াও: পড বে দরজা খুলুন, দয়া করে, HAL: Meta's AI ঠোঁট পড়ার অনুকরণ করে

যদিও data2vec-এর ক্ষেত্রে, Baevski এবং সহকর্মীরা আশিস ভাসওয়ানি এবং সহকর্মীদের দ্বারা বিকশিত একটি ট্রান্সফরমার নামে পরিচিত একটি আদর্শ সংস্করণ নিচ্ছেন 2017 সালে Google এ এবং একাধিক ডেটা প্রকারের জন্য ব্যবহার করার জন্য এটি প্রসারিত করা। 

ট্রান্সফরমার নিউরাল নেটওয়ার্কটি মূলত ভাষার কাজের জন্য তৈরি করা হয়েছিল, কিন্তু এটি বহু বছর ধরে বিভিন্ন ধরণের ডেটার জন্য ব্যাপকভাবে অভিযোজিত হয়েছে। বায়েভস্কি এট আল। দেখান যে ট্রান্সফরমারটি পরিবর্তন না করেই একাধিক ধরণের ডেটা প্রক্রিয়া করতে ব্যবহার করা যেতে পারে এবং প্রশিক্ষিত নিউরাল নেটওয়ার্ক যা একাধিক ভিন্ন কাজ সম্পাদন করতে পারে। 

আনুষ্ঠানিক কাগজে, "data2vec: বক্তৃতা, দৃষ্টি এবং ভাষাতে স্ব-তত্ত্বাবধানে শিক্ষার জন্য একটি সাধারণ কাঠামো,” Baevski et al., ইমেজ ডেটা, স্পিচ অডিও ওয়েভফর্ম এবং টেক্সট ভাষা উপস্থাপনার জন্য ট্রান্সফরমারকে প্রশিক্ষণ দিন। 

Data2vec হল "প্রথম উচ্চ-কার্যক্ষমতা সম্পন্ন স্ব-তত্ত্বাবধান করা অ্যালগরিদম যা একাধিক পদ্ধতির জন্য কাজ করে, যেমন বক্তৃতা, দৃষ্টিভঙ্গি এবং পাঠ্য," ব্লগ পোস্টে Baevski এবং দল লিখুন।

খুব সাধারণ ট্রান্সফরমার হয়ে যায় যাকে প্রাক-প্রশিক্ষণ বলা হয় যা নির্দিষ্ট কাজ সম্পাদন করার জন্য নির্দিষ্ট নিউরাল নেটওয়ার্কগুলিতে প্রয়োগ করা যেতে পারে। উদাহরণস্বরূপ, লেখকরা "ViT", "ভিশন ট্রান্সফরমার", একটি নিউরাল নেটওয়ার্ক যা বিশেষভাবে দৃষ্টি কাজের জন্য ডিজাইন করা হয়েছে তাকে সজ্জিত করার জন্য প্রাক-প্রশিক্ষণ হিসাবে ডেটা2vec ব্যবহার করেন। গত বছর চালু করা হয়েছিল অ্যালেক্সি ডসোভিটস্কি এবং গুগলের সহকর্মীদের দ্বারা। 

meta-2022-data2vec-scores-on-vit-test.jpg

মেটা সম্মানিত ইমেজনেট ইমেজ-স্বীকৃতি প্রতিযোগিতার জন্য শীর্ষ স্কোর দেখায়।


মেটা 2022

যখন ViT-তে ইমেজ রিকগনিশনের স্ট্যান্ডার্ড ইমেজনেট পরীক্ষা সমাধান করার চেষ্টা করা হয়, তখন তাদের ফলাফলগুলি প্যাকের শীর্ষে আসে, 84.1% নির্ভুলতা সহ, Microsoft-এর একটি দল যেটি প্রাক-প্রশিক্ষিত ছিল তার 83.2% স্কোরের চেয়ে ভাল। ভিআইটি, হ্যাংবো বাওর নেতৃত্বে, গত বছর.

এবং একই data2vec ট্রান্সফরমার ফলাফলগুলি আউটপুট করে যা বক্তৃতা শনাক্তকরণের জন্য অত্যাধুনিক এবং প্রাকৃতিক ভাষা শিক্ষার জন্য সেরা না হলে প্রতিযোগিতামূলক:

পরীক্ষামূলক ফলাফলগুলি দেখায় যে data2vec তিনটি পদ্ধতিতেই কার্যকর হতে পারে, ImageNet-1K-তে ViT-B এবং ViT-L-এর জন্য একটি নতুন স্থিতি স্থাপন করে, বক্তৃতা শনাক্তকরণের উপর স্পিচ প্রসেসিং-এর সর্বোত্তম পূর্ববর্তী কাজের থেকে উন্নতি করে এবং RoBERTA-এর সমান পারফর্ম করে। GLUE প্রাকৃতিক ভাষা বোঝার বেঞ্চমার্কে। 

মূল বিষয়টি হল যে এটি চিত্র সম্পর্কে নিউরাল নেটওয়ার্কের কোনো পরিবর্তন ছাড়াই ঘটছে এবং বক্তৃতা এবং পাঠ্যের ক্ষেত্রেও একই। পরিবর্তে, প্রতিটি ইনপুট টাইপ একই নেটওয়ার্কে যাচ্ছে, এবং একই খুব সাধারণ কাজ সম্পন্ন করছে। এই কাজটি একই কাজ যা ট্রান্সফরমার নেটওয়ার্কগুলি সর্বদা ব্যবহার করে, যা "মাস্কড পূর্বাভাস" নামে পরিচিত। 

এছাড়াও: গুগলের সুপারমডেল: ডিপমাইন্ড পারসিভার একটি এআই মেশিনের পথে একটি ধাপ যা যেকোনো কিছু এবং সবকিছু প্রক্রিয়া করতে পারে

যেভাবে data2vec মুখোশযুক্ত ভবিষ্যদ্বাণী সম্পাদন করে, তবে, একটি পদ্ধতি হল "স্ব-তত্ত্বাবধানে" শিক্ষা হিসাবে পরিচিত। একটি স্ব-তত্ত্বাবধানে সেটিংয়ে, একটি নিউরাল নেটওয়ার্ককে প্রশিক্ষিত করা হয়, বা বিকশিত করা হয়, একাধিক ধাপ অতিক্রম করে। 

প্রথমত, নেটওয়ার্ক ডেটা ইনপুটের যৌথ সম্ভাব্যতার একটি উপস্থাপনা তৈরি করে, তা ছবি বা বক্তৃতা বা পাঠ্যই হোক। তারপরে, নেটওয়ার্কের একটি দ্বিতীয় সংস্করণে সেই ইনপুট ডেটা আইটেমগুলির কিছু "মাস্ক আউট", অপ্রকাশিত রেখে দেওয়া হয়েছে। নেটওয়ার্কের প্রথম সংস্করণটি যে যৌথ সম্ভাব্যতা তৈরি করেছিল সেটিকে এটিকে পুনর্গঠন করতে হবে, যা এটিকে মূলত শূন্যস্থান পূরণ করে ডেটার আরও ভাল এবং ভাল উপস্থাপনা তৈরি করতে বাধ্য করে। 

meta-2022-data2vec-network-architecture.jpg

data2vec পদ্ধতির একটি ওভারভিউ।


মেটা 2022

দুটি নেটওয়ার্ক, একটি যৌথ সম্ভাব্যতার সম্পূর্ণ প্যাটার্ন সহ, এবং একটি অসম্পূর্ণ সংস্করণ যা এটি সম্পূর্ণ করার চেষ্টা করছে, বলা হয়, যথেষ্ট সংবেদনশীলভাবে, "শিক্ষক" এবং "ছাত্র।" শিক্ষক ইতিমধ্যে যা অর্জন করেছেন তা পুনর্গঠনের মাধ্যমে ছাত্র নেটওয়ার্ক তার ডেটার অনুভূতি বিকাশ করার চেষ্টা করে, যদি আপনি চান।

আপনি Github এ মডেলের কোড দেখুন.

কিভাবে নিউরাল নেটওয়ার্ক তিনটি ভিন্ন ধরনের ডেটার জন্য শিক্ষক এবং ছাত্রদের পারফর্ম করছে? মূল বিষয় হল তিনটি ডেটা ক্ষেত্রে যৌথ সম্ভাব্যতার "লক্ষ্য" একটি নির্দিষ্ট আউটপুট ডেটা টাইপ নয়, যেমনটি Google-এর BERT বা OpenAI-এর GPT-3-এর মতো নির্দিষ্ট ডেটা টাইপের জন্য ট্রান্সফরমারের সংস্করণগুলির ক্ষেত্রে। . 

বরং, data2vec কিছু নিউরাল নেটওয়ার্ক স্তর দখল করছে ভিতরে নিউরাল নেটওয়ার্ক, মাঝখানে কোথাও, যা প্রতিটি চূড়ান্ত আউটপুট হিসাবে উত্পাদিত হওয়ার আগে ডেটা উপস্থাপন করে। 

লেখক যেমন লিখেছেন, "আমাদের পদ্ধতির প্রধান পার্থক্যগুলির মধ্যে একটি [...] মুখোশযুক্ত ভবিষ্যদ্বাণী সম্পাদন করা ছাড়াও, লক্ষ্যগুলির ব্যবহার যা শিক্ষক নেটওয়ার্ক থেকে একাধিক স্তরের গড় উপর ভিত্তি করে।" বিশেষভাবে, "আমরা শুধুমাত্র উপরের স্তরের পরিবর্তে একাধিক নিউরাল নেটওয়ার্ক স্তর উপস্থাপনাগুলিকে রিগ্রেস করি," যাতে "data2vec ইনপুট ডেটার সুপ্ত উপস্থাপনাগুলির পূর্বাভাস দেয়।"

তারা যোগ করে, "আমরা সাধারণত লক্ষ্য হিসাবে প্রতিটি ব্লকে শেষ অবশিষ্ট সংযোগের আগে FFN [ফিড-ফরোয়ার্ড নেটওয়ার্ক] এর আউটপুট ব্যবহার করি," যেখানে একটি "ব্লক" হল একটি নিউরাল নেটওয়ার্ক স্তরের ট্রান্সফরমার সমতুল্য।

মোদ্দা কথা হল যে প্রতিটি ডেটা টাইপ যা প্রবেশ করে তা শিক্ষকের তৈরি করা নিউরাল নেটওয়ার্কের ভিতরে কিছু পুনর্গঠনের ছাত্র নেটওয়ার্কের জন্য একই চ্যালেঞ্জ হয়ে দাঁড়ায়।

সমস্ত ডেটা ক্রাঞ্চ করার জন্য এক নেটওয়ার্ক তৈরির অন্যান্য সাম্প্রতিক পদ্ধতির থেকে এই গড় আলাদা। উদাহরণস্বরূপ, গত গ্রীষ্মে, গুগলের ডিপমাইন্ড ইউনিট এটিকে "পার্সিভার", ট্রান্সফরমারের নিজস্ব মাল্টি-মডেল সংস্করণ বলে অফার করেছে। পারসিভার নিউরাল নেটওয়ার্কের প্রশিক্ষণ হল একটি আউটপুট তৈরি করার আরও-মানক প্রক্রিয়া যা একটি লেবেলযুক্ত, তত্ত্বাবধান করা কাজ যেমন ইমেজনেটের উত্তর। স্ব-তত্ত্বাবধানে পদ্ধতিতে, data2vec সেই লেবেলগুলি ব্যবহার করছে না, এটি কেবল নেটওয়ার্কের ডেটার অভ্যন্তরীণ উপস্থাপনা পুনর্গঠনের চেষ্টা করছে। 

এমনকি আরও উচ্চাভিলাষী প্রচেষ্টা ডানা মধ্যে মিথ্যা. জেফ ডিন, গুগলের এআই প্রচেষ্টার প্রধান, অক্টোবরে "পাথওয়েস" সম্পর্কে টিজ করেছিলেন, যা ডিন দাবি করেছেন একটি "পরবর্তী প্রজন্মের এআই আর্কিটেকচারমাল্টি-মডেল ডেটা প্রসেসিংয়ের জন্য।

মনে রাখবেন, একাধিক পদ্ধতির জন্য একটি একক নিউরাল নেট সম্পর্কে data2vec-এর খুব সাধারণ পদ্ধতিতে এখনও বিভিন্ন ডেটা প্রকার সম্পর্কে অনেক তথ্য রয়েছে। ইমেজ, স্পিচ এবং টেক্সট সবই ডেটার প্রাক-প্রসেসিং দ্বারা প্রস্তুত করা হয়। এইভাবে, নেটওয়ার্কের মাল্টি-মোডাল দিকটি এখনও ডেটা সম্পর্কে সূত্রের উপর নির্ভর করে, যা দলটি "ছোট মোডালিটি-নির্দিষ্ট ইনপুট এনকোডার" হিসাবে উল্লেখ করে।

এছাড়াও: Google 'পাথওয়েস' উন্মোচন করেছে, একটি পরবর্তী প্রজন্মের AI যা মাল্টিটাস্কের জন্য প্রশিক্ষিত হতে পারে

"একীভূত শিক্ষা ব্যবস্থা থাকা সত্ত্বেও, আমরা এখনও পদ্ধতি-নির্দিষ্ট বৈশিষ্ট্য নিষ্কাশনকারী এবং মাস্কিং কৌশলগুলি ব্যবহার করি," তারা ব্যাখ্যা করে৷

সুতরাং, আমরা এখনও এমন একটি বিশ্বে নেই যেখানে একটি নিউরাল নেটকে ইনপুট ডেটা প্রকারের কোন জ্ঞান ছাড়াই প্রশিক্ষিত করা হয়। আমরা এমন সময়েও নেই যখন নিউরাল নেটওয়ার্ক এমন একটি উপস্থাপনা তৈরি করতে পারে যা সমস্ত বিভিন্ন ডেটা টাইপকে একত্রিত করে, যাতে নিউরাল নেট সম্মিলিতভাবে জিনিসগুলি শিখতে পারে।

মধ্যে একটি বিনিময় থেকে এই সত্য স্পষ্ট হয় জেডডিনেট এবং লেখক। জেডডিনেট বায়েভস্কি এবং দলের কাছে পৌঁছেছেন এবং জিজ্ঞাসা করেছেন, "প্রচ্ছন্ন উপস্থাপনাগুলি যা লক্ষ্য হিসাবে কাজ করে যে কোনও নির্দিষ্ট সময়ের ধাপে তিনটি পদ্ধতির সম্মিলিত এনকোডিং, নাকি সেগুলি সাধারণত শুধুমাত্র একটি পদ্ধতি?"

Baevski এবং দল প্রতিক্রিয়া যে এটি পরবর্তী ক্ষেত্রে, এবং তাদের reply দৈর্ঘ্যে উদ্ধৃত করা আকর্ষণীয়:

সুপ্ত ভেরিয়েবল তিনটি পদ্ধতির জন্য একটি সম্মিলিত এনকোডিং নয়। আমরা প্রতিটি পদ্ধতির জন্য পৃথক মডেল প্রশিক্ষণ দিই কিন্তু মডেলগুলি যে প্রক্রিয়ার মাধ্যমে শিখে তা অভিন্ন। এটি আমাদের প্রকল্পের প্রধান উদ্ভাবন কারণ এর আগে মডেলগুলিকে কীভাবে বিভিন্ন পদ্ধতিতে প্রশিক্ষণ দেওয়া হয় তাতে বড় পার্থক্য ছিল। স্নায়ুবিজ্ঞানীরাও বিশ্বাস করেন যে মানুষ শব্দ এবং ভিজ্যুয়াল জগত সম্পর্কে একইভাবে শিখে। আমাদের প্রকল্প দেখায় যে স্ব-তত্ত্বাবধানে শিক্ষাও বিভিন্ন পদ্ধতির জন্য একইভাবে কাজ করতে পারে।

প্রদত্ত data2vec-এর পদ্ধতি-নির্দিষ্ট সীমাবদ্ধতা, একটি নিউরাল নেটওয়ার্ক যা সত্যিই হতে পারে ওয়ান নেটওয়ার্ক টু রুল দ্য অল ভবিষ্যতের প্রযুক্তি অবশেষ।

উৎস