Meta's 'data2vec' হল ওয়ান নিউরাল নেটওয়ার্কের জন্য পরবর্তী পদক্ষেপ যা তাদের সকলকে শাসন করতে

একটি নিউরাল নেটওয়ার্ক তৈরি করার দৌড় চলছে যা একাধিক ধরণের ডেটা প্রক্রিয়া করতে পারে, একটি আরও সাধারণ কৃত্রিম বুদ্ধিমত্তার ধারণা যা ডেটার প্রকারের বিষয়ে বৈষম্য করে না বরং একই মৌলিক কাঠামোর মধ্যে সেগুলিকে সঙ্কুচিত করতে পারে।

মাল্টি-মোডালিটির ধরণ, যেমন এই নিউরাল নেটওয়ার্কগুলিকে বলা হয়, ক্রিয়াকলাপের একটি ঝাঁকুনি দেখছে যেখানে বিভিন্ন ডেটা, যেমন চিত্র, পাঠ্য এবং স্পিচ অডিও, একই অ্যালগরিদমের মাধ্যমে পাস করা হয় বিভিন্ন পরীক্ষায় স্কোর তৈরি করতে ছবি স্বীকৃতি, প্রাকৃতিক ভাষা বোঝা বা বক্তৃতা সনাক্তকরণ।

এবং এই দুশ্চিন্তাগ্রস্ত নেটওয়ার্কগুলি AI এর বেঞ্চমার্ক পরীক্ষায় স্কোর বাড়াচ্ছে। ফেসবুক, ইনস্টাগ্রাম এবং হোয়াটসঅ্যাপের মূল মেটা-এর AI বিভাগের গবেষকরা তৈরি করেছেন 'data2vec' নামের সর্বশেষ কৃতিত্ব।

মেটার বিজ্ঞানী আলেক্সি বেয়েভস্কি, ওয়েই-নিং হু, কিয়ানটং জু, অরুণ বাবু, জিয়াতাও গু এবং মাইকেল আউলির লেখার বিষয় হল, সাধারণ শেখার ক্ষমতার মতো আরও কিছুর কাছে যাওয়া যা মানুষের মনকে অন্তর্ভুক্ত বলে মনে হয়।

"যদিও লোকেরা কীভাবে তথ্য পায় তা নির্বিশেষে একইভাবে শিখতে দেখা যায় - উদাহরণস্বরূপ তারা দৃষ্টি বা শব্দ ব্যবহার করে কিনা," লেখক লিখেছেন একটি ব্লগ পোস্টে, "বর্তমানে উপায়ে বড় পার্থক্য রয়েছে" নিউরাল নেটওয়ার্কগুলি বিভিন্ন ধরণের ডেটা যেমন চিত্র, বক্তৃতা, পাঠ্য, "এবং অন্যান্য পদ্ধতিগুলি পরিচালনা করে।"

"এই পদ্ধতির মূল ধারণা," তারা data2vec-এর ঘোষণা করে, "আরও সাধারণভাবে শিখতে হবে: AI সম্পূর্ণরূপে অপরিচিত সহ অনেকগুলি বিভিন্ন কাজ করতে শিখতে সক্ষম হওয়া উচিত।"

মেটার সিইও, মার্ক জুকারবার্গ, কাজের সম্পর্কে একটি উদ্ধৃতি অফার করেছেন, এটিকে ভবিষ্যতের মেটাভার্সের সাথে সংযুক্ত করেছেন:

উত্তেজনাপূর্ণ অগ্রগতি: মেটা এআই গবেষণা এমন একটি সিস্টেম তৈরি করেছে যা লেবেলযুক্ত প্রশিক্ষণ ডেটার প্রয়োজন ছাড়াই বক্তৃতা, দৃষ্টি এবং পাঠ্য থেকে শেখে। লোকেরা দৃষ্টি, শব্দ এবং শব্দের সংমিশ্রণের মাধ্যমে বিশ্বকে অনুভব করে এবং এর মতো সিস্টেমগুলি একদিন আমরা যেভাবে করি সেইভাবে বিশ্বকে বুঝতে পারে। এই সব শেষ পর্যন্ত একটি AI সহকারীর সাথে AR চশমা তৈরি করা হবে, উদাহরণস্বরূপ, এটি আপনাকে রাতের খাবার রান্না করতে সাহায্য করতে পারে, আপনি যদি কোনও উপাদান মিস করেন কিনা তা লক্ষ্য করে, আপনাকে তাপ কমানোর জন্য বা আরও জটিল কাজগুলি করতে সাহায্য করতে পারে।

Data2vec নামটি হল ভাষা "এম্বেডিং" এর জন্য একটি প্রোগ্রামের নামের একটি নাটক 2013 সালে Google এ বিকশিত হয়েছে "word2vec" বলা হয়। সেই প্রোগ্রামটি ভবিষ্যদ্বাণী করেছিল যে কীভাবে শব্দগুলি একত্রিত হয়, এবং তাই word2vec এটি একটি নির্দিষ্ট ধরণের ডেটার জন্য ডিজাইন করা একটি নিউরাল নেটওয়ার্কের প্রতিনিধি, সেই ক্ষেত্রে পাঠ্য।

এছাড়াও: পড বে দরজা খুলুন, দয়া করে, HAL: Meta's AI ঠোঁট পড়ার অনুকরণ করে

যদিও data2vec-এর ক্ষেত্রে, Baevski এবং সহকর্মীরা আশিস ভাসওয়ানি এবং সহকর্মীদের দ্বারা বিকশিত একটি ট্রান্সফরমার নামে পরিচিত একটি আদর্শ সংস্করণ নিচ্ছেন 2017 সালে Google এ এবং একাধিক ডেটা প্রকারের জন্য ব্যবহার করার জন্য এটি প্রসারিত করা।

ট্রান্সফরমার নিউরাল নেটওয়ার্কটি মূলত ভাষার কাজের জন্য তৈরি করা হয়েছিল, কিন্তু এটি বহু বছর ধরে বিভিন্ন ধরণের ডেটার জন্য ব্যাপকভাবে অভিযোজিত হয়েছে। বায়েভস্কি এট আল। দেখান যে ট্রান্সফরমারটি পরিবর্তন না করেই একাধিক ধরণের ডেটা প্রক্রিয়া করতে ব্যবহার করা যেতে পারে এবং প্রশিক্ষিত নিউরাল নেটওয়ার্ক যা একাধিক ভিন্ন কাজ সম্পাদন করতে পারে।

আনুষ্ঠানিক কাগজে, "data2vec: বক্তৃতা, দৃষ্টি এবং ভাষাতে স্ব-তত্ত্বাবধানে শিক্ষার জন্য একটি সাধারণ কাঠামো,” Baevski et al., ইমেজ ডেটা, স্পিচ অডিও ওয়েভফর্ম এবং টেক্সট ভাষা উপস্থাপনার জন্য ট্রান্সফরমারকে প্রশিক্ষণ দিন।

Data2vec হল "প্রথম উচ্চ-কার্যক্ষমতা সম্পন্ন স্ব-তত্ত্বাবধান করা অ্যালগরিদম যা একাধিক পদ্ধতির জন্য কাজ করে, যেমন বক্তৃতা, দৃষ্টিভঙ্গি এবং পাঠ্য," ব্লগ পোস্টে Baevski এবং দল লিখুন।

খুব সাধারণ ট্রান্সফরমার হয়ে যায় যাকে প্রাক-প্রশিক্ষণ বলা হয় যা নির্দিষ্ট কাজ সম্পাদন করার জন্য নির্দিষ্ট নিউরাল নেটওয়ার্কগুলিতে প্রয়োগ করা যেতে পারে। উদাহরণস্বরূপ, লেখকরা "ViT", "ভিশন ট্রান্সফরমার", একটি নিউরাল নেটওয়ার্ক যা বিশেষভাবে দৃষ্টি কাজের জন্য ডিজাইন করা হয়েছে তাকে সজ্জিত করার জন্য প্রাক-প্রশিক্ষণ হিসাবে ডেটা2vec ব্যবহার করেন। গত বছর চালু করা হয়েছিল অ্যালেক্সি ডসোভিটস্কি এবং গুগলের সহকর্মীদের দ্বারা।

এখন জনপ্রিয়
Wyze সুইচ পর্যালোচনা | পিসিম্যাগ

মেটা সম্মানিত ইমেজনেট ইমেজ-স্বীকৃতি প্রতিযোগিতার জন্য শীর্ষ স্কোর দেখায়।

মেটা 2022

যখন ViT-তে ইমেজ রিকগনিশনের স্ট্যান্ডার্ড ইমেজনেট পরীক্ষা সমাধান করার চেষ্টা করা হয়, তখন তাদের ফলাফলগুলি প্যাকের শীর্ষে আসে, 84.1% নির্ভুলতা সহ, Microsoft-এর একটি দল যেটি প্রাক-প্রশিক্ষিত ছিল তার 83.2% স্কোরের চেয়ে ভাল। ভিআইটি, হ্যাংবো বাওর নেতৃত্বে, গত বছর.

এবং একই data2vec ট্রান্সফরমার ফলাফলগুলি আউটপুট করে যা বক্তৃতা শনাক্তকরণের জন্য অত্যাধুনিক এবং প্রাকৃতিক ভাষা শিক্ষার জন্য সেরা না হলে প্রতিযোগিতামূলক:

পরীক্ষামূলক ফলাফলগুলি দেখায় যে data2vec তিনটি পদ্ধতিতেই কার্যকর হতে পারে, ImageNet-1K-তে ViT-B এবং ViT-L-এর জন্য একটি নতুন স্থিতি স্থাপন করে, বক্তৃতা শনাক্তকরণের উপর স্পিচ প্রসেসিং-এর সর্বোত্তম পূর্ববর্তী কাজের থেকে উন্নতি করে এবং RoBERTA-এর সমান পারফর্ম করে। GLUE প্রাকৃতিক ভাষা বোঝার বেঞ্চমার্কে।

মূল বিষয়টি হল যে এটি চিত্র সম্পর্কে নিউরাল নেটওয়ার্কের কোনো পরিবর্তন ছাড়াই ঘটছে এবং বক্তৃতা এবং পাঠ্যের ক্ষেত্রেও একই। পরিবর্তে, প্রতিটি ইনপুট টাইপ একই নেটওয়ার্কে যাচ্ছে, এবং একই খুব সাধারণ কাজ সম্পন্ন করছে। এই কাজটি একই কাজ যা ট্রান্সফরমার নেটওয়ার্কগুলি সর্বদা ব্যবহার করে, যা "মাস্কড পূর্বাভাস" নামে পরিচিত।

এছাড়াও: গুগলের সুপারমডেল: ডিপমাইন্ড পারসিভার একটি এআই মেশিনের পথে একটি ধাপ যা যেকোনো কিছু এবং সবকিছু প্রক্রিয়া করতে পারে

যেভাবে data2vec মুখোশযুক্ত ভবিষ্যদ্বাণী সম্পাদন করে, তবে, একটি পদ্ধতি হল "স্ব-তত্ত্বাবধানে" শিক্ষা হিসাবে পরিচিত। একটি স্ব-তত্ত্বাবধানে সেটিংয়ে, একটি নিউরাল নেটওয়ার্ককে প্রশিক্ষিত করা হয়, বা বিকশিত করা হয়, একাধিক ধাপ অতিক্রম করে।

প্রথমত, নেটওয়ার্ক ডেটা ইনপুটের যৌথ সম্ভাব্যতার একটি উপস্থাপনা তৈরি করে, তা ছবি বা বক্তৃতা বা পাঠ্যই হোক। তারপরে, নেটওয়ার্কের একটি দ্বিতীয় সংস্করণে সেই ইনপুট ডেটা আইটেমগুলির কিছু "মাস্ক আউট", অপ্রকাশিত রেখে দেওয়া হয়েছে। নেটওয়ার্কের প্রথম সংস্করণটি যে যৌথ সম্ভাব্যতা তৈরি করেছিল সেটিকে এটিকে পুনর্গঠন করতে হবে, যা এটিকে মূলত শূন্যস্থান পূরণ করে ডেটার আরও ভাল এবং ভাল উপস্থাপনা তৈরি করতে বাধ্য করে।

data2vec পদ্ধতির একটি ওভারভিউ।

মেটা 2022

দুটি নেটওয়ার্ক, একটি যৌথ সম্ভাব্যতার সম্পূর্ণ প্যাটার্ন সহ, এবং একটি অসম্পূর্ণ সংস্করণ যা এটি সম্পূর্ণ করার চেষ্টা করছে, বলা হয়, যথেষ্ট সংবেদনশীলভাবে, "শিক্ষক" এবং "ছাত্র।" শিক্ষক ইতিমধ্যে যা অর্জন করেছেন তা পুনর্গঠনের মাধ্যমে ছাত্র নেটওয়ার্ক তার ডেটার অনুভূতি বিকাশ করার চেষ্টা করে, যদি আপনি চান।

আপনি Github এ মডেলের কোড দেখুন.

কিভাবে নিউরাল নেটওয়ার্ক তিনটি ভিন্ন ধরনের ডেটার জন্য শিক্ষক এবং ছাত্রদের পারফর্ম করছে? মূল বিষয় হল তিনটি ডেটা ক্ষেত্রে যৌথ সম্ভাব্যতার "লক্ষ্য" একটি নির্দিষ্ট আউটপুট ডেটা টাইপ নয়, যেমনটি Google-এর BERT বা OpenAI-এর GPT-3-এর মতো নির্দিষ্ট ডেটা টাইপের জন্য ট্রান্সফরমারের সংস্করণগুলির ক্ষেত্রে। .

বরং, data2vec কিছু নিউরাল নেটওয়ার্ক স্তর দখল করছে ভিতরে নিউরাল নেটওয়ার্ক, মাঝখানে কোথাও, যা প্রতিটি চূড়ান্ত আউটপুট হিসাবে উত্পাদিত হওয়ার আগে ডেটা উপস্থাপন করে।

লেখক যেমন লিখেছেন, "আমাদের পদ্ধতির প্রধান পার্থক্যগুলির মধ্যে একটি [...] মুখোশযুক্ত ভবিষ্যদ্বাণী সম্পাদন করা ছাড়াও, লক্ষ্যগুলির ব্যবহার যা শিক্ষক নেটওয়ার্ক থেকে একাধিক স্তরের গড় উপর ভিত্তি করে।" বিশেষভাবে, "আমরা শুধুমাত্র উপরের স্তরের পরিবর্তে একাধিক নিউরাল নেটওয়ার্ক স্তর উপস্থাপনাগুলিকে রিগ্রেস করি," যাতে "data2vec ইনপুট ডেটার সুপ্ত উপস্থাপনাগুলির পূর্বাভাস দেয়।"

তারা যোগ করে, "আমরা সাধারণত লক্ষ্য হিসাবে প্রতিটি ব্লকে শেষ অবশিষ্ট সংযোগের আগে FFN [ফিড-ফরোয়ার্ড নেটওয়ার্ক] এর আউটপুট ব্যবহার করি," যেখানে একটি "ব্লক" হল একটি নিউরাল নেটওয়ার্ক স্তরের ট্রান্সফরমার সমতুল্য।

মোদ্দা কথা হল যে প্রতিটি ডেটা টাইপ যা প্রবেশ করে তা শিক্ষকের তৈরি করা নিউরাল নেটওয়ার্কের ভিতরে কিছু পুনর্গঠনের ছাত্র নেটওয়ার্কের জন্য একই চ্যালেঞ্জ হয়ে দাঁড়ায়।

সমস্ত ডেটা ক্রাঞ্চ করার জন্য এক নেটওয়ার্ক তৈরির অন্যান্য সাম্প্রতিক পদ্ধতির থেকে এই গড় আলাদা। উদাহরণস্বরূপ, গত গ্রীষ্মে, গুগলের ডিপমাইন্ড ইউনিট এটিকে "পার্সিভার", ট্রান্সফরমারের নিজস্ব মাল্টি-মডেল সংস্করণ বলে অফার করেছে। পারসিভার নিউরাল নেটওয়ার্কের প্রশিক্ষণ হল একটি আউটপুট তৈরি করার আরও-মানক প্রক্রিয়া যা একটি লেবেলযুক্ত, তত্ত্বাবধান করা কাজ যেমন ইমেজনেটের উত্তর। স্ব-তত্ত্বাবধানে পদ্ধতিতে, data2vec সেই লেবেলগুলি ব্যবহার করছে না, এটি কেবল নেটওয়ার্কের ডেটার অভ্যন্তরীণ উপস্থাপনা পুনর্গঠনের চেষ্টা করছে।

এমনকি আরও উচ্চাভিলাষী প্রচেষ্টা ডানা মধ্যে মিথ্যা. জেফ ডিন, গুগলের এআই প্রচেষ্টার প্রধান, অক্টোবরে "পাথওয়েস" সম্পর্কে টিজ করেছিলেন, যা ডিন দাবি করেছেন একটি "পরবর্তী প্রজন্মের এআই আর্কিটেকচারমাল্টি-মডেল ডেটা প্রসেসিংয়ের জন্য।

মনে রাখবেন, একাধিক পদ্ধতির জন্য একটি একক নিউরাল নেট সম্পর্কে data2vec-এর খুব সাধারণ পদ্ধতিতে এখনও বিভিন্ন ডেটা প্রকার সম্পর্কে অনেক তথ্য রয়েছে। ইমেজ, স্পিচ এবং টেক্সট সবই ডেটার প্রাক-প্রসেসিং দ্বারা প্রস্তুত করা হয়। এইভাবে, নেটওয়ার্কের মাল্টি-মোডাল দিকটি এখনও ডেটা সম্পর্কে সূত্রের উপর নির্ভর করে, যা দলটি "ছোট মোডালিটি-নির্দিষ্ট ইনপুট এনকোডার" হিসাবে উল্লেখ করে।

এছাড়াও: Google 'পাথওয়েস' উন্মোচন করেছে, একটি পরবর্তী প্রজন্মের AI যা মাল্টিটাস্কের জন্য প্রশিক্ষিত হতে পারে

"একীভূত শিক্ষা ব্যবস্থা থাকা সত্ত্বেও, আমরা এখনও পদ্ধতি-নির্দিষ্ট বৈশিষ্ট্য নিষ্কাশনকারী এবং মাস্কিং কৌশলগুলি ব্যবহার করি," তারা ব্যাখ্যা করে৷

সুতরাং, আমরা এখনও এমন একটি বিশ্বে নেই যেখানে একটি নিউরাল নেটকে ইনপুট ডেটা প্রকারের কোন জ্ঞান ছাড়াই প্রশিক্ষিত করা হয়। আমরা এমন সময়েও নেই যখন নিউরাল নেটওয়ার্ক এমন একটি উপস্থাপনা তৈরি করতে পারে যা সমস্ত বিভিন্ন ডেটা টাইপকে একত্রিত করে, যাতে নিউরাল নেট সম্মিলিতভাবে জিনিসগুলি শিখতে পারে।

মধ্যে একটি বিনিময় থেকে এই সত্য স্পষ্ট হয় জেডডিনেট এবং লেখক। জেডডিনেট বায়েভস্কি এবং দলের কাছে পৌঁছেছেন এবং জিজ্ঞাসা করেছেন, "প্রচ্ছন্ন উপস্থাপনাগুলি যা লক্ষ্য হিসাবে কাজ করে যে কোনও নির্দিষ্ট সময়ের ধাপে তিনটি পদ্ধতির সম্মিলিত এনকোডিং, নাকি সেগুলি সাধারণত শুধুমাত্র একটি পদ্ধতি?"

Baevski এবং দল প্রতিক্রিয়া যে এটি পরবর্তী ক্ষেত্রে, এবং তাদের reply দৈর্ঘ্যে উদ্ধৃত করা আকর্ষণীয়:

সুপ্ত ভেরিয়েবল তিনটি পদ্ধতির জন্য একটি সম্মিলিত এনকোডিং নয়। আমরা প্রতিটি পদ্ধতির জন্য পৃথক মডেল প্রশিক্ষণ দিই কিন্তু মডেলগুলি যে প্রক্রিয়ার মাধ্যমে শিখে তা অভিন্ন। এটি আমাদের প্রকল্পের প্রধান উদ্ভাবন কারণ এর আগে মডেলগুলিকে কীভাবে বিভিন্ন পদ্ধতিতে প্রশিক্ষণ দেওয়া হয় তাতে বড় পার্থক্য ছিল। স্নায়ুবিজ্ঞানীরাও বিশ্বাস করেন যে মানুষ শব্দ এবং ভিজ্যুয়াল জগত সম্পর্কে একইভাবে শিখে। আমাদের প্রকল্প দেখায় যে স্ব-তত্ত্বাবধানে শিক্ষাও বিভিন্ন পদ্ধতির জন্য একইভাবে কাজ করতে পারে।

প্রদত্ত data2vec-এর পদ্ধতি-নির্দিষ্ট সীমাবদ্ধতা, একটি নিউরাল নেটওয়ার্ক যা সত্যিই হতে পারে ওয়ান নেটওয়ার্ক টু রুল দ্য অল ভবিষ্যতের প্রযুক্তি অবশেষ।

উৎস

পূর্ববর্তী পোস্ট

পরবর্তী পোস্ট

Keep Calm and Stay Smart

01:13

আমাদের দল পেশাদারভাবে আমাদের নিজস্ব পরামর্শদাতা এবং ব্যবসায়ী নেতাদের একটি প্যানেলের মাধ্যমে প্রতি বছর শত শত সফ্টওয়্যার, পরিষেবা এবং ব্যবসায়িক কৌশল পরীক্ষা করে।

আমরা কঠোরভাবে সমাধানগুলি বেছে নিই শুধুমাত্র সর্বোচ্চ খরচ-সুবিধা অনুপাতের সাথে যারা সহজেই ব্যবহারযোগ্য, যারা যেকোনো ধরনের প্রতিষ্ঠানে শালীনভাবে একত্রিত হয় এবং যারা আপনাকে আপনার ব্যবসায়িক ক্ষেত্রের শীর্ষে থাকতে নিশ্চিত করতে অগ্রণী বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে।

Meta's 'data2vec' হল ওয়ান নিউরাল নেটওয়ার্কের জন্য পরবর্তী পদক্ষেপ যা তাদের সকলকে শাসন করতে

2024 সালে সফ্টওয়্যার থাকতে হবে

শীর্ষ বিভাগ

সর্বশেষ পর্যালোচনা

Samsung Galaxy Z Flip 5 টিজার ভিডিও, গ্যালাক্সি আনপ্যাকড ইভেন্টের আগে, নতুন কব্জা ডিজাইন, রঙের বিকল্পগুলি দেখায়

টুইটার অসমাপ্ত ব্যবহারকারীদের DM পাঠাতে পারে এমন সংখ্যা সীমিত করছে

আমার প্রিয় অ্যান্ড্রয়েড ফোন এমন কিছু করতে পারে যা আমার iPhone 14 Pro Max পারে না

Android এর জন্য ChatGPT আগামী সপ্তাহে চালু হচ্ছে, এবং আপনি এখনই প্রাক-নিবন্ধন করতে পারেন

Xiaomi Smart TV 32A, Smart TV 40A, Smart TV 43A Google TV সহ, 20W স্পিকার ভারতে লঞ্চ হয়েছে: : দাম, স্পেসিফিকেশন

এই ভোজ্য ব্যাটারি ডায়াগনস্টিকস এবং টেকসই শক্তির বিশ্বকে শক্তিশালী করতে পারে