تعد "بيانات 2vec" الخاصة بـ Meta هي الخطوة التالية نحو شبكة عصبية واحدة للتحكم فيها جميعًا

السباق مستمر لإنشاء شبكة عصبية واحدة يمكنها معالجة أنواع متعددة من البيانات ، وهي فكرة الذكاء الاصطناعي الأكثر عمومية الذي لا يميز بين أنواع البيانات ولكن بدلاً من ذلك يمكنه حلها جميعًا في نفس البنية الأساسية.

يشهد نوع الوسائط المتعددة ، كما تسمى هذه الشبكات العصبية ، موجة من النشاط يتم فيها تمرير بيانات مختلفة ، مثل الصورة والنص وصوت الكلام ، من خلال نفس الخوارزمية للحصول على نتيجة في اختبارات مختلفة مثل التعرف على الصور أو فهم اللغة الطبيعية أو اكتشاف الكلام.

وتحقق هذه الشبكات الرائعة نتائج الاختبارات المعيارية للذكاء الاصطناعي. أحدث إنجاز هو ما يسمى "data2vec" ، الذي طوره باحثون في قسم الذكاء الاصطناعي في Meta ، الشركة الأم لفيسبوك ، وإنستغرام ، وواتس آب. 

النقطة ، كما كتب علماء Meta ، Alexei Baevski و Wei-Ning Hsu و Qiantong Xu و Arun Babu و Jiatao Gu و Michael Auli ، هي الاقتراب من شيء يشبه قدرة التعلم العامة التي يبدو أن العقل البشري يشملها.

"بينما يبدو أن الناس يتعلمون بطريقة مماثلة بغض النظر عن كيفية حصولهم على المعلومات - سواء استخدموا البصر أو الصوت ، على سبيل المثال ،" كتب المؤلفون في بلوق وظيفة، "توجد حاليًا اختلافات كبيرة في الطريقة" تعالج الشبكات العصبية أنواعًا مختلفة من البيانات مثل الصور والكلام والنص "والطرائق الأخرى."

"الفكرة الأساسية لهذا النهج ،" أعلنوا عن data2vec ، "هي التعلم بشكل عام: يجب أن يكون الذكاء الاصطناعي قادرًا على تعلم القيام بالعديد من المهام المختلفة ، بما في ذلك المهام غير المألوفة تمامًا."

قدم الرئيس التنفيذي لشركة Meta ، مارك زوكربيرج ، اقتباسًا عن العمل ، وربطه بمستقبل Metaverse:

اختراق مثير: أنشأت أبحاث Meta AI نظامًا يتعلم من الكلام والرؤية والنص دون الحاجة إلى بيانات تدريب مصنفة. يختبر الناس العالم من خلال مزيج من البصر والصوت والكلمات ، وأنظمة مثل هذه يمكن أن تفهم العالم يومًا ما بالطريقة التي نتعامل بها. سيتم دمج كل هذا في نهاية المطاف في نظارات الواقع المعزز مع مساعد الذكاء الاصطناعي ، لذلك ، على سبيل المثال ، يمكن أن يساعدك في طهي العشاء ، وملاحظة ما إذا كنت تفوت أحد المكونات ، مما يدفعك إلى خفض الحرارة ، أو القيام بمهام أكثر تعقيدًا.

اسم data2vec عبارة عن مسرحية باسم برنامج للغة "التضمين" تم تطويره في Google في عام 2013 تسمى "word2vec". تنبأ هذا البرنامج بكيفية تجمع الكلمات معًا ، وبالتالي فإن word2vec تمثل شبكة عصبية مصممة لنوع معين من البيانات ، في هذه الحالة النص. 

أيضا: افتح أبواب البود باي ، من فضلك ، هال: تحاكي Meta AI قراءة الشفاه

ومع ذلك ، في حالة data2vec ، يتخذ Baevski وزملاؤه إصدارًا قياسيًا لما يسمى بالمحول ، تم تطويره بواسطة Ashish Vaswani وزملاؤه في Google في عام 2017 وتوسيعها لاستخدامها لأنواع بيانات متعددة. 

تم تطوير الشبكة العصبية للمحول في الأصل لمهام اللغة ، ولكن تم تكييفها على نطاق واسع في السنوات منذ ذلك الحين لأنواع كثيرة من البيانات. Baevski et al. أظهر أنه يمكن استخدام المحول لمعالجة أنواع متعددة من البيانات دون تغيير ، والشبكة العصبية المدربة التي يمكن أن تؤدي إلى عدة مهام مختلفة. 

في الورقة الرسمية ، "data2vec: إطار عام للتعلم الذاتي في الكلام والرؤية واللغة، Baevski وآخرون ، تدريب المحولات لبيانات الصورة ، وأشكال الموجات الصوتية للكلام ، وتمثيلات لغة النص. 

Data2vec هي "أول خوارزمية ذاتية الإشراف عالية الأداء تعمل بطرق متعددة ، وهي الكلام والرؤية والنص" ، كما كتب بايفسكي وفريقه في منشور المدونة.

يصبح المحول العام للغاية ما يسمى بالتدريب المسبق الذي يمكن بعد ذلك تطبيقه على شبكات عصبية معينة من أجل أداء مهام محددة. على سبيل المثال ، يستخدم المؤلفون data2vec كتدريب مسبق لتجهيز ما يسمى "ViT" ، "Vision Transformer" ، وهي شبكة عصبية مصممة خصيصًا لمهام الرؤية التي تم تقديمه العام الماضي بواسطة Alexey Dosovitskiy وزملاؤه في Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

تظهر Meta أعلى النتائج في مسابقة التعرف على الصور ImageNet الموقرة.


الفوقية 2022

عند استخدامها على ViT لمحاولة حل اختبار ImageNet القياسي للتعرف على الصور ، تأتي نتائجها في الجزء العلوي من الحزمة ، بدقة 84.1٪ ، أفضل من النتيجة البالغة 83.2٪ التي حصل عليها فريق في Microsoft تم تدريبه مسبقًا في تي ، بقيادة هانجبو باو ، العام الماضي.

ونفس مخرجات Data2vec Transformer هي أحدث ما توصلت إليه تقنية التعرف على الكلام والتي تعتبر تنافسية ، إن لم تكن الأفضل ، لتعلم اللغة الطبيعية:

تظهر النتائج التجريبية أن data2vec فعالة في جميع الأساليب الثلاثة ، مما يضع حالة جديدة من الفن لـ ViT-B و ViT-L على ImageNet-1K ، وتحسين أفضل عمل سابق في معالجة الكلام على التعرف على الكلام والأداء على قدم المساواة مع RoBERTa على معيار فهم اللغة الطبيعية GLUE. 

الجوهر هو أن هذا يحدث دون أي تعديل للشبكة العصبية ليكون حول الصور ، ونفس الشيء بالنسبة للكلام والنص. بدلاً من ذلك ، ينتقل كل نوع إدخال إلى نفس الشبكة ، ويكمل نفس المهمة العامة جدًا. هذه المهمة هي نفس المهمة التي تستخدمها شبكات Transformer دائمًا ، والمعروفة باسم "التنبؤ المقنع". 

أيضا: نموذج Google الفائق: DeepMind Perceiver هو خطوة على الطريق نحو آلة ذكاء اصطناعي يمكنها معالجة أي شيء وكل شيء

ومع ذلك ، فإن الطريقة التي تؤدي بها data2vec للتنبؤ المقنع تُعرف باسم التعلم "تحت الإشراف الذاتي". في بيئة تخضع للإشراف الذاتي ، يتم تدريب الشبكة العصبية أو تطويرها من خلال الاضطرار إلى المرور عبر مراحل متعددة. 

أولاً ، تنشئ الشبكة تمثيلاً للاحتمال المشترك لإدخال البيانات ، سواء كانت صورًا أو كلامًا أو نصًا. بعد ذلك ، يحتوي الإصدار الثاني من الشبكة على بعض عناصر بيانات الإدخال هذه "المخفية" ، والتي تُركت غير مكشوفة. يجب عليها إعادة بناء الاحتمال المشترك الذي أنشأه الإصدار الأول من الشبكة ، مما يجبره على إنشاء تمثيلات أفضل وأفضل للبيانات عن طريق ملء الفراغات بشكل أساسي. 

meta-2022-data2vec-network-architecture.jpg

نظرة عامة على نهج data2vec.


الفوقية 2022

الشبكتان ، الأولى ذات النمط الكامل للاحتمال المشترك ، والأخرى ذات النسخة غير المكتملة التي تحاول إكمالها ، تسمى ، بشكل معقول بما فيه الكفاية ، "المعلم" و "الطالب". تحاول شبكة الطلاب تطوير إحساسها بالبيانات ، إذا صح التعبير ، عن طريق إعادة بناء ما حققه المعلم بالفعل.

اطلع على انظر رمز النماذج على جيثب.

كيف تقوم الشبكة العصبية بأداء المعلم والطالب لثلاثة أنواع مختلفة جدًا من البيانات؟ المفتاح هو أن "الهدف" للاحتمالية المشتركة ، في جميع حالات البيانات الثلاث ، ليس نوعًا محددًا من بيانات الإخراج ، كما هو الحال في إصدارات المحول لنوع بيانات معين ، مثل Google BERT أو OpenAI's GPT-3 . 

بدلاً من ذلك ، تستحوذ data2vec على مجموعة من طبقات الشبكة العصبية الموجودة في الداخل الشبكة العصبية ، في مكان ما في الوسط ، والتي تمثل البيانات قبل أن يتم إنتاجها كناتج نهائي. 

كما كتب المؤلفون ، "أحد الاختلافات الرئيسية في طريقتنا [...] بخلاف إجراء التنبؤ المقنع ، هو استخدام الأهداف التي تستند إلى متوسط ​​طبقات متعددة من شبكة المعلمين." على وجه التحديد ، "نقوم بتراجع تمثيلات طبقة الشبكة العصبية المتعددة بدلاً من الطبقة العليا فقط ،" بحيث "تتنبأ data2vec بالتمثيلات الكامنة لبيانات الإدخال".

يضيفون ، "نحن نستخدم بشكل عام إخراج FFN [شبكة التغذية الأمامية] قبل آخر اتصال متبقي في كل كتلة كهدف" ، حيث يكون "block" هو المكافئ المحول لطبقة الشبكة العصبية.

النقطة المهمة هي أن كل نوع بيانات يتم إدخاله يصبح نفس التحدي لشبكة الطلاب لإعادة بناء شيء ما داخل الشبكة العصبية التي قام المدرس بتكوينها.

يختلف هذا المتوسط ​​عن الأساليب الحديثة الأخرى لبناء شبكة واحدة لسحق جميع البيانات. على سبيل المثال ، في الصيف الماضي ، قدمت وحدة DeepMind التابعة لشركة Google ما تسميه "Perceiver" ، وهي نسختها الخاصة متعددة الوسائط من Transformer. إن تدريب الشبكة العصبية Perceiver هو العملية الأكثر معيارًا لإنتاج مخرجات تمثل الإجابة على مهمة محددة تخضع للإشراف مثل ImageNet. في نهج الإشراف الذاتي ، لا تستخدم data2vec تلك التسميات ، إنها تحاول فقط إعادة بناء التمثيل الداخلي للبيانات للشبكة. 

المزيد من الجهود الطموحة تكمن في الأجنحة. جيف دين ، رئيس جهود الذكاء الاصطناعي في Google ، سخر في أكتوبر من "Pathways" ، ما ادعى Dean أنه "الجيل القادم من هندسة الذكاء الاصطناعي"لمعالجة البيانات متعددة الوسائط.

ضع في اعتبارك أن نهج data2vec العام جدًا لشبكة عصبية واحدة لطرائق متعددة لا يزال يحتوي على الكثير من المعلومات حول أنواع البيانات المختلفة. يتم تجهيز كل من الصور والكلام والنص من خلال المعالجة المسبقة للبيانات. وبهذه الطريقة ، لا يزال الجانب متعدد الوسائط للشبكة يعتمد على أدلة حول البيانات ، وهو ما يشير إليه الفريق على أنه "ترميز إدخال صغير خاص بالطريقة المحددة".

أيضا: تكشف Google عن "Pathways" ، وهو جيل جديد من الذكاء الاصطناعي يمكن تدريبه على القيام بمهام متعددة

يوضحون: "على الرغم من نظام التعلم الموحد ، ما زلنا نستخدم أدوات استخراج الميزات الخاصة بالطريقة واستراتيجيات الإخفاء".

ومن ثم ، فنحن لم نصل بعد إلى عالم يتم فيه تدريب الشبكة العصبية دون أي معنى على الإطلاق لأنواع بيانات الإدخال. نحن أيضًا لسنا في وقت يمكن فيه للشبكة العصبية إنشاء تمثيل واحد يجمع بين جميع أنواع البيانات المختلفة ، بحيث تتعلم الشبكة العصبية الأشياء معًا.

تم توضيح هذه الحقيقة من خلال التبادل بين زدنيت والمؤلفين. زدنيت تواصلت مع Baevski والفريق وتساءلت ، "هل التمثيلات الكامنة التي تعمل كأهداف هي ترميز مشترك لجميع الطرائق الثلاثة في أي خطوة زمنية معينة ، أم أنها عادة ما تكون مجرد طريقة واحدة؟"

رد Baevski والفريق أن هذه هي الحالة الأخيرة ، ولهم reply من المثير للاهتمام أن أقتبس مطولاً:

المتغيرات الكامنة ليست ترميزًا مشتركًا للطرائق الثلاثة. نقوم بتدريب نماذج منفصلة لكل طريقة ولكن العملية التي تتعلم النماذج من خلالها متطابقة. هذا هو الابتكار الرئيسي لمشروعنا لأنه كان هناك قبل ذلك اختلافات كبيرة في كيفية تدريب النماذج على أساليب مختلفة. يعتقد علماء الأعصاب أيضًا أن البشر يتعلمون بطرق متشابهة عن الأصوات والعالم المرئي. يُظهر مشروعنا أن التعلم تحت الإشراف الذاتي يمكن أن يعمل أيضًا بنفس الطريقة لطرائق مختلفة.

نظرًا للقيود الخاصة بالطريقة الخاصة بـ data2vec ، فإن الشبكة العصبية قد تكون كذلك حقًا شبكة واحدة لتحكمهم جميعًا تظل تكنولوجيا المستقبل.

مصدر