محتوى مترجم
المصدر
MIT
التاريخ
2016/08/13
الكاتب
آدم كونر سيمونز

لتكون الروبوتات قادرة على التنقل في العالم، ستحتاج إلى أن تكون قادرة على إدراك افتراضات معقولة أقرب للحقيقة عن الأشياء المحيطة بها، وما قد يحدث خلال سلسلة من الأحداث.

إحدى الطرق التي تعلم بها البشر هذه الأمور كانت عبر الصوت. بالنسبة للأطفال الصغار، لا يعد اللكز والحث للأشياء بهدف المتعة فقط؛ حيث تشير بعض الدراسات إلى أن ذلك هكذا بالفعل كيفية يطور الأطفال حدسهم للطبيعة. فهل يمكن أن ينطبق ذات الأمر على الآلات؟

قدم باحثون بمعمل الذكاء الاصطناعي وعلوم الحاسب التابع لمعهد ماساتشوستس للتكنولوجيا خوارزميةً تعلمت بشكل فعال كيفية التنبؤ بالأصوات: عندما يعرض لها مقطع فيديو صامت لضرب أحد الأجسام، يمكن للخورزمية إنتاج صوت للضربة، والذي يكون واقعيًا كفاية لدرجة تمكنه من خداع المشاهدين البشر.

يعد ذلك، والذي يطلق عليه «اختبار تورينج للأصوات»، أكثر بكثير من مجرد خدعة حاسوبية ذكية: حيث يتصور الباحثون رؤىً مستقبلية لخورزميات مشابهة تستخدام لتنتج أوتوماتيكيًا مؤثرات صوتية للأفلام والبرامج التلفزيونية، بالإضافة إلى مساعدة الروبوتات على فهم خصائص الأجسام بشكل أفضل.

فيديو: باحثون بمعهد ماساتشوستس يقدموا خوارزميةً تعلمت بشكل فعال كيفية التنبؤ بالأصوات. قد يؤدي تقدمها إلى توفير مؤثرات صوتية أفضل للأفلام والتلفزيون وإنتاج روبوتات لديها فهمٌ مُحسن للأجسام المحيطة بها.

«عندما تمرر إصبعك على زجاجة نبيذ، فإن الصوت الذي تحدثه يعكس مقدار السائل بداخلها»، حسبما قال الطالب بالمعمل، أندرو أوينز، الذي كان الكاتب الرئيسي لورقة بحثية مقبلة تشرح هذا العمل. «خوارزمية تحاكي مثل هذه الأصوات يمكنها الكشف عن معلومات أساسية عن أشكال وأنواع مواد الأجسام، بالإضافة إلى قوة وحركة تفاعلاتها مع العالم».

استخدم الفريق تقنيات من مجال «التعلم العميق»، والتي تشمل تعليم الحواسب أن تدقق عبر كميات ضخمة من البيانات لإيجاد نماذج من تلقاء نفسها. وتعد نهج التعلم العميق مفيدة بشكل خاص لأنها تحرر علماء الحواسب من الاضطرار لتصميم الخوارزميات ومراجعة تقدمها بشكل يدوي.

ويشمل المشاركون في كتابة الورقة البحثية الحاصل على الدكتوراه مؤخرًا، فيليب إيزولا، والأساتذة بالمعهد، إدوارد أديلسون، بيل فريمان، جوش ماكديرموت وأنطونيو تورالبا. ستُقدم الورقة البحثية هذا الشهر بالمؤتمر السنوي للرؤية الحاسوبية وتمييز الأنماط بلاس فيجاس.


كيف تعمل؟

تتمثل أول خطوة في تدريب خوارزمية لإنتاج الأصوات في إعطائها أصواتًا لتدرسها. على مدار عدة أشهر، سجل الباحثون حوالي 1,000 مقطع فيديو بهم حوالي 46,000 صوت، والتي تمثل تعرض أجسام مختلفة للضرب، الكشط والحث باستخدام عصا الطبل. (لقد استخدموا عصا الطبل لأنها وفرت وسيلة ثابتة لإنتاج الصوت). بعد ذلك، قدم الفريق هذه المقاطع إلى خوارزميةٍ للتعلم العميق، والتي فككت الأصوات وحللت شدتها وعلوها وسماتها الأخرى.

أندرو أوينز

نتج عن ذلك أن الخوارزمية يمكنها أن تحاكي الأبعاد الدقيقة للضربات المختلفة، من النقرات المتقطعة لحجرٍ إلى الأطوال الموجية الأطول لحفيف أوراق اللبلاب. كذلك لا تمثل شدة الصوت مشكلة، بما أن الخوارزمية يمكنها توليف أصوات الضربات المتراوحة بين «الصوت المكتوم» منخفض الحدة الخاص بأريكة ناعمة و«النقرات» شديدة الحدة الخاصة بدرابزين من الخشب الصلب.

«تركز النهج الحالية في الذكاء الاصطناعي على حاسة واحدة فقط من الحواس الخمس؛ حيث يستخدم باحثو الرؤية الصور، ويستخدم باحثو الخطاب الصوت، وما إلى ذلك»، حسبما علق أبهيناف جوبتا، أستاذ الروبوتات المساعد بجامعة كارنيجي ميلون، والذي لم يشارك بالدراسة. وتابع: «تعد هذه الورقة البحثية خطوة في الاتجاه الصحيح لمحاكاة التعلم على طريقة البشر، عبر دمج الصوت والضوء».

يقدم هذا العمل ميزة إضافية هي أن مكتبة الفريق المكونة من 46,000 صوت مجانية ومتاحة ليستخدمها الباحثون الآخرون، وأطلقوا عليها اسم: «أعظم الضربات».


خداع البشر

لاختبار مدى واقعية الأصوات المزيفة، أجرى الفريق دراسة على الإنترنت، شاهد فيها من خضعوا للدراسة مقطعي فيديو لتصادمين – أحدهما للصوت الفعلي المسجل، وأحدهما للصوت الذي انتجته الخوارزمية – وطلب منهم تحديد الصوت الحقيقي.

النتيجة: اختار المشاركون الصوت المزيف ضعفي اختيارهم للحقيقي. لقد خُدعوا بشكل خاص بموادٍ مثل أوراق الأشجار والتراب، والتي يكون لها أصوات أقل «وضوحًا» مقارنة بموادٍ مثل الأخشاب والمعدن.

وفوق ذلك، اكتشف الفريق أن أصوات المواد قد كشفت جوانب رئيسية من سماتها المادية: حيث طوروا خوارزمية يمكنها ملاحظة الفرق بين المواد الصلبة والناعمة بنسبة 67 بالمئة من الوقت.

يتماشى عمل الفريق مع أبحاث المعمل الأخيرة عن تضخيم الفيديو والصوت. فقد ساعد فريمان في تطوير خوارزميات تضخم الحركات التي يلتقطها الفيديو، والتي تكون غير مرئية للعين المجردة، ما مكن مجموعاته من فعل أمور مثل جعل النبض البشري مرئيًا، واستعادة الكلام باستخدام فيديو لكيس رقائق بطاطس.


ماذا عن المستقبل؟

حتى تتنبأ بصوت مقطع فيديو جديد، تنظر الخوارزمية إلى خصائص الصوت لكل إطار من ذلك المقطع، وتطابقها بالأصوات الأكثر مماثلة في قاعدة البيانات. بمجرد امتلاك النظام لهذه البتات من الصوت، فإنه يجمعها سويًا لإنتاج صوتٍ واحدٍ متماسك.
من الهب اللطيف للرياح إلى طنين أجهزة الحواسب المحمولة، في أي لحظة هناك أصوات محيطة كثيرة جدًا، والتي لا يكون لها علاقة بما ننظر إليه بالفعل
أندرو أوينز

يقول الباحثون إنه لا يزال هناك مساحة لتطوير النظام. على سبيل المثال، إن كانت عصا الطبل تتحرك بعصبيةٍ بشكلٍ خاصٍ في مقطع فيديو، فإنه يرجح بدرجة أكبر أن تخطيء الخوارزمية أو أن تصدر صوتًا زائفًا. كما أنها محدودة بحقيقة أنها تنطبق على «الأصوات المعبر عنها بصريًا» فقط – أي الأصوات التي تنتج مباشرة عن التفاعل المادي الذي يتم تصويره في الفيديو.

وفق أوينز، «ما سيكون مثيرًا حقًا هو المحاكاة بشكل ما للصوت المرتبط بالمرئيات بشكل أقل مباشرة».

يعتقد الفريق أن الأعمال المستقبلية في هذا المجال يمكنها تحسين قدرات الروبوتات على التفاعل مع الأجسام المحيطة بها.

«يمكن لروبوتٍ أن ينظر إلى الرصيف ويعلم بصورة غريزية أن الأسمنت صلب وأن العشب ناعم، وبالتالي سوف يعلم ما سوف يحدث إن داس على كليهما»، حسبما يعلق أوينز، «تمثل القدرة على التنبؤ بالأصوات خطوةً أولى هامة نحو القدرة على التنبؤ بعواقب التفاعلات الفيزيائية مع العالم».

تم تمويل العمل، جزئيًا، من قبل المؤسسة الوطنية للعلوم و«شل». كذلك دُعم أوينز من قبل زمالة أبحاث مايكروسوفت.