يمكن للأنموذج الجديد للتعلم الآلي أن يمكّن الروبوتات من فهم التفاعلات في العالم بالطريقة التي يفهمها البشر.

عندما ينظر البشر إلى مشهد ما، فإنهم يرون الأشياء والعلاقات فيما بينها: أعلى مكتبك، قد يكون هناك كمبيوتر محمول موجود على يسار الهاتف، وهو أمام شاشة الكمبيوتر.

تكافح العديد من نماذج التعلم العميق لرؤية العالم بهذه الطريقة لأنها لا تفهم العلاقات المتشابكة بين الكائنات الفردية. من دون معرفة هذه العلاقات، سيواجه الروبوت المصمم لمساعدة شخص ما في المطبخ صعوبة في اتباع أمر مثل "التقط الملعقة الموجودة على يسار الموقد وضعها فوق لوح التقطيع".

تمييز اللون

في محاولة لحل هذه المشكلة، طور باحثو معهد ماساتشوستس للتكنولوجيا أنموذجاً يفهم العلاقات الأساسية بين الأشياء في المشهد. يمثل أنموذجهم العلاقات الفردية واحدة تلو الأخرى، ثم يجمع بين هذه التمثيلات لوصف المشهد العام. يتيح ذلك للأنموذج إنشاء صور أكثر دقة من خلال أوصاف النص، حتى عندما يتضمن المشهد عدة كائنات مرتبة في علاقات مختلفة مع بعضها البعض.

يمكن تطبيق هذا العمل في المواقف التي يجب أن تؤدي فيها الروبوتات الصناعية مهام معالجة معقدة ومتعددة الخطوات، مثل تكديس العناصر في المستودع أو تجميع الأجهزة. كما أنه يقترب بالمجال خطوة واحدة من تمكين الآلات التي يمكنها التعلم من بيئاتها والتفاعل معها مثلما يفعل البشر.

"عندما أنظر إلى طاولة، لا أستطيع أن أقول إن هناك شيئاً في مكان ثلاثي الأبعاد XYZ. عقولنا لا تعمل هكذا. في أذهاننا، عندما نفهم مشهداً ما، فإننا نفهمه حقاً بناءً على العلاقات بين الأشياء في هذا المشهد. نعتقد أنه من خلال بناء نظام يمكنه فهم العلاقات بين الكائنات، يمكننا استخدام هذا النظام لمعالجة بيئاتنا وتغييرها بشكل أكثر فعالية"، كما يقول ييلون دو، طالب دكتوراه في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) وزملاؤه - مؤلف الورقة الرئيسي.

كتب ييلون دو الورقة مع المؤلفين الرئيسيين المشاركين وهم: شوانغ لي - طالب دكتوراه في CSAIL، ونان ليو - طالب دراسات عليا في جامعة إلينوي في أوربانا شامبين؛ بالإضافة إلى جوشوا ب. وكبير المؤلفين أنطونيو تورالبا، أستاذ إلكترونيات دلتا للهندسة الكهربائية وعلوم الكمبيوتر وعضو CSAIL. سيتم تقديم البحث في مؤتمر نظم معالجة المعلومات العصبية في شهر كانون الأول.

علاقة واحدة في كل مرة

يمكن للإطار الذي طوره الباحثون إنشاء صورة لمشهد بناءً على وصف نصي للأشياء وعلاقاتها، مثل "طاولة خشبية على يسار كرسي أزرق. أريكة حمراء على يمين كرسي أزرق".

سيقوم نظامهم بتقسيم هذه الجمل إلى جزأين منفصلين لوصف كل علاقة فردية ("طاولة خشبية على يسار كرسي أزرق" و"أريكة حمراء على يمين كرسي أزرق")، ثم نمذجة كل جزء على حدة. يتم بعد ذلك دمج هذه القطع من خلال عملية تحسين تؤدي إلى إنشاء صورة للمشهد.

استخدم الباحثون تقنية تعلم آلي تدعى: النماذج القائمة على الطاقة لتمثيل علاقات الكائنات الفردية في وصف المشهد. تمكنهم هذه التقنية من استخدام أنموذج واحد قائم على الطاقة لترميز كل وصف علائقي، ثم تكوينها معاً بطريقة تستنتج جميع الكائنات والعلاقات.

من خلال تقسيم الجمل إلى أجزاء أقصر لكل علاقة، يمكن للنظام إعادة دمجها بعدة طرق، بحيث يكون أكثر قدرة على التكيف مع أوصاف المشهد التي لم يرها من قبل، كما يوضح الدكتور لي.

يشرح الدكتور دو: الأنظمة الأخرى تأخذ كل العلاقات بشكل كلي وتولد الصورة كلقطة واحدة من الوصف. ومع ذلك، تفشل مثل هذه الأساليب عندما يكون لدينا أوصاف خارج التوزيع، مثل الأوصاف مع المزيد من العلاقات، نظراً لأن هذا الأنموذج لا يمكنه حقاً تكييف لقطة واحدة لإنشاء صور تحتوي على المزيد من العلاقات. ومع ذلك، نظراً لأننا نؤلف هذه النماذج الصغيرة المنفصلة معاً، يمكننا نمذجة عدد أكبر من العلاقات والتكيف مع مجموعات جديدة.

يعمل النظام أيضاً في الاتجاه المعاكس - فبالنظر إلى الصورة، يمكنه العثور على أوصاف نصية تتطابق مع العلاقات بين الكائنات في المشهد. بالإضافة إلى ذلك، يمكن استخدام هذا الأنموذج لتحرير صورة عن طريق إعادة ترتيب الكائنات في المشهد بحيث تتطابق مع وصف جديد.

فهم المشاهد المعقدة

قارن الباحثون أنموذجهم بأساليب التعلم العميق الأخرى التي أعطيت أوصافاً نصية وكُلفت بتوليد صور تعرض الكائنات المقابلة وعلاقاتها. في كل حالة، تفوق أنموذجهم على أساسيات تلك الأساليب.

كما طلبوا من البشر تقييم ما إذا كانت الصور التي تم إنشاؤها تتطابق مع وصف المشهد الأصلي. في أكثر الأمثلة تعقيداً، حيث احتوت الأوصاف على ثلاث علاقات، خلص 91 بالمائة من المشاركين إلى أن الأنموذج الجديد كان يعمل بشكل أفضل.

يقول دكتور دو: أحد الأشياء المثيرة للاهتمام التي وجدناها، هو أنه بالنسبة إلى أنموذجنا، يمكننا زيادة جملتنا من وصف علاقة واحدة إلى وصفين أو ثلاثة أو حتى أربعة أوصاف، ويستمر أنموذجنا في تكوين صور يتم وصفها بشكل صحيح بواسطة هذه الأوصاف، بينما تفشل الطرق الأخرى في ذلك.

عرض الباحثون أيضاً على أنموذجهم صوراً لمشاهد لم يسبق له رؤيتها من قبل، بالإضافة إلى العديد من الأوصاف النصية المختلفة لكل صورة، وتمكن الأنموذج من تحديد الوصف الذي يتطابق بشكل أفضل مع علاقات الكائنات في الصور بنجاح.

وعندما أعطى الباحثون الأنموذج وصفين لمشهد علائقي يصفان الصورة نفسها ولكن بطرق مختلفة، كان الأنموذج قادراً على فهم أن الوصفين كانا متكافئين.

أظهر الباحثون إعجابهم بمتانة أنموذجهم، خاصة عند العمل مع الأوصاف التي لم يصادفها من قبل.

ويضيف الدكتور لي: هذا واعد جداً لأن هذا العمل هو أقرب إلى كيفية عمل البشر. قد يرى البشر عدة أمثلة فقط، ولكن يمكننا استخراج معلومات مفيدة من هذه الأمثلة القليلة والدمج فيما بينها معاً لإنشاء مجموعات لانهائية. يحتوي أنموذجنا على هذه الخاصية التي تسمح له بالتعلم من بيانات أقل وتعميمها وإسقاطها على مشاهد أكثر تعقيداً أو توليد صور جديدة.

رغم أن هذه النتائج المبكرة مشجعة، لكن يود الباحثون أن يروا كيف يتفاعل أنموذجهم مع صور العالم الواقعي الأكثر تعقيداً، مع خلفيات صاخبة وأجسام تحجب بعضها البعض.

إنهم مهتمون أيضاً بإدماج أنموذجهم في نهاية المطاف في أنظمة الروبوتات، مما يساعد روبوتاً على استنتاج العلاقات بين الكائنات من مقاطع الفيديو، ثم تطبيق هذه المعرفة من أجل الوصول إلى إمكانية التلاعب بهذه الأشياء في العالم الحقيقي.

عند سؤال الباحث جوزيف سيفيك عن هذا البحث أجاب: تطوير تمثيلات مرئية يمكن أن تتعامل مع الطبيعة التركيبية للعالم من حولنا، هي واحدة من المشاكل المفتوحة الرئيسية في رؤية الكمبيوتر. تقدم هذه الورقة البحثية تقدماً كبيراً في هذه المشكلة من خلال النماذج القائمة على الطاقة في النماذج ذات العلاقات المتعددة بين الكائنات الموجودة بشكل صريح في الصورة. ويضيف: النتائج حقاً مبهرة!

جوزيف سيفيك هو باحث متميز في المعهد التشيكي للمعلومات والبرامج الروبوتية في الجامعة الفنية التشيكية، التي لم تكن مشتركة في هذا البحث.

-----

ترجمة عن موقع: scitechdaily.com

الكاتب: آدم زوي