إن ChatGPT وأدوات الذكاء الاصطناعي الأخرى تقلب حياتنا الرقمية رأساً على عقب، ولكن تفاعلاتنا مع الذكاء الاصطناعي على وشك أن تصبح مادية. يمكن للروبوتات الشبيهة بالبشر المدربة بنوع معين من الذكاء الاصطناعي لاستشعار عالمها والتفاعل معه، أن تساعد في المصانع ومحطات الفضاء ودور رعاية المسنين وما إلى ذلك.
تسلط ورقتان بحثيتان حديثتان في مجلة Science Robotics الضوء على كيف يمكن لهذا النوع من الذكاء الاصطناعي - المسمى التعلم المعزز - أن يجعل مثل هذه الروبوتات حقيقة واقعة.
يقول إيليا رادوسافوفيتش، عالم الكمبيوتر في جامعة كاليفورنيا، بيركلي: "لقد شهدنا تقدماً رائعاً للغاية في الذكاء الاصطناعي في العالم الرقمي باستخدام أدوات مثل GPT. لكنني أعتقد أن الذكاء الاصطناعي في العالم المادي لديه القدرة على أن يكون أكثر فعالية".
غالباً ما تستخدم البرامج الحديثة التي تتحكم في حركات الروبوتات ثنائية الأرجل ما يسمى بالتحكم التنبؤي القائم على الأنموذج. وقد أدى ذلك إلى أنظمة متطورة للغاية، مثل روبوت أطلس الذي يؤدي رياضة الباركور من شركة بوسطن ديناميكس. لكن أدمغة الروبوتات هذه تتطلب قدراً لا بأس به من الخبرة البشرية للبرمجة، ولا تتكيف جيداً مع المواقف غير المألوفة. قد يثبت التعلم المعزز أنه نهج أفضل، نذكر أن هذا النوع من التعلم المسمى RL، يعتمد على تعليم الذكاء الاصطناعي من خلال التجربة والخطأ على أداء تسلسلات من الإجراءات.
يقول توماس هارنوغا، عالم الكمبيوتر في شركة Google DeepMind والمؤلف المشارك لإحدى أوراق Science Robotics: "أردنا أن نرى إلى أي مدى يمكننا دفع التعلم المعزز في الروبوتات الحقيقية". اختار هارنوغا وزملاؤه تطوير برنامج لروبوت لعبة يبلغ ارتفاعه 20 بوصة يسمى OP3، من صنع شركة Robotis. لم يكن الفريق يريد تعليم OP3 المشي فحسب، بل أراد أيضاً منه أن يلعب كرة القدم مع خصم واحد.
يقول جاي ليفر من شركة غوغل ديب مايند، وهو أحد مؤلفي البحث: "كرة القدم بيئة جيدة لدراسة التعلم المعزز العام". ويتطلب ذلك التخطيط والمرونة والاستكشاف والتعاون والمنافسة.
يقول هارنوغا إن حجم الروبوتات "سمح لنا بالتكرار بسرعة"، لأن الروبوتات الأكبر حجماً يصعب تشغيلها وإصلاحها. وقبل نشر برنامج التعلم الآلي في الروبوتات الحقيقية - والتي يمكن أن تنكسر عندما تسقط - درب الباحثون البرنامج على الروبوتات الافتراضية، وهي تقنية تُعرف باسم نقل المحاكاة إلى الواقع.
جاء تدريب الروبوتات الافتراضية على مرحلتين. في المرحلة الأولى، درب الفريق أحد أدوات الذكاء الاصطناعي باستخدام التعلم الآلي لمجرد رفع الروبوت الافتراضي عن الأرض، وآخر لتسجيل الأهداف دون السقوط. كمدخلات، تلقت أدوات الذكاء الاصطناعي بيانات بما في ذلك مواضع وحركات مفاصل الروبوت، ومن الكاميرات الخارجية، تلقت مواضع كل شيء آخر في اللعبة. (في طبعة مسبقة نُشرت مؤخراً، أنشأ الفريق نسخة من النظام تعتمد على رؤية الروبوت الخاصة). كان على الذكاء الاصطناعي إخراج مواضع مفصلية جديدة. إذا كان أداء الروبوتات جيداً، يعمل الفريق على تحديث معلماتهم الداخلية لتشجيع المزيد من نفس السلوك. في المرحلة الثانية، درب الباحثون الذكاء الاصطناعي على تقليد كل من أدوات الذكاء الاصطناعي الأولية وتسجيل الأهداف ضد خصوم متقاربين (نسخ من نفس الروبوت).
لإعداد برنامج التحكم، المسمى وحدة التحكم، للروبوتات في العالم الحقيقي، قام الباحثون بتنويع جوانب المحاكاة، بما في ذلك الاحتكاك وتأخيرات المستشعر وتوزيع كتلة الجسم. كما كافأوا أدوات الذكاء الاصطناعي ليس فقط على تسجيل الأهداف ولكن أيضاً على أشياء أخرى، مثل تقليل عزم الركبة لتجنب الإصابة.
وقد سارت الروبوتات الحقيقية التي اختبرت باستخدام برنامج التحكم RL بسرعة أكبر مرتين تقريباً، واستدارت بسرعة أكبر ثلاث مرات، واستغرقت أقل من نصف الوقت للنهوض مقارنة بالروبوتات التي تستخدم وحدة التحكم النصية التي صنعتها الشركة. ولكن ظهرت أيضاً مهارات أكثر تقدماً، مثل ربط الحركات بسلاسة. يقول رادوسافوفيتش، الذي لم يكن جزءاً من البحث: "كان من الرائع حقاً أن نرى مهارات حركية أكثر تعقيداً يتعلمها الروبوتات". ولم يتعلم المتحكم الحركات الفردية فحسب، بل تعلم أيضاً التخطيط المطلوب للعب اللعبة، مثل معرفة كيفية الوقوف في طريق تسديدة الخصم.
يقول جونهو لي، عالم الروبوتات في المعهد الفيدرالي السويسري للتكنولوجيا في زيورخ: "في نظري، فإن الورقة البحثية عن كرة القدم مذهلة. لم نشهد أبداً مثل هذه المرونة من الروبوتات على شكل البشر".
ولكن ماذا عن الروبوتات البشرية بحجم الإنسان الطبيعي؟ في ورقة بحثية حديثة أخرى، عمل رادوسافوفيتش مع زملائه لتدريب وحدة تحكم لروبوت بشري أكبر. يبلغ طول هذا الروبوت حوالي خمسة أقدام وله ركبتان تنحنيان إلى الخلف مثل النعامة. كان نهج الفريق مشابهاً لنهج Google Deep Mind. استخدم كلا الفريقين أدمغة كمبيوترية تُعرف باسم الشبكات العصبية، لكن رادوسافوفيتش استخدم نوعاً متخصصاً يسمى المحول، وهو النوع الشائع في نماذج اللغة الكبيرة مثل تلك التي تعمل على تشغيل ChatGPT.
بدلاً من استيعاب الكلمات وإخراج المزيد من الكلمات، أخذ الأنموذج 16 زوجاً من الملاحظة والفعل - ما استشعره الروبوت وفعله خلال اللقطات الست عشرة السابقة من الوقت، والتي تغطي ما يقرب من ثلث الثانية - وأخرج فعله التالي. لتسهيل التعلم، تعلم أولاً بناءً على ملاحظات مواضع المفاصل الفعلية وسرعتها، قبل استخدام الملاحظات مع الأصوات الخارجية المضافة، وهي مهمة أكثر واقعية. ولتمكين نقل المحاكاة إلى الواقع بشكل أكبر، قام الباحثون بإضفاء طابع عشوائي قليلاً على جوانب جسم الروبوت الافتراضي وإنشاء مجموعة متنوعة من التضاريس الافتراضية، بما في ذلك المنحدرات والكابلات المسببة للتعثر واللفائف الفقاعية.
بعد التدريب في العالم الرقمي، قام المتحكم بتشغيل روبوت حقيقي لمدة أسبوع كامل من الاختبارات في الخارج - مما منع الروبوت من السقوط حتى مرة واحدة. وفي المختبر، قاوم الروبوت القوى الخارجية مثل كرة تمرين قابلة للنفخ ألقيت عليه. كما تفوق المتحكم على المتحكم غير المتعلم آلياً من الشركة المصنعة، حيث عبر بسهولة مجموعة من الألواح على الأرض. وبينما تعطل المتحكم الافتراضي أثناء محاولة تسلق خطوة، تمكن المتحكم الواقعي من معرفة ذلك، على الرغم من أنه لم ير مثل تلك الخطوات أثناء التدريب.
أصبح التعلم التعزيزي للروبوتات ذات الأرجل الأربع شائعاً في السنوات القليلة الماضية، وتُظهر هذه الدراسات نفس التقنيات التي تعمل الآن مع الروبوتات ثنائية الأرجل. يقول بولكيت أغراوال، عالم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا: "هذه الأوراق البحثية إما متساوية أو تجاوزت وحدات التحكم المحددة يدوياً - إنها تمثل نقطة تحول. وبفضل قوة البيانات، سيكون من الممكن إطلاق العنان للعديد من القدرات الأخرى خلال فترة زمنية قصيرة نسبياً".
قد تحتاج روبوتات الذكاء الاصطناعي في المستقبل إلى قوة نظام بيركلي ومهارة نظام ديب مايند من غوغل. وتشتمل كرة القدم في العالم الحقيقي على كليهما. ووفقاً لليفر، فإن كرة القدم "كانت تحدياً كبيراً للروبوتات والذكاء الاصطناعي لبعض الوقت".
----