أنس كمال الدين

التعلم المعزز هو مفهوم ذكاء اصطناعي مستوحى من علم النفس السلوكي

طور باحثون في جامعة جونز هوبكنز طريقة جديدة لتدريب الروبوتات التي تعمل بكفاءة على تحسين التعلم المعزز بأحدث خوارزميات الذكاء الاصطناعي، ونشروا دراستهم مؤخراً في مجلة IEEE Robotics and Automation Letters.

وأنشأ فريق البحث نهجاً جديداً للتعلم المعزز بالذكاء الاصطناعي، يسمى SPOT ، وهو نموذج مسمى بإيحاءٍ من مفهوم تدريب الكلاب.

ويقلل نموذجSPOT بشكل كبير من مقدار التدريب المطلوب في حالة الروبوتات، حيث ذكر المؤلف الرئيسي للدراسة أندرو هوندت في مقطع فيديو نشر على يوتيوب أن ما يستغرق عادةً شهرًا من التدريب يمكن إنجازه خلال يومين.



الروبوتات ذكية مثل خوارزميات التدريب على الذكاء الاصطناعي، لكن الذكاء الاصطناعي يفتقر إلى المحاكمة السليمة. فكيف تدرب الروبوت بكفاءة؟ يوفر إطار SPOT قيوداً منطقية تسرع التعلم وكفاءة المهام الروبوتية.

أكد الباحثون أنهم أثبتوا أن إطار SPOT فعّال لتدريب المهام طويلة المدى، وأن هذا هو النموذج الأول للتعلم المعزز باستخدام المحاكاة الناجحة للتحول الحقيقي المطبق على المهام متعددة الخطوات طويلة الأجل مثل تكديس الكتل وإنشاء الصفوف مع مراعاة انعكاس التقدم.

أخبار ذات صلة

خطة مبتكرة من ماسك لزيادة إيرادات تويتر
أبل تعتزم تقديم شاشة حاسوب ماك تعمل باللمس


في علم النفس السلوكي، التعزيز هو عاقبة ناتجة. على سبيل المثال، يمكن استخدام التربيت على رأس كلب بمودة وقول «كلب جيد» بنبرة صوت ممتعة كمكافأة إيجابية في تعزيز السلوكيات المرغوبة.

يُكافأ إطار Spotكلما أظهر الامتثال الجزئي للسلوك النهائي المطلوب، ويحرم ببساطة من المواقف التراجعية مع عدم وجود مكافآت.

وأفاد الباحثون بأن إطار SPOT يُكمل بنجاح تجارب المحاكاة لمجموعة متنوعة من المهام، مما يحسن معدل نجاح التجربة الأساسي من 13٪ إلى 100٪ عند تكديس 4 مكعبات، ومن 13٪ إلى 99٪ عند إنشاء صفوف من 4 مكعبات، ومن 84٪ إلى 95٪ عند تنظيف الألعاب المرتبة في أنماط عدائية.

الآن مع SPOT ، يمكن تدريب الروبوت على مهام متعدد الخطوات بشكل أكثر كفاءة من خوارزميات التعلم المعزز القائمة وحدها. وينتج عن تقاطع علم النفس السلوكي والذكاء الاصطناعي مناهج جديدة في خوارزميات التعلم الآلي مع نتائج محسّنة.