بالتعاون مع

AIQOM

في التعلم المعزز يتعلم الوكيل كيفية الوصول بنجاح إلى هدف داخل بيئة ديناميكية وربما معقدة، وهذا النوع الفرعي للتعلم الآلي هو نموذج تعلم سلوكي يهتم بالكيفية التي يجب أن يتصرف بها النظام (أو تصرفه) داخل حالة البيئة لكسب المكافآت التي يمكن أن تكون حاسمة لتقدم النظام إلى حالة أخرى من البيئة، وتعتمد هذه التقنية نظام التغذية الراجعة للتعلم حيث يتم إعطاء الخوارزمية معلومات حول ما إذا كانت خياراتها دقيقة أم لا لتدل المستخدم إلى أفضل نتيجة ممكنة.

Aiqom-Figure2-05.png

1. السيارات ذاتية القيادة: في هذا التطبيق يمكن توظيف التعلم المعزز في مهام: كتخطيط الحركة، وتحديد المسار الديناميكي، وتحسين وحدة التحكم وغيرها. إذا نجحت مركبة ذاتية القيادة في تجاوز مركبة أخرى، فيمكن وضع سياسة تعلم للتجاوز ليس فقط لإكمال هذه المهمة عن طريق تجنب الاصطدام، ولكن أيضًا للعودة إلى سرعة آمنة. سياسات وقوف السيارات التلقائية قد تساعد على تمكين هذه التقنية وتوظيفها بشكلٍ واسع، وفي الأمثلة العملية سجلت شركات مثل "Wayve.ai " نجاحًا في استخدام التعلم المعزز لتدريب سيارة على القيادة.

2. تنظيم حركة المرور: استنادًا إلى نتائج ورقة بحثية بعنوان "النظام متعدد الوكلاء القائم على التعلم المعزز لشبكات التحكم في حركة مرور"، أثبت اختبار وحدة تحكم في إشارات المرور لحل مشاكل الازدحام المروري في بيئة محاكية أنها طريقة أفضل من الطرق التقليدية المستخدمة حاليًا للتحكم في حركة المرور. مثل هذه الأبحاث تفتح الباب أمام التطبيقات المحتملة للتعلم المعزز متعدد العوامل في تصميم أنظمة المرور.

3. الروبوتات: في مجال الروبوتات قد يثبت التعلم المعزز نفسه كطريقة ذات تطبيقات واسعة النطاق؛ إذ يمكن تدريب الروبوت على تعلم السياسات التي يمكنه من خلالها تعيين صور الفيديو الخام لإجراءات الروبوت، ثم توليد عزم دوران المحرك كناتج بعد معالجة الصور من خلال شبكة عصبونية التفافية.

4. ضبط إعدادات أنظمة الويب: مع ما لا يقل عن 100 معيار قابل للضبط في نظام ويب واحد، قد يتطلب ضبط الإعدادات عادةً خبرة عدة مشغلين متمرسين، وتكرار التجارب ودراسة الأخطاء؛ وقد ثبت أن التعلم المعزز مفيد في أتمتة هذه العملية كما هو موضح في ورقة "نهج التعلم المعزز لضبط الإعدادات التلقائي لنظام الويب عبر الإنترنت"، حيث تمثل هذه الورقة أول محاولة على الإطلاق في هذا المجال لأتمتة إعادة ضبط الإعدادات في نظام ويب متعدد المستويات في بيئة ديناميكية قائمة على الآلة الافتراضية.

aiqom artical image.jpg

5. الكيمياء: أثبت توظيف التعلم المعزز نجاحه في تحسين التفاعلات الكيميائية، متجاوزًا (من حيث الأداء) الخوارزميات المتقدمة الأخرى المستخدمة لهذا الغرض، وقد تم توضيح ذلك وشرح اختلافاته عن الآليات الاساسية في ورقة "تحسين التفاعلات الكيميائية باستخدام التعلم المعزز العميق". aiqom artical image 3.jpg

6. التوصيات المُخصصة: على الرغم من مواجهة أنظمة توصيات الأخبار السابقة لمشاكل ترجع لأسباب مختلفة كميل الإنسان إلى الشعور بالملل، والطبيعة المتسارعة للأخبار، وحقيقة أن احتساب نسبة النقر إلى الظهور لا ترسم صورة دقيقة لمعدل الاحتفاظ بالمستخدمين، إلا أن الأبحاث التي قام بها "Guanjie et al". عبر تطبيق أربع فئات للخصائص وهي: خواص المستخدم، وخواص السياق (المقابلة لخواص حالة البيئة)، وخواص أخبار المستخدم، وخواص الأخبار (كخواص العمل) عالجت بعض تلك المشاكل التي تواجهها أنظمة التوصية.

7. الألعاب: أصبح التعلم المعزز التقنية المفضلة لتوليد ذروة الأداء في الألعاب وحلّها، من خلال الجمع بين الشبكات العصبونية (التي حققت نجاحا كبيرًا في مجالات كالترجمة الآلية ورؤية الحاسوب) مع التعلم المعزز؛ وقد تم إنشاء برامج قوية مثل "AlphaGo" الشهير بواسطة "Deep Mind" حيث يشتهر هذا البرنامج بهزيمة أفضل اللاعبين في العالم في لعبة القو"Go".