🕐 --:--
-- --
عاجل
⚡ عاجل: كريستيانو رونالدو يُتوّج كأفضل لاعب كرة قدم في العالم ⚡ أخبار عاجلة تتابعونها لحظة بلحظة على خبر ⚡ تابعوا آخر المستجدات والأحداث من حول العالم
⌘K
AI مباشر
381432 مقال 245 مصدر نشط 66 قناة مباشرة 5012 خبر اليوم
آخر تحديث: منذ 0 ثانية

Reinforcement learning with prediction-based rewards

تكنولوجيا
OpenAI Blog
2018/10/31 - 07:00 501 مشاهدة
We’ve developed Random Network Distillation (RND), a prediction-based method for encouraging reinforcement learning agents to explore their environments through curiosity, which for the first time exceeds average human performance on Montezuma’s Revenge.
مشاركة:

مقالات ذات صلة

AI
يا هلا! اسألني أي شي 🎤