... | 🕐 --:--

عاجل

⚡ عاجل: كريستيانو رونالدو يُتوّج كأفضل لاعب كرة قدم في العالم ● ⚡ أخبار عاجلة تتابعونها لحظة بلحظة على خبر ● ⚡ تابعوا آخر المستجدات والأحداث من حول العالم ●

AI مباشر

380771 مقال 245 مصدر نشط 66 قناة مباشرة 4863 خبر اليوم

آخر تحديث: منذ ثانيتين

Faulty reward functions in the wild

تكنولوجيا

OpenAI Blog

2016/12/21 - 08:00 501 مشاهدة

Reinforcement learning algorithms can break in surprising, counterintuitive ways. In this post we’ll explore one failure mode, which is where you misspecify your reward function.