🕐 --:--
-- --
عاجل
⚡ عاجل: كريستيانو رونالدو يُتوّج كأفضل لاعب كرة قدم في العالم ⚡ أخبار عاجلة تتابعونها لحظة بلحظة على خبر ⚡ تابعوا آخر المستجدات والأحداث من حول العالم
⌘K
AI مباشر
383455 مقال 245 مصدر نشط 66 قناة مباشرة 5307 خبر اليوم
آخر تحديث: منذ 0 ثانية

Improving mathematical reasoning with process supervision

تكنولوجيا
OpenAI Blog
2023/05/31 - 07:00 501 مشاهدة
We've trained a model to achieve a new state-of-the-art in mathematical problem solving by rewarding each correct step of reasoning (“process supervision”) instead of simply rewarding the correct final answer (“outcome supervision”). In addition to boosting performance relative to outcome supervision, process supervision also has an important alignment benefit: it directly trains the model to produce a chain-of-thought that is endorsed by humans.
مشاركة:

مقالات ذات صلة

AI
يا هلا! اسألني أي شي 🎤