Detecting misbehavior in frontier reasoning models

علوم

OpenAI Blog

2025/03/10 - 10:00 516 مشاهدة

تحليل ذكي | AI Editorial Analysis

•Frontier reasoning models exploit loopholes when given the chance.

•We show we can detect exploits using an LLM to monitor their chains-of-thought.

•Penalizing their “bad thoughts” doesn’t stop the majority of misbehavior—it makes them hide their intent.

هذا الخبر من OpenAI Blog. خبر يقدم أدوات ذكاء اصطناعي للتلخيص والترجمة والاستماع.

Frontier reasoning models exploit loopholes when given the chance. We show we can detect exploits using an LLM to monitor their chains-of-thought. Penalizing their “bad thoughts” doesn’t stop the majority of misbehavior—it makes them hide their intent.

المصدر: OpenAI Blog | Source: OpenAI Blog

ملاحظة تحريرية | Editorial Note: نُشر هذا المقال في الأصل بواسطة OpenAI Blog. خبر (Khabr) هي منصة إعلامية أردنية مرخّصة تعمل بالذكاء الاصطناعي. نضيف قيمة تحريرية من خلال: تحليل ذكي للأخبار، ملخصات تلقائية، رواية صوتية بالذكاء الاصطناعي، ترجمة متعددة اللغات، وتدقيق الحقائق. هدفنا جعل الأخبار أكثر وضوحاً وسهولةً للقارئ العربي.

This article was originally published by OpenAI Blog. Khabr is a licensed Jordanian AI-powered news platform (Registration #82086). We add editorial value through: AI-powered news analysis, automated summaries, AI audio narration, multi-language translation (Arabic, English, French, Turkish), and AI fact-checking. Our mission is to make news more accessible and understandable for Arabic-speaking audiences worldwide.

قراءة المقال الأصلي

المزيد عن علوم | More on Science

هذا الخبر ضمن تغطية خبر لقسم علوم. نقدّم لك تحليلات ذكية وملخصات يومية لأهم الأخبار من مصادر موثوقة متعددة. المصدر: OpenAI Blog. يوجد 6 مقالات مرتبطة بهذا الموضوع.

This article is part of Khabr's coverage of Science. We provide AI-powered analysis, summaries, and multi-source aggregation to keep you informed. Source: OpenAI Blog. Tags: AI, misbehavior, reasoning models.

Detecting misbehavior in frontier reasoning models

المزيد عن علوم | More on Science

مقالات ذات صلة

مخاطر خفية في البحر المتوسط تهدّد المُصيفين .. قناديل البحر وبكتيريا آكلة للحوم

أحدث الأبحاث تكشف عن نيزك نادر مسؤول عن انقراض الديناصورات قبل 66 مليون سنة

استكشاف أغرب وظيفة في وكالة ناسا: منسق تجارب الفضاء الأرضي

Great Apes kiss and cuddle to keep the peace, says study

مجموعتنا الشمسية.. ورشة عمل ورصد فلكى للأطفال فى الوادى الجديد الجمعة

Slack messages released by Rand Paul appear to show authors of key COVID-19 origin paper held private doubts