... | 🕐 --:--
-- -- --
عاجل
⚡ عاجل: كريستيانو رونالدو يُتوّج كأفضل لاعب كرة قدم في العالم ⚡ أخبار عاجلة تتابعونها لحظة بلحظة على خبر ⚡ تابعوا آخر المستجدات والأحداث من حول العالم
⌘K
AI مباشر
213898 مقال 299 مصدر نشط 38 قناة مباشرة 7112 خبر اليوم
آخر تحديث: منذ 5 ثواني

Où les éditeurs d’IA trouvent-ils les montagnes de textes nécessaires à leur entraînement ?

تكنولوجيا
Le Monde
2026/04/19 - 06:30 501 مشاهدة
Bigger is better : l’aphorisme a beau être inélégant, c’est une des clefs du succès de ChatGPT. Outre l’accroissement phénoménal du nombre de neurones artificiels, il a fallu, pour les entraîner, dénicher une masse de textes équivalente à plusieurs millions de livres, au bas mot. En se lançant à leur tour dans la course au gigantisme, les concurrents d’OpenAi ont eux aussi téléchargé d’immenses piles de mots à la provenance mystérieuse, voire douteuse. Dans le descriptif de leurs intelligences artificielles (IA), OpenAI et Google présentent ces bibliothèques numériques en des termes lapidaires : il s’agirait de piles de pages Internet et d’écrits dont les auteurs ont été dédommagés. Chez Anthropic, la fiche consacrée à Claude Sonnet 4.6 est même complètement vide quand est abordée la question des données d’entraînement. Ce grand flou s’explique en partie par les tensions liées aux procès, en cours, des auteurs qui accusent les créateurs d’IA de violer leurs droits. D’anciens articles de recherche d’Anthropic, Meta, Google et OpenAI laissent toutefois entrevoir quelques-unes des sources qui ont abreuvé les premières versions de leurs modèles. Parmi elles : l’encyclopédie Wikipedia, qui agglomère quelques milliards de mots, et Commoncrawl, un catalogue de 300 milliards de pages Internet aspirées depuis 2008 – dont des articles de journaux en principe réservés aux abonnés, malgré les promesses de retrait faites à leurs éditeurs, révélaient en novembre dernier une enquête du média The Atlantic. Il vous reste 72.47% de cet article à lire. La suite est réservée aux abonnés.
مشاركة:

مقالات ذات صلة

AI
يا هلا! اسألني أي شي 🎤