Où les éditeurs d’IA trouvent-ils les montagnes de textes nécessaires à leur entraînement ?
•Bigger is better : l’aphorisme a beau être inélégant, c’est une des clefs du succès de ChatGPT.
•Outre l’accroissement phénoménal du nombre de neurones artificiels, il a fallu, pour les entraîner, dénicher une masse de textes équivalente à plusieurs millions de livres, au bas mot.
•En se lançant à leur tour dans la course au gigantisme, les concurrents d’OpenAi ont eux aussi téléchargé d’immenses piles de mots à la provenance mystérieuse, voire douteuse.
هذا الخبر من Le Monde. خبر يقدم أدوات ذكاء اصطناعي للتلخيص والترجمة والاستماع.
Bigger is better : l’aphorisme a beau être inélégant, c’est une des clefs du succès de ChatGPT. Outre l’accroissement phénoménal du nombre de neurones artificiels, il a fallu, pour les entraîner, dénicher une masse de textes équivalente à plusieurs millions de livres, au bas mot. En se lançant à leur tour dans la course au gigantisme, les concurrents d’OpenAi ont eux aussi téléchargé d’immenses piles de mots à la provenance mystérieuse, voire douteuse. Dans le descriptif de leurs intelligences artificielles (IA), OpenAI et Google présentent ces bibliothèques numériques en des termes lapidaires : il s’agirait de piles de pages Internet et d’écrits dont les auteurs ont été dédommagés. Chez Anthropic, la fiche consacrée à Claude Sonnet 4.6 est même complètement vide quand est abordée la question des données d’entraînement. Ce grand flou s’explique en partie par les tensions liées aux procès, en cours, des auteurs qui accusent les créateurs d’IA de violer leurs droits. D’anciens articles de recherche d’Anthropic, Meta, Google et OpenAI laissent toutefois entrevoir quelques-unes des sources qui ont abreuvé les premières versions de leurs modèles. Parmi elles : l’encyclopédie Wikipedia, qui agglomère quelques milliards de mots, et Commoncrawl, un catalogue de 300 milliards de pages Internet aspirées depuis 2008 – dont des articles de journaux en principe réservés aux abonnés, malgré les promesses de retrait faites à leurs éditeurs, révélaient en novembre dernier une enquête du média The Atlantic. Il vous reste 72.47% de cet article à lire. La suite est réservée aux abonnés.المصدر: Le Monde | Source: Le Monde
ملاحظة تحريرية | Editorial Note: نُشر هذا المقال في الأصل بواسطة Le Monde. خبر (Khabr) هي منصة إعلامية أردنية مرخّصة تعمل بالذكاء الاصطناعي. نضيف قيمة تحريرية من خلال: تحليل ذكي للأخبار، ملخصات تلقائية، رواية صوتية بالذكاء الاصطناعي، ترجمة متعددة اللغات، وتدقيق الحقائق. هدفنا جعل الأخبار أكثر وضوحاً وسهولةً للقارئ العربي.
This article was originally published by Le Monde. Khabr is a licensed Jordanian AI-powered news platform (Registration #82086). We add editorial value through: AI-powered news analysis, automated summaries, AI audio narration, multi-language translation (Arabic, English, French, Turkish), and AI fact-checking. Our mission is to make news more accessible and understandable for Arabic-speaking audiences worldwide.




