Où les éditeurs d’IA trouvent-ils les montagnes de textes nécessaires à leur entraînement ?

تكنولوجيا

Le Monde

2026/04/19 - 06:30 501 مشاهدة

Bigger is better : l’aphorisme a beau être inélégant, c’est une des clefs du succès de ChatGPT. Outre l’accroissement phénoménal du nombre de neurones artificiels, il a fallu, pour les entraîner, dénicher une masse de textes équivalente à plusieurs millions de livres, au bas mot. En se lançant à leur tour dans la course au gigantisme, les concurrents d’OpenAi ont eux aussi téléchargé d’immenses piles de mots à la provenance mystérieuse, voire douteuse. Dans le descriptif de leurs intelligences artificielles (IA), OpenAI et Google présentent ces bibliothèques numériques en des termes lapidaires : il s’agirait de piles de pages Internet et d’écrits dont les auteurs ont été dédommagés. Chez Anthropic, la fiche consacrée à Claude Sonnet 4.6 est même complètement vide quand est abordée la question des données d’entraînement. Ce grand flou s’explique en partie par les tensions liées aux procès, en cours, des auteurs qui accusent les créateurs d’IA de violer leurs droits. D’anciens articles de recherche d’Anthropic, Meta, Google et OpenAI laissent toutefois entrevoir quelques-unes des sources qui ont abreuvé les premières versions de leurs modèles. Parmi elles : l’encyclopédie Wikipedia, qui agglomère quelques milliards de mots, et Commoncrawl, un catalogue de 300 milliards de pages Internet aspirées depuis 2008 – dont des articles de journaux en principe réservés aux abonnés, malgré les promesses de retrait faites à leurs éditeurs, révélaient en novembre dernier une enquête du média The Atlantic. Il vous reste 72.47% de cet article à lire. La suite est réservée aux abonnés.

قراءة المقال الأصلي

Où les éditeurs d’IA trouvent-ils les montagnes de textes nécessaires à leur entraînement ?

مقالات ذات صلة

طالب بجامعة المنصورة: برنامج سفراء مايكروسوفت العالمي يفتح آفاقًا جديدة أمام الطلاب المتميزين

Guerre en Moyen-Orient : « Nous allons vous détruire », l’Iran attaque deux navires qui tentaient de traverser le détroit d’Ormuz

رغم قدمها.. الهواتف الأرضية تعود كخيار موثوق في الطوارئ

Gamer bakes their dead Nvidia GTX 1080 GPU in 190-degree oven

İşgalci İsrailliler, Batı Şeria'da Filistinlilere ait 150 hayvanı çaldı

Dubai opens 13 mosques as part of Dh162 million expansion drive