Où les éditeurs d’IA trouvent-ils les montagnes de textes nécessaires à leur entraînement ?
✨ AI Summary
🔊 جاري الاستماع
Bigger is better : l’aphorisme a beau être inélégant, c’est une des clefs du succès de ChatGPT. Outre l’accroissement phénoménal du nombre de neurones artificiels, il a fallu, pour les entraîner, dénicher une masse de textes équivalente à plusieurs millions de livres, au bas mot. En se lançant à leur tour dans la course au gigantisme, les concurrents d’OpenAi ont eux aussi téléchargé d’immenses piles de mots à la provenance mystérieuse, voire douteuse. Dans le descriptif de leurs intelligences artificielles (IA), OpenAI et Google présentent ces bibliothèques numériques en des termes lapidaires : il s’agirait de piles de pages Internet et d’écrits dont les auteurs ont été dédommagés. Chez Anthropic, la fiche consacrée à Claude Sonnet 4.6 est même complètement vide quand est abordée la question des données d’entraînement. Ce grand flou s’explique en partie par les tensions liées aux procès, en cours, des auteurs qui accusent les créateurs d’IA de violer leurs droits. D’anciens articles de recherche d’Anthropic, Meta, Google et OpenAI laissent toutefois entrevoir quelques-unes des sources qui ont abreuvé les premières versions de leurs modèles. Parmi elles : l’encyclopédie Wikipedia, qui agglomère quelques milliards de mots, et Commoncrawl, un catalogue de 300 milliards de pages Internet aspirées depuis 2008 – dont des articles de journaux en principe réservés aux abonnés, malgré les promesses de retrait faites à leurs éditeurs, révélaient en novembre dernier une enquête du média The Atlantic. Il vous reste 72.47% de cet article à lire. La suite est réservée aux abonnés.





