Et si la qualité des données valait mieux que leur quantité ? C'est le pari audacieux que défend Rémi Daudin, directeur scientifique de Forvia, l'équipementier automobile né de la fusion de Faurecia et HELLA. Physicien de formation, passé par la physique des particules, l'industrie pétrolière et l'automobile, il porte un projet qui bouscule les fondements mêmes du développement des grands modèles de langage (LLM) : les entraîner sur les fonds des bibliothèques nationales plutôt que sur le web ouvert.
« Les données du web, c'est de la soupe », résume-t-il sans détour. Publicités, opinions non sourcées, contenus dupliqués — les LLM actuels ingèrent en masse des informations de mauvaise qualité, ce qui les contraint à gonfler leurs paramètres pour absorber cette complexité. Résultat : des modèles lourds, coûteux, et potentiellement biaisés. « Si 10 % du corpus affirme que la Terre est plate, le modèle le répètera une fois sur dix », illustre-t-il. Sa solution ? Se tourner vers les bibliothèques. Un livre, contrairement à une page web, est un raisonnement construit, vérifié, légal. La Bibliothèque nationale de France, qui numérise ses collections depuis trente ans, compte dix millions d'œuvres. Selon Rémi Daudin, s'entraîner sur un tel corpus permettrait de produire des modèles 100 fois plus efficaces, plus petits, moins énergivores — et non biaisés.
Le projet, baptisé Mirandola — en référence à Jean Pic de la Mirandole, l'humaniste italien qui aspirait à tout savoir — se veut aussi un acte de souveraineté culturelle. À l'heure où les algorithmes américains façonnent l'information mondiale, l'idée est de redonner à l'Europe la maîtrise de ses valeurs et de sa vérité. L'Académie française, la BNF et des décideurs politiques seraient déjà sensibles à la démarche. Encore en phase d'amorçage, Mirandola cherche ses partenaires techniques — possiblement un acteur européen du LLM — pour une première phase estimée entre six et douze mois.
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.