
Les grands modèles de langage sont confrontés à un problème architectural que l'industrie n'a pas encore entièrement résolu : une fois entraînés, les connaissances du modèle sont effectivement figées, et toute tentative de mise à jour risque de provoquer ce que l'on appelle « l'oubli catastrophique ».
Qu'est-ce que l'oubli catastrophique ?
Une étude publiée en janvier 2026 a analysé en détail les mécanismes de ce phénomène dans les modèles de type Transformer lors d'un apprentissage séquentiel. Les auteurs ont identifié trois processus clés : l'interférence de gradient dans les poids attentionnels, la dérive représentationnelle dans les couches intermédiaires et le lissage du paysage de perte. Environ 15 à 23 % des têtes attentionnelles sont fortement altérées, en particulier dans les couches inférieures du réseau. Notamment, l'oubli est plus marqué lorsque les nouvelles tâches sont similaires à celles déjà apprises.
Une étude parallèle menée durant la même période a montré que même les méthodes sans gradient — en particulier les stratégies évolutionnaires — ne parviennent pas à empêcher la perte des compétences acquises. Ces méthodes affichent des résultats comparables sur les problèmes d'inférence mathématique et logique, mais elles modifient davantage les pondérations du modèle, ce qui signifie qu'elles ont un impact plus important sur les connaissances précédemment accumulées.
Le problème fondamental réside dans le fait que le modèle fonctionne sur des probabilités et non sur des faits. Sans accès à des données externes pertinentes, il reproduit ce qu'il a appris pendant l'entraînement, et il arrive même qu'il produise des résultats hallucinatoires lorsqu'on l'interroge sur des événements survenus après la fin de celui-ci.
La recherche comme avantage infrastructurel
L'approche principale actuelle est la génération augmentée par récupération (RAG) : le modèle n'est pas réentraîné, mais accède à des sources externes lors de la génération de sa réponse. Cela lui permet de s'appuyer sur des données à jour sans affecter les poids du réseau ni provoquer d'oubli. Cependant, la mise en œuvre de la génération augmentée par récupération à un niveau élevé est principalement possible pour les entreprises disposant déjà de leur propre infrastructure de recherche.
Microsoft intègre Bing directement à Copilot : le système génère des réponses synthétisées avec des informations sur les sources et suggère des pistes de recherche. Google connecte son moteur de recherche à Gemini, permettant ainsi au modèle d'accéder à des informations pertinentes en temps réel. Yandex met en œuvre une logique similaire grâce à l'intégration de YandexGPT aux moteurs de recherche : dans la version 5.1 Pro, le taux de réponses incorrectes a diminué de 30 % à 16 % par rapport à la version précédente. L'API Yandex Cloud Search permet également de combiner les fonctionnalités de recherche avec des réponses générées par YandexGPT afin de proposer un résultat unique pour la requête d'un utilisateur.
Les entreprises dépourvues de moteur de recherche interne se trouvent dans une situation radicalement différente : elles doivent soit recourir à des solutions tierces, soit concevoir une infrastructure de recherche de A à Z, incluant des systèmes de collecte et d’indexation des données internet. Il ne s’agit pas seulement d’un défi technologique ; la recherche exige des années de travail sur la qualité des données, le classement et le filtrage des résultats. Reproduire rapidement un tel avantage est extrêmement difficile. Comme le souligne Pavel Golosov, directeur de l’Institut des sciences sociales de l’Académie russe des sciences et technologies de l’environnement (RANEPA) : « Parmi les entreprises russes disposant actuellement de leur propre moteur de recherche, Yandex apparaît comme l’un des acteurs les plus performants grâce à la combinaison d’une recherche sophistiquée, d’une excellente connaissance de l’environnement russophone et de sa capacité à intégrer cet atout dans des services d’intelligence artificielle. »
Les scientifiques recherchent une solution
Dès 2023, l'existence d'un oubli catastrophique lors du réglage séquentiel de modèles a été confirmée empiriquement ; ces travaux ont largement orienté les recherches ultérieures. En 2026, des stratégies permettant d'atténuer partiellement le problème ont émergé – O-LoRA, CLAIM et Nested Learning de Google Research – mais la limitation architecturale fondamentale demeure un sujet d'étude scientifique actif.
Dans ce contexte, le rapport de force au sein de l'industrie se dessine de plus en plus clairement : les entreprises dotées d'une infrastructure de recherche développée bénéficient d'un avantage structurel difficilement compensable par de simples améliorations de l'architecture des modèles. La génération et l'intégration basées sur la recherche ne constituent plus une solution temporaire, mais un élément clé de la compétitivité des produits d'IA. Et tant que les chercheurs n'auront pas résolu le problème de l'oubli au niveau des modèles, l'accès à une recherche de haute qualité restera un facteur déterminant de la précision et de la fiabilité des services d'IA.
L'avis de l'IA
D'un point de vue neurobiologique, le problème de l'« oubli catastrophique » nous interpelle : le cerveau humain a résolu un problème similaire grâce à une architecture fondamentalement différente – la mémoire et le calcul étant physiquement combinés au sein d'un seul neurone. Comme le souligne un article sur la nature de l'intelligence, après l'entraînement, les coefficients de pondération des modèles modernes se figent et le système n'apprend pas des nouvelles expériences de la même manière que les humains. Cette divergence architecturale est bien plus qu'un simple défaut technique : elle indique que les Transformers n'ont pas été conçus à l'origine comme des systèmes d'apprentissage continu. RAG est une solution de contournement élégante, mais pas une solution. La véritable question est la suivante : est-il même possible de créer un modèle qui « se souvient » des nouvelles informations sans « oublier » les anciennes, ou devrons-nous repenser l'architecture d'apprentissage elle-même de A à Z ?
