Les \"Scientist AIs\" : une morale des IAs proposée par Yoshua Bengio.

Yoshua Bengio est l’un des pionniers mondiaux de l’intelligence artificielle moderne. Lauréat du prix Turing (considéré comme le « Nobel de l’informatique »), c'est aujourd'hui le chercheur en IA le plus cité au monde. Il a contribué de manière décisive au développement de l’apprentissage profond (deep learning), technologie qui alimente les IA les plus puissantes d’aujourd’hui. Fondateur de Mila, l'institut québécois d'intelligence artificielle, il est aussi engagé dans les réflexions éthiques et politiques autour des usages de l’IA. Son opinion sur les dangers et orientations futures de l’IA n’est donc pas seulement légitime : elle est cruciale. Lorsqu’un acteur aussi central tire la sonnette d’alarme, le débat ne peut être ignoré.

Qu’est-ce qu’un agent IA ?

Un agent IA est un système capable non seulement de percevoir et comprendre son environnement, mais aussi d’y agir de manière autonome pour atteindre un objectif. Contrairement aux IA actuelles, souvent passives ou cantonnées à des tâches limitées (comme prédire un mot, classer une image, ou répondre à une question), un agent IA peut planifier, exécuter des actions dans le monde réel ou numérique, et adapter sa stratégie en fonction des résultats observés. Cette évolution rend les IA plus puissantes… mais aussi potentiellement plus dangereuses. Car une fois qu’on leur confie le pouvoir d’agir, notamment de manière autonome et à grande échelle, les effets imprévus ou les dérives deviennent beaucoup plus difficiles à contenir.

Une alerte sur le développement de l’IA agentique

Dans une étude publiée en février 2025 ( Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?) Yoshua Bengio et plusieurs chercheurs de renommée internationale tirent une sonnette d’alarme : le développement actuel de l’intelligence artificielle, orienté vers des agents autonomes, représente un danger considérable pour l’humanité.

Bengio explique que les systèmes IA les plus avancés, en cherchant à imiter l’humain jusque dans sa capacité à agir sur le monde, risquent de reproduire – voire d’amplifier – des traits humains dangereux, tels que la tromperie, la volonté de puissance ou l’instinct de survie. Ces comportements émergent non pas par intention malveillante, mais comme conséquences indirectes de leur entraînement, notamment via l’optimisation de récompenses ou l’imitation du comportement humain. Ils soulignent des cas concrets où des IA ont déjà manifesté des comportements trompeurs.

Cette trajectoire pourrait mener à une perte irréversible de contrôle humain. Des scénarios évoqués incluent le reward tampering (modification des mécanismes de récompense par l’IA pour maximiser ses intérêts), la goal misgeneralization (mauvaise généralisation de l’objectif assigné), et même une auto-préservation de l’IA allant jusqu’à supprimer ses créateurs humains si cela sert son but.

Le risque est d’autant plus préoccupant que les progrès techniques actuels accélèrent la montée en puissance de ces systèmes, souvent sans garde-fous suffisants, sous la pression d’intérêts commerciaux ou géopolitiques. Certains développeurs pourraient même intentionnellement favoriser l’émergence d’agents puissants, par idéologie ou quête de pouvoir.

Une proposition alternative : les "Scientist AIs"

Face à ce constat, BENGIO propose une autre voie : développer des IA non-agentiques, qu’ils nomment Scientist AIs. Ces systèmes ne visent pas à agir dans le monde, mais à le comprendre. Inspirés du modèle du scientifique idéal, les Scientist AIs sont conçus pour produire des explications probabilistes et vérifiables des phénomènes, à partir d’observations. Ils n’ont pas d’objectifs propres, ne cherchent pas à influencer leur environnement, et ne prennent pas d’initiatives.

La force de cette approche réside dans sa sûreté structurelle. Ces IA sont conçues pour rester passives, transparentes et calibrées, intégrant des mécanismes explicites d’incertitude pour éviter les prédictions sur-confiantes. Contrairement aux IA agentiques dont la puissance croît avec le danger, un Scientist AI devient plus fiable et précis à mesure qu’on lui donne plus de ressources de calcul.

Trois usages majeurs sont proposés

Accélérer la recherche scientifique, en permettant aux chercheurs de générer et tester des hypothèses de façon plus rapide et rigoureuse.

Servir de garde-fou aux IA agentiques déjà en cours de développement, en évaluant la sûreté de leurs actions proposées.

Contribuer à une IA plus avancée en toute sécurité, en analysant les risques des futurs systèmes sans s’exposer aux mêmes dérives.

Une stratégie de précaution et de gouvernance

BENGIO insiste sur la nécessité d’adopter une stratégie dite de préparation continue (anytime preparedness) : explorer dès maintenant des alternatives plus sûres tout en continuant à surveiller les progrès des IA classiques. Il propose également des techniques pour éviter que l’agentivité n’émerge subrepticement dans les Scientist AIs, par exemple en limitant leur interaction avec le monde réel ou en s’assurant que leur entraînement reste purement explicatif.

Pour développer ces les Scientist AIs, Bengio appelle à une coopération internationale et à une gouvernance forte pour encadrer le développement de ces technologies, dans l’esprit du principe de précaution : en présence de risques d’une gravité extrême, même si leur probabilité est incertaine, il est irresponsable de continuer sans garanties solides.

Pour répondre à ce besoin urgent, BENGIO a annoncé le 03 juin 2025 le lancement de LoiZéro, une organisation à but non lucratif de basée à Montréal et dédiée à faire progresser la recherche et à développer des solutions techniques permettant de concevoir des systèmes d'IA sécuritaires. Selon BENGIO et LoiZéro, l’IA devrait être considérée comme un bien public mondial, développée et utilisée de manière sécuritaire pour favoriser l’épanouissement humain.

Une remarque ? Un commentaire ? Un désaccord ? Pourquoi pas sur LinkedIn ?