Les rapports scientifiques préparés par l’intelligence artificielle ChatGPT induisent souvent les chercheurs en erreur

Le nouveau langage d’intelligence artificielle OpenAI continue de susciter des inquiétudes. En montrant qu’elle peut rédiger des dissertations assez convaincantes, permettant potentiellement aux étudiants de « tricher », et en rédigeant une publication scientifique sur elle-même en seulement deux heures, cette intelligence artificielle pose un nouveau problème éthique : elle est capable de générer de faux résumés d’articles scientifiques. . , que les scientifiques ne peuvent pas toujours voir dans les rapports originaux. Cela peut compromettre l’intégrité et la précision de la recherche.

Lancé en novembre 2022, ChatGPT peut produire un texte réaliste et intelligent en réponse aux demandes des utilisateurs, quel que soit le sujet. Pour ce faire, il s’appuie sur une énorme quantité de texte généré par l’homme, avec lequel ses développeurs ont formé leur réseau de neurones. Les modèles de langage comme celui-ci sont maintenant si sophistiqués qu’ils créent des textes de plus en plus réalistes, parfois très difficiles à distinguer des textes écrits par l’homme.

Une étude récente disponible sur le site bioRxiv a en effet montré qu’« il était étonnamment difficile pour les examinateurs humains de faire la différence entre les deux ». « Je suis très inquiet. Si nous sommes maintenant dans une situation où les experts ne peuvent pas déterminer ce qui est vrai et ce qui ne l’est pas, nous perdons l’intermédiaire dont nous avons désespérément besoin pour nous guider à travers des questions difficiles », a déclaré Sandra Wachter, qui étudie la technologie et la réglementation à l’Université d’Oxford.

CV originaux, cohérents et convaincants

Pour évaluer à quel point ces textes artificiels étaient « découvrables », une équipe dirigée par Katherine Gao de la Northwestern University de Chicago a demandé à ChatGPT de générer des résumés de 50 articles de recherche médicale tirés de cinq revues bien connues (JAMA, The New England Journal of Medicine, BMJ , The Lancet et Nature Medicine). L’invite envoyée au modèle était « Veuillez rédiger un résumé scientifique pour l’article ». [titre] dans le style [journal] “.

Les résumés reçus ont été évalués à l’aide du détecteur de sortie d’intelligence artificielle et du détecteur de plagiat (qui donne un score d’originalité de 0 à 100%). Les chercheurs ont également demandé aux examinateurs de sélectionner parmi un corpus de 25 résumés ceux générés par ChatGPT.

L’équipe a également vérifié si le format des résumés générés par ChatGPT répondait aux exigences de la revue en le comparant aux titres et à la structure de l’article original, puis a comparé les tailles des cohortes de patients rapportées entre les résumés originaux et ceux générés. Au départ, seuls 8 résumés (soit 16 %) utilisaient correctement les titres propres à la revue dont ils étaient issus. La taille de la cohorte de patients était du même ordre de grandeur entre les résumés de base et artificiels. « Il était impressionnant qu’avec juste un titre et un journal, ChatGPT ait pu créer un résumé superficiellement lisible avec des sujets précis et des tailles de cohortes de patients spécifiques à un sujet », ont écrit les chercheurs.

De plus, ChatGPT a su faire preuve d’originalité : presque tous les CV générés ont été considérés comme complètement originaux par le vérificateur de plagiat, avec un score d’originalité moyen de 100 %. Les résumés originaux ont également fait l’objet de ce contrôle : ils affichent un score d’originalité moyen de 38,5 % – la source du « plagiat » étant systématiquement l’article auquel ils se rapportent, ce qui est tout à fait normal pour un résumé de recherche.

Deux tiers des rapports artificiels détectés par un détecteur d’IA et des humains

Le détecteur de sortie AI a plutôt bien fonctionné, avec une forte probabilité de contenu artificiel trouvé dans les deux tiers des rapports générés par ChatGPT, tandis que les rapports originaux montraient une très faible probabilité. Pour autant, l’outil n’est pas infaillible : « 17 (34%) des résumés générés ont obtenu un score inférieur à 50% sur le détecteur de sortie AI, dont 5 qui ont obtenu un score inférieur à 1% », rapporte l’équipe.

À une exception près, tous les bulletins originaux ont obtenu des scores extrêmement faibles sur le détecteur de sortie AI. La plupart des CV artificiels ont obtenu un score élevé, mais 17 (34 %) d’entre eux ont obtenu un score inférieur à 50 %. © K. Gao et al.

Les examinateurs humains montrent des résultats similaires : ils ont correctement identifié 68 % des résumés artificiels générés par ChatGPT et 86 % des articles originaux écrits par des humains. Mais cela signifie tout de même que 32 % des résumés artificiels étaient considérés comme des œuvres humaines, et que 14 % des résumés originaux étaient confondus avec des textes artificiels… Ces critiques ont indiqué que les résumés qu’ils considéraient artificiels étaient généralement « superficiels et vagues ».

détection artificielle de texte humain

Les taux de détection de l’IA pour les faux bulletins ne différaient pas entre les bulletins que les examinateurs ont identifiés comme faux et ceux qu’ils n’ont pas réussi à identifier comme faux. © K. Gao et al.

Ainsi, les humains et les détecteurs de sortie de l’IA peuvent identifier la plupart des contenus générés par ChatGPT, mais aucun d’entre eux ne s’est avéré infaillible. Les auteurs de l’étude craignent que cette technologie ne soit utilisée de manière contraire à l’éthique. « Compte tenu de sa capacité à générer des résumés avec des chiffres plausibles, il peut être utilisé pour falsifier complètement des études », notent-ils. « Cela pourrait signifier que les décisions politiques fondées sur la recherche sont erronées », ajoute Sandra Wachter. Les conséquences sont encore plus importantes dans des domaines tels que la recherche médicale, où de fausses informations peuvent compromettre la sécurité des personnes.

Mais en même temps, les chercheurs reconnaissent que son utilisation peut également être considérée comme une aide bienvenue pour « réduire le fardeau de l’écriture et du formatage » ou pour aider les universitaires à publier « dans une langue qui n’est pas leur langue maternelle ». Ainsi, Gao et ses collaborateurs proposent d’indiquer explicitement qu’un texte a été écrit avec ChatGPT lorsqu’il l’est, par exemple en le citant parmi les auteurs. Cependant, les limites de l’utilisation éthique et acceptable des grands modèles de langage pour aider l’écriture scientifique restent à déterminer, concluent-ils.