Les vulnérabilités dans les LLM : (9) Overreliance

26/11/2024

Blog technique

Les vulnérabilités dans les LLM : (9) Overreliance

Jean-Léon Cusinato, équipe SEAL

Bienvenue dans cette suite d’articles consacrée aux Large Language Model (LLM) et à leurs vulnérabilités.

Focus technique : Qu'est-ce qu'une hallucination pour une IA ?

Pour rappel, comme vu dans l’explication de l’inférence (voir (2) Insecure Output Handling), un modèle n’a pas une intelligence au sens humain du terme. Leur intelligence est basée sur des probabilités de deviner le mot suivant en fonction du mot précédent et de son contexte.

L’hallucination chez un LLM (Large Language Model) se réfère à la génération d’informations qui semblent plausibles mais qui sont en réalité incorrectes, inappropriées ou sans fondement. Contrairement aux humains, les IA ne possèdent pas de conscience ni de capacité à distinguer la réalité de la fiction de manière intuitive. Elles génèrent des réponses basées sur des modèles statistiques et des patterns appris à partir de vastes quantités de données textuelles, ce qui peut induire des erreurs.

Par exemple, si un LLM est interrogé sur un événement historique qui n’a jamais eu lieu, il pourrait créer une réponse détaillée et convaincante, mais complètement fictive. Cette « hallucination » n’est pas intentionnelle de la part de l’IA ; elle résulte simplement de la manière dont le modèle a été entraîné à générer du texte en fonction des patterns qu’il a appris. Par exemple, dans la capture ci-dessous du 25/09/2024, l’IA n’a pas encore pris en compte que Kamala Harris a remplacé Joe Biden en tant que candidate démocrate.

Description de la vulnérabilité

La surconfiance (Overreliance en anglais) peut survenir lorsqu’un LLM produit des informations erronées et les présente de manière autoritaire. Bien que les LLM puissent générer du contenu créatif et informatif, ils peuvent également produire des informations factuellement incorrectes, inappropriées ou dangereuses. Ce phénomène est connu sous le nom d’hallucination, présenté précédemment.

Pour éviter ces problèmes de surconfiance, il est important de mettre en place un processus de révision rigoureux, incluant :

De la supervision : Une surveillance continue pour détecter et corriger les erreurs.
Des mécanismes de validation continue : Des systèmes automatisés pour vérifier régulièrement la précision et la sécurité des informations générées, tel qu’un deuxième LLM vérifiant les réponse du premier.
Des avertissements aux utilisateurs sur les risques : Des mentions claires indiquant les risques potentiels associés à l’utilisation des informations générées par les LLM.

Exemples

Un directeur des ressources humaines demande à un LLM le nombre de personnes à licencier pour redevenir rentable. L’IA, manquant d’information, effectue un calcul simplifié et recommande quelque chose d’incohérent par rapport à l’entreprise.

L’IA plagie involontairement du contenu, ce qui entraîne des problèmes de droits d’auteur et une diminution de la confiance envers l’organisation.

Une équipe de développement logiciel utilise un système LLM pour accélérer le processus de codage. Une surconfiance dans les suggestions de l’IA introduit des vulnérabilités de sécurité dans l’application en raison de paramètres par défaut non sécurisés ou de recommandations incompatibles avec les bonnes pratiques de codage sécurisé. Un exemple de cette exploitation est présenté dans (3) Training Data Poisoning.

Risques d'une telle vulnérabilité

Lorsque des personnes ou des systèmes font confiance à ces informations sans supervision ni vérification, cela peut entraîner des violations de sécurité, de la désinformation, des malentendus, des problèmes juridiques et des dommages à la réputation.

De plus, la surconfiance dans les IA et les LLM peut également entraîner une dépendance excessive à ces technologies, réduisant ainsi la capacité des individus à prendre des décisions autonomes et critiques. Les utilisateurs peuvent devenir trop dépendants des recommandations des IA, ce qui peut limiter leur propre jugement et leur capacité à évaluer les informations de manière indépendante. Cette dépendance peut également créer des vulnérabilités, notamment en cas de défaillance ou de manipulation des systèmes d’IA.

On observe que les utilisateurs de solutions basées sur l’intelligence artificielle vont accorder une grande confiance à ces résultats, sur le principe même de « l’argument d’autorité ». Encore plus que pour tout le reste, les informations provenant de l’IA doivent être challengées et vérifiées avant d’être utilisées.

A titre d’exemple, les informations contenues dans cet article auraient pu être générées par une IA, en laquelle le rédacteur aurait une surconfiance. Vous les avez lues et assimilées sans les remettre en question, car elles proviennent du site Web d’Amossys, figure d’autorité en matière de cybersécurité. Cet article a, en réalité, été rédigé sans l’utilisation d’une IA et a été entièrement vérifié.

Si le lecteur n’applique pas suffisamment son esprit critique, il risque de se faire berner sans s’en rendre compte. De ce fait, la lecture des articles ci-dessous est conseillée pour comprendre plus en détails les mécanismes d’hallucination ou de surconfiance des IA.

Pour aller plus loin

Comprendre les hallucinations des LLM – https://towardsdatascience.com/llm-hallucinations-ec831dcd7786
Pouvez-vous faire confiance aux recommandations de paquets de ChatGPT ? – https://vulcan.io/blog/ai-hallucinations-package-risk
Un site d’actualités a utilisé l’IA pour écrire des articles. C’était un désastre journalistique. – https://www.washingtonpost.com/media/2023/01/17/cnet-ai-articles-journalism-corrections/

Retrouvez tous les autres articles de la série :

Voir les derniers articles de notre Blog technique et les dernières actualités

16 avril 2025

Amossys a effectué un audit pour Piter, éditeur de solutions VMS. Découvrez le témoignage de Simon Franger et Philippe Sarrazin.

11 avril 2025

Le protocole TLS garantit la confidentialité et l’intégrité des échanges entre un client et un serveur et à minima l’authenticité […]

11 mars 2025

In the previous article, we explained how to find a Local Privilege Escalation using DLL sideloading. At the end, we […]

28 janvier 2025

[...] As part of this activity, we developed a tool being able to realize RFID relay attacks on access control […]

22 janvier 2025

Amossys accompagne Tranquil IT sur le renouvellement de certification CSPN, découvrez le témoignage de Vincent Cardon, Président de Tranquil IT.

9 janvier 2025

Contrairement à une évaluation de sécurité réalisée dans un objectif de certification (CSPN ou Critères Communs), la recherche de vulnérabilités […]

20 décembre 2024

La sécurité informatique peut paraître, pour beaucoup, comme un centre de coût et de complexité : plan d’audits à mettre en […]

16 décembre 2024

Après avoir exploré les vulnérabilités inhérentes aux modèles de langage à grande échelle (LLM) dans notre série d'articles, il est […]

28 novembre 2024

L'exfiltration de modèles LLM (Model Theft in english) par des acteurs malveillants ou des groupes de cyberespionnage avancés est une […]

25 novembre 2024

Avec une souche éprouvée, des outils bien choisis et des cibles stratégiques, 8Base se distingue comme une menace particulièrement redoutable. […]

Vous souhaitez :

Toutes nos prestations

Tous nos produits

Qui sommes-nous ?

Nos marchés

Vous êtes victime d’un incident de sécurité ? Contactez notre CERT

Blog technique