Dans le contexte évolutif de l'intelligence artificielle, garantir la sécurité et la fiabilité des systèmes d'IA dans les applications concrètes est une préoccupation majeure. Des chercheurs ont lancé un projet open source, OpenGuardrails, qui vise à relever ces défis en fournissant un cadre flexible et adaptable pour détecter les contenus non sécurisés ou manipulés dans les grands modèles de langage, contribuant ainsi à la sécurité de l'IA.
OpenGuardrails est un projet collaboratif mené par Thomas Wang (OpenGuardrails.com) et Haowen Li (Université polytechnique de Hong Kong). Il propose une solution unifiée permettant aux utilisateurs de définir leurs propres paramètres de comportement dangereux, améliorant ainsi l'adaptabilité des mécanismes de sécurité de l'IA sans nécessiter de refonte majeure des systèmes existants. Cette flexibilité est obtenue grâce à une adaptation configurable des politiques, permettant à chaque organisation de personnaliser le modèle en fonction de ses exigences spécifiques en matière de sécurité.
OpenGuardrails se distingue notamment par sa capacité à s'adapter à différentes définitions de contenu dangereux selon le contexte organisationnel. Par exemple, un établissement financier peut privilégier la détection des violations de données, tandis qu'un établissement de santé peut se concentrer sur la prévention de la désinformation médicale. Des ajustements peuvent être effectués dynamiquement en temps réel, permettant d'adapter la sensibilité du système à l'évolution des besoins ou des environnements réglementaires. Cette adaptabilité transforme la modération, d'une configuration statique, en un processus dynamique et continu. Cette approche réduit la dépendance aux vérifications manuelles et permet aux administrateurs de moduler le niveau de vigilance du système en modifiant un seul paramètre.
Thomas Wang met en lumière l'efficacité des seuils de sensibilité configurables à travers des déploiements concrets. Le processus débute par une phase d'évaluation préliminaire, appelée “ déploiement progressif ”, durant laquelle le système est testé avec les paramètres par défaut afin de recueillir des données avant d'être optimisé. Cette phase permet à l'organisation de calibrer les seuils de sécurité en fonction des retours d'expérience et des besoins contextuels. Par exemple, un service de santé mentale basé sur l'IA peut nécessiter des mécanismes de détection extrêmement sensibles pour l'automutilation, tandis qu'un service d'assistance client peut se montrer moins sensible aux grossièretés.
Du point de vue de la gestion de la sécurité, comme le souligne Peter Albert, responsable de la sécurité des systèmes d'information chez InfluxData, l'adoption de tels outils exige une validation rigoureuse et continue. OpenGuardrails, malgré sa transparence, doit respecter des normes de sécurité et de gouvernance élevées, similaires à celles des produits commerciaux. Les organisations sont encouragées à réaliser des audits réguliers, à surveiller l'apparition de nouvelles vulnérabilités et à effectuer des tests d'intrusion afin de garantir l'intégrité et la fiabilité du système.
OpenGuardrails simplifie l'architecture complexe qui reposait auparavant sur plusieurs modèles pour différentes tâches, comme l'injection de prompts ou l'exploitation de la génération de prompts. En utilisant un modèle unique et complet pour la détection des risques et la protection contre la manipulation, il facilite une compréhension plus intuitive de l'intention et du contexte, au lieu de s'appuyer uniquement sur des filtres de mots restrictifs. Le système peut être déployé comme une passerelle ou une API, offrant ainsi aux entreprises la flexibilité de l'intégrer à leur infrastructure tout en maintenant une faible latence.
De plus, OpenGuardrails se tient informé des menaces émergentes grâce à une recherche continue et à la collecte de renseignements sur les menaces. Ses capacités multilingues — prenant en charge plus de 119 langues — lui confèrent un avantage considérable pour les applications internationales, renforcé par le partage de données de sécurité traduites afin de faciliter la recherche et le développement.
Malgré les excellents résultats obtenus lors des tests de performance, les développeurs d'OpenGuardrails reconnaissent des axes d'amélioration, notamment la vulnérabilité aux attaques adverses et les biais culturels dans la modération de contenu. Le projet s'engage à perfectionner ces aspects grâce à des techniques d'ingénierie avancées et des initiatives de recherche collaborative.
Garantir la sécurité de l'IA par l'innovation
OpenGuardrails se distingue comme une solution robuste pour les entreprises souhaitant renforcer la supervision de l'IA tout en préservant leur efficacité opérationnelle et leur adaptabilité. Elle favorise une approche synergique où les contrôles techniques sont complétés par la formation des utilisateurs et l'application de politiques stratégiques, garantissant ainsi une protection plus globale contre les résultats d'IA non sécurisés. En évoluant, OpenGuardrails souligne l'importance de la collaboration, de la transparence et de normes de sécurité rigoureuses pour la protection des innovations en IA, contribuant ainsi de manière significative à la sécurité globale de l'IA.