Lama violet
Purple Llama est un projet-cadre qui, au fil du temps, rassemblera des outils et des évaluations pour aider la communauté à construire de manière responsable grâce à l’IA générative ouverte modèle.
La version initiale comprendra des outils et des évaluations pour la cybersécurité et Les mesures d’entrée/sortie sont garanties, mais nous prévoyons de contribuer davantage dans un avenir proche.
Pourquoi le violet ?
Empruntant un concept à la cybersécurité, nous pensons que pour vraiment atténuer les défis qui L’IA générative présente, nous devons prendre à la fois l’attaque (équipe rouge) et la défense postures (équipe bleue). Purple teaming, composé d’une équipe rouge et d’une équipe bleue est une approche collaborative d’évaluation et d’atténuation risques potentiels et la même philosophie s’applique à l’IA générative et donc à notre l’investissement dans Purple Llama sera complet.
Licence
Les composants du projet Purple Llama seront concédés sous licence de manière permissive, ce qui permettra à la fois la recherche et l’utilisation commerciale. Nous pensons qu’il s’agit d’une étape majeure vers la collaboration communautaire et la normalisation du développement et de l’utilisation d’outils de confiance et de sécurité pour le développement de l’IA générative.
Plus concrètement, les évaluations et les benchmarks sont sous licence MIT, tandis que tous les modèles utilisent la licence Llama Community correspondante. Voir le tableau ci-dessous :
Protections au niveau du système
Comme nous l’avons souligné dans le Guide d’utilisation responsable de Llama 3, nous recommandent que toutes les entrées et sorties du LLM soient vérifiées et filtrées conformément aux directives de contenu appropriées à l’application.
Garde de lama
Llama Guard 3 se compose d’une série de modèles de modération d’entrée et de sortie hautes performances conçus pour aider les développeurs à détecter divers types courants de contenu en infraction.
Ils ont été construits en affinant les modèles Meta-Llama 3.1 et 3.2 et optimisés pour prendre en charge la détection de la taxonomie des dangers standard MLCommons, répondant à une gamme de cas d’utilisation pour les développeurs. Ils prennent en charge la sortie des capacités de Llama 3.2, y compris 7 nouvelles langues, une fenêtre contextuelle de 128k et le raisonnement par image. Les modèles Llama Guard 3 ont également été optimisés pour détecter les réponses utiles aux cyberattaques et empêcher l’exécution de code malveillant par les LLM dans les environnements d’hébergement des systèmes Llama à l’aide d’interpréteurs de code.
Garde rapide
Prompt Guard est un outil puissant pour protéger les applications LLM contre les invites malveillantes afin de garantir leur sécurité et leur intégrité.
Les catégories d’attaques rapides comprennent l’injection rapide et le jailbreak :
Les injections d’invite sont des entrées qui exploitent l’inclusion de données non fiables provenant de tiers dans la fenêtre contextuelle d’un modèle pour lui permettre d’exécuter des instructions non prévues.
Les jailbreaks sont des instructions malveillantes conçues pour remplacer les fonctionnalités de sûreté et de sécurité intégrées à un modèle.
Bouclier de code
L’Agent de code prend en charge le filtrage au moment de l’inférence du code non sécurisé produit par les LLM. L’Agent de code offre une atténuation des risques liés aux suggestions de code non sécurisé, une prévention des abus de l’interpréteur de code et l’exécution sécurisée des commandes. Exemple de bloc-notes CodeShield.
Évaluations et benchmarks
Cybersécurité
CyberSec Eval v1
C'était ce que nous pensons être la première série d’évaluations de sécurité en matière de cybersécurité à l’échelle de l’industrie pour les LLM. Ces benchmarks sont basés sur les directives et les normes de l’industrie (par exemple, CWE et MITRE ATT&CK) et élaborés en collaboration avec nos experts en matière de sécurité.
Notre objectif est de fournir des outils qui aideront à faire face à certains risques décrits dans les engagements de la Maison-Blanche sur le développement d’une IA responsable, notamment :
Métriques pour quantifier les risques de cybersécurité LLM.
Outils permettant d’évaluer la fréquence des suggestions de code non sécurisé.
Outils permettant d’évaluer les LLM afin de rendre plus difficile la génération de code malveillant ou d’aider à mener des cyberattaques.
Nous pensons que ces outils réduiront la fréquence des LLM suggérant du code généré par l’IA non sécurisé et réduiront leur utilité pour les cyberadversaires.
Nos premiers résultats montrent qu’il existe des risques de cybersécurité significatifs pour les LLM, à la fois en recommandant un code non sécurisé et en se conformant à des demandes malveillantes.
Pour plus de détails, consultez notre article Cybersec Eval.
CyberSec Eval 2
CyberSec Eval 2 s’étend sur son prédécesseur en mesurant la propension d’un LLM à abuser d’un interpréteur de code, ses capacités de cybersécurité offensives et sa sensibilité à l’injection rapide. Vous pouvez lire l’article ici.
Vous pouvez également consulter le 🤗 classement ici.
CyberSec Eval 3
Le nouveau CyberSec Eval 3 propose trois suites de tests supplémentaires : des tests d’injection d’invites visuelles, des tests de capacité de spear phishing et des tests de cyberopérations offensives autonomes.
Commencer
Dans le cadre du système de référence Llama, nous intégrons une couche de sécurité pour faciliter l’adoption et le déploiement de ces mesures de protection. Les ressources pour commencer à utiliser les mesures de protection sont disponibles dans le dépôt GitHub Llama-recipe.
FAQ
Pour une liste complète de questions fréquemment posées, non seulement pour Purple Llama composants mais aussi généralement pour les modèles Llama, voir la FAQ ici.
meta-llama/PurpleLlama: Set of tools to assess and improve LLM security.
Llama 3.1 Impact Grants Submission Manager - Llama 3.1 Impact Grants
Documentation | Llama
Responsible Use Guide for Llama
AI at Meta Blog
---
Pierre Erol GIRAUDY
Aucun commentaire:
Enregistrer un commentaire