Lama violet
Purple Llama est un projet-cadre qui, au fil du temps, rassemblera des outils et des évaluations pour aider la communauté à construire de manière responsable grâce à l’IA générative ouverte modèle.
La version initiale comprendra des outils et des évaluations pour la cybersécurité et Les mesures d’entrée/sortie sont garanties, mais nous prévoyons de contribuer davantage dans un avenir proche.
Pourquoi le violet ?
Empruntant un concept à la cybersécurité, nous pensons que pour vraiment atténuer les défis qui L’IA générative présente, nous devons prendre à la fois l’attaque (équipe rouge) et la défense postures (équipe bleue). Purple teaming, composé d’une équipe rouge et d’une équipe bleue est une approche collaborative d’évaluation et d’atténuation risques potentiels et la même philosophie s’applique à l’IA générative et donc à notre l’investissement dans Purple Llama sera complet.
Licence
Les composants du projet Purple Llama seront concédés sous licence de manière permissive, ce qui permettra à la fois la recherche et l’utilisation commerciale. Nous pensons qu’il s’agit d’une étape majeure vers la collaboration communautaire et la normalisation du développement et de l’utilisation d’outils de confiance et de sécurité pour le développement de l’IA générative.
Plus concrètement, les évaluations et les benchmarks sont sous licence MIT, tandis que tous les modèles utilisent la licence Llama Community correspondante. Voir le tableau ci-dessous :
Protections au niveau du système
Comme nous l’avons souligné dans le Guide d’utilisation responsable de Llama 3, nous recommandent que toutes les entrées et sorties du LLM soient vérifiées et filtrées conformément aux directives de contenu appropriées à l’application.
Garde de lama
Llama Guard 3 se compose d’une série de modèles de modération d’entrée et de sortie hautes performances conçus pour aider les développeurs à détecter divers types courants de contenu en infraction.
Ils ont été construits en affinant les modèles Meta-Llama 3.1 et 3.2 et optimisés pour prendre en charge la détection de la taxonomie des dangers standard MLCommons, répondant à une gamme de cas d’utilisation pour les développeurs. Ils prennent en charge la sortie des capacités de Llama 3.2, y compris 7 nouvelles langues, une fenêtre contextuelle de 128k et le raisonnement par image. Les modèles Llama Guard 3 ont également été optimisés pour détecter les réponses utiles aux cyberattaques et empêcher l’exécution de code malveillant par les LLM dans les environnements d’hébergement des systèmes Llama à l’aide d’interpréteurs de code.
Garde rapide
Prompt Guard est un outil puissant pour protéger les applications LLM contre les invites malveillantes afin de garantir leur sécurité et leur intégrité.
Les catégories d’attaques rapides comprennent l’injection rapide et le jailbreak :
Les injections d’invite sont des entrées qui exploitent l’inclusion de données non fiables provenant de tiers dans la fenêtre contextuelle d’un modèle pour lui permettre d’exécuter des instructions non prévues.
Les jailbreaks sont des instructions malveillantes conçues pour remplacer les fonctionnalités de sûreté et de sécurité intégrées à un modèle.
Bouclier de code
L’Agent de code prend en charge le filtrage au moment de l’inférence du code non sécurisé produit par les LLM. L’Agent de code offre une atténuation des risques liés aux suggestions de code non sécurisé, une prévention des abus de l’interpréteur de code et l’exécution sécurisée des commandes. Exemple de bloc-notes CodeShield.
Évaluations et benchmarks
Cybersécurité
CyberSec Eval v1
C'était ce que nous pensons être la première série d’évaluations de sécurité en matière de cybersécurité à l’échelle de l’industrie pour les LLM. Ces benchmarks sont basés sur les directives et les normes de l’industrie (par exemple, CWE et MITRE ATT&CK) et élaborés en collaboration avec nos experts en matière de sécurité.
Notre objectif est de fournir des outils qui aideront à faire face à certains risques décrits dans les engagements de la Maison-Blanche sur le développement d’une IA responsable, notamment :
Métriques pour quantifier les risques de cybersécurité LLM.
Outils permettant d’évaluer la fréquence des suggestions de code non sécurisé.
Outils permettant d’évaluer les LLM afin de rendre plus difficile la génération de code malveillant ou d’aider à mener des cyberattaques.
Nous pensons que ces outils réduiront la fréquence des LLM suggérant du code généré par l’IA non sécurisé et réduiront leur utilité pour les cyberadversaires.
Nos premiers résultats montrent qu’il existe des risques de cybersécurité significatifs pour les LLM, à la fois en recommandant un code non sécurisé et en se conformant à des demandes malveillantes.
Pour plus de détails, consultez notre article Cybersec Eval.
CyberSec Eval 2
CyberSec Eval 2 s’étend sur son prédécesseur en mesurant la propension d’un LLM à abuser d’un interpréteur de code, ses capacités de cybersécurité offensives et sa sensibilité à l’injection rapide. Vous pouvez lire l’article ici.
Vous pouvez également consulter le 🤗 classement ici.
CyberSec Eval 3
Le nouveau CyberSec Eval 3 propose trois suites de tests supplémentaires : des tests d’injection d’invites visuelles, des tests de capacité de spear phishing et des tests de cyberopérations offensives autonomes.
Commencer
Dans le cadre du système de référence Llama, nous intégrons une couche de sécurité pour faciliter l’adoption et le déploiement de ces mesures de protection. Les ressources pour commencer à utiliser les mesures de protection sont disponibles dans le dépôt GitHub Llama-recipe.
FAQ
Pour une liste complète de questions fréquemment posées, non seulement pour Purple Llama composants mais aussi généralement pour les modèles Llama, voir la FAQ ici.
meta-llama/PurpleLlama: Set of tools to assess and improve LLM security.
Llama 3.1 Impact Grants Submission Manager - Llama 3.1 Impact Grants
Documentation | Llama
Responsible Use Guide for Llama
AI at Meta Blog
The latest version of Ollama is 0.4 : https://ollama.com/download | |
| |
The Ollama maintainershttps://github.com/ollama/ollamaDe plus Microsoft a fait un programme de formation gratuit sur l'éthique je vais publier un article sur celle-ci... Voir aussi :https://github.com/users/peg500and/projects/1/views/1 https://learn.microsoft.com/fr-fr/azure/machine-learning/concept-model-catalog?view=azureml-api-2 "Llama 3 devrait moins souffrir d'hallucinations et fournir des informations plus fiables" et avec l'API de Claude.... |
L’intelligence artificielle progresse à toute allure.
Les entreprises créent de plus en plus de systèmes d’IA polyvalents capables d’effectuer de nombreuses tâches différentes. Les grands modèles de langage (LLM) peuvent composer de la poésie, créer des recettes de dîner et écrire du code informatique. Certains de ces modèles présentent déjà des risques majeurs, tels que l’érosion des processus démocratiques, la préjugé et la désinformation rampantes, et une course aux armements dans les armes autonomes. Mais le pire est à venir.
Les systèmes d’IA ne feront que devenir plus performants.
Les entreprises recherchent activement une « intelligence artificielle générale » (IAG), qui peut être aussi performante, voire meilleure, que les humains dans un large éventail de tâches. Ces entreprises promettent que cela apportera des avantages sans précédent, de la guérison du cancer à l’élimination de la pauvreté mondiale. D’un autre côté, plus de la moitié des experts en intelligence artificielle estiment qu’il y a une chance sur dix que cette technologie provoque notre extinction.
Cette croyance n’a rien à voir avec les robots maléfiques ou les machines sensibles que l’on voit dans la science-fiction.
À court terme, l’IA avancée peut permettre à ceux qui cherchent à faire du mal
– les bioterroristes, par exemple
– d’exécuter facilement des tâches de traitement complexes sans conscience.
À plus long terme, nous ne devrions pas nous focaliser sur une méthode particulière de nuisance, car le risque vient de la plus grande intelligence elle-même.
Songez à la façon dont les humains dominent des animaux moins intelligents sans avoir recours à une arme particulière, ou à la façon dont un programme d’échecs d’IA bat des joueurs humains sans avoir recours à un coup spécifique.
Les armées pourraient perdre le contrôle d’un système très performant conçu pour faire du mal, avec des conséquences dévastatrices.
Un système d’IA avancé chargé de maximiser les profits d’une entreprise pourrait employer des méthodes drastiques et imprévisibles. Même une IA programmée pour faire quelque chose d’altruiste pourrait adopter une méthode destructrice pour atteindre cet objectif.
Nous n’avons actuellement aucun moyen fiable de savoir comment les systèmes d’IA se comporteront, car personne, pas même leurs créateurs, ne comprend totalement comment ils fonctionnent.
La sécurité de l’IA est désormais devenue une préoccupation majeure.
Les experts et le grand public s’inquiètent tous des risques émergents et de la nécessité urgente de les gérer. Mais la seule inquiétude ne suffira pas. Nous avons besoin de politiques pour garantir que le développement de l’IA améliore la vie des gens partout dans le monde, plutôt que de simplement augmenter les profits des entreprises.
Et nous avons besoin d’une gouvernance appropriée, notamment d’une réglementation solide et d’institutions compétentes qui peuvent éloigner cette technologie transformatrice des risques extrêmes et la diriger vers le bien de l’humanité.
---
Pierre Erol GIRAUDY