Affichage des articles dont le libellé est GitHub. Afficher tous les articles

dimanche 1 mars 2026

PII De-Identification avec Microsoft Presidio démonstration anonymisation

Exemple d'utilisation de Presidio et tests.

Presidio Demo - a Hugging Face Space by presidio

https://huggingface.co/spaces/presidio/presidio_demo

Presidio est un framework open source personnalisable pour la détection et l'anonymisation des données personnelles.

Expérimenter différents modèles prêts à l'emploi et packages de traitement automatique du langage naturel (TALN). Explorer les différentes options d'anonymisation, notamment la rédaction, le masquage, le chiffrement, etc. Générer du texte synthétique avec Microsoft Presidio et OpenAI.

Configurer des listes d'autorisation et de blocage.

Ce site web de démonstration présente certaines des fonctionnalités de Presidio. Visitez notre site web pour plus d'informations, des exemples et des options de déploiement.

Exemple rendu :

https://huggingface.co/spaces/presidio/presidio_demo

Sélectionnez la manipulation à appliquer au texte après l'identification des données personnelles.

Masquer : Supprimer complètement les données personnelles.

Remplacer : Remplacer les données personnelles par une constante, par exemple <PERSON>.

Synthétiser : Remplacer par des valeurs fictives (nécessite une clé OpenAI).

Surligner : Afficher le texte original avec les données personnelles surlignées en couleur.

Masquer : Remplacer un nombre de caractères par un astérisque (ou un autre caractère de masque).

Hacher : Remplacer par le hachage des données personnelles.

Chiffrer : Remplacer par un chiffrement AES des données personnelles, permettant ainsi une restauration.

Masquer les données personnelles.

Rendu des fenêtres Presidio dans Presidio Demo - a Hugging Face Space by presidio

Détails des textes dans les fenêtres ci-dessus :

Here are a few example sentences we currently support:

Hi, my name is David Johnson and I'm originally from Liverpool.
My credit card number is 4095-2609-9393-4932 and my crypto wallet id is 16Yeky6GMjeNkAiNcBY7ZhrLoMSgg1BoyZ.

On 11/10/2024 I visited www.microsoft.com and sent an email to test@presidio.site, from IP 192.168.0.1.

My passport: 191280342 and my phone number: (212) 555-1234.

This is a valid International Bank Account Number: IL150120690000003111111 . Can you please check the status on bank account 954567876544?

Kate's social security number is 078-05-1126. Her driver license? it is 1234567A.

Here are a few example sentences we currently support:

Hi, my name is <PERSON> and I'm originally from <LOCATION>.
My credit card number is <CREDIT_CARD> and my crypto wallet id is <CRYPTO>.

On 11/10/2024 I visited www.microsoft.com and sent an email to <EMAIL_ADDRESS>, from IP <IP_ADDRESS>.

My passport: 191280342 and my phone number: (212) 555-1234.

This is a valid International Bank Account Number: <IBAN_CODE> . Can you please check the status on bank account 954567876544?

<PERSON>'s social security number is 078-05-1126. Her driver license? it is 1234567A.

Source

Presidio Demo - a Hugging Face Space by presidio

Échantillons :

Sujet	Type de données	Ressource	Exemple

https://microsoft.github.io/presidio/samples/python/customizing_presidio_analyzer/

PII, PHI et Microsoft Presidio, un guide complet en français.

1. Vocabulaire fondamental : PII, PHI, PCI

Trois acronymes structurent la protection des données dans les systèmes d'IA :

PII (Personally Identifiable Information) — Données à caractère personnel au sens du RGPD. Toute information permettant d'identifier directement ou indirectement une personne physique : nom, prénom, adresse email, numéro de téléphone, adresse postale, numéro de sécurité sociale, numéro de passeport, adresse IP, données de localisation, etc.

PHI (Protected Health Information) — Sous-catégorie américaine (HIPAA) des données de santé protégées. En droit européen, ces données relèvent de l'article 9 du RGPD (données sensibles à protection renforcée) : diagnostic médical, antécédents, ordonnances, résultats d'analyses, numéro de patient, etc. Leur traitement exige une base légale spécifique et des garanties techniques renforcées.

PCI-DSS (Payment Card Industry Data Security Standard) — Données de cartes de paiement : numéros de carte, CVV, dates d'expiration. Soumises à un cadre de sécurité sectoriel strict.

Ces trois catégories forment le cœur de ce que Presidio détecte et anonymise dans vos pipelines IA.

2. Microsoft Presidio — Le framework de référence

Presidio est un framework open source Microsoft conçu pour détecter, anonymiser et pseudonymiser les données sensibles dans des textes, images et documents. Il s'intègre parfaitement dans une architecture UGAIA/souveraineté car il tourne 100% en local, sans envoi vers un cloud externe.

Architecture modulaire de Presidio

Presidio se compose de quatre services principaux :

presidio-analyzer (port 5002) — Moteur de détection : il identifie les entités sensibles via des règles regex, des modèles NLP (spaCy), du machine learning et des recognizers contextuels. Il retourne un score de confiance pour chaque entité détectée (entre 0 et 1).

presidio-anonymizer (port 5001) — Moteur de transformation : il applique les opérations de protection sur le texte brut selon les résultats de l'analyzer. Il supporte plusieurs modes : mask (***), redact (suppression), replace (substitution), hash (SHA256), encrypt (AES) et FPE (format-preserving encryption).

presidio-image-redactor — Caviardage d'images via OCR + Tesseract, utile pour les documents scannés et les captures d'écran contenant des PII.

presidio-ocr — Pipeline complet pour les PDF : extraction OCR puis passage dans l'analyzer/anonymizer.

Installation Docker (testée et validée)

# Téléchargement des images officielles
docker pull mcr.microsoft.com/presidio-analyzer
docker pull mcr.microsoft.com/presidio-anonymizer
# Lancement des conteneurs
docker run -d -p 5002:3000 mcr.microsoft.com/presidio-analyzer:latest
docker run -d -p 5001:3000 mcr.microsoft.com/presidio-anonymizer:latest
# Vérification
docker ps
curl http://localhost:5002/analyze
curl http://localhost:5001/anonymize

Pour un usage professionnel DSI/DPO/RSSI, la variante recommandée fixe les versions et isole le réseau :

docker network create presidio-net
docker run -d --name presidio-analyzer \
  --network presidio-net \
  -p 5002:3000 \
  mcr.microsoft.com/presidio-analyzer:1.0.0
docker run -d --name presidio-anonymizer \
  --network presidio-net \
  -p 5001:3000 \
  mcr.microsoft.com/presidio-anonymizer:1.0.0

3. Intégration dans un pipeline Ollama + Presidio

L'architecture "Gouvernance augmentée" repose sur une séparation nette des rôles :

Composant	Rôle	Caractéristique
Presidio	Détection et anonymisation PII/PHI/PCI	Déterministe, traçable, RGPD-compliant
Ollama (Phi-4/Mistral)	Analyse sémantique et gouvernance	Contextuel, non déterministe — à encadrer
PowerShell/Python	Orchestration et audit	Reproductible, scriptable

Le flux en 5 étapes

Étape 1 — Ingestion : le document brut (TXT, DOCX, PDF après OCR) entre dans le pipeline.
Étape 2 — Détection Presidio : appel à l'API analyzer pour identifier toutes les entités PII/PHI/PCI avec leur position, type et score de confiance. Résultat : un JSON structuré.
Étape 3 — Anonymisation Presidio : appel à l'anonymizer avec le texte brut et les résultats de détection. Résultat : un texte propre où toutes les données sensibles sont masquées ou pseudonymisées.
Étape 4 — Analyse sémantique Ollama : le LLM local reçoit uniquement le texte anonymisé (jamais les données brutes) plus un résumé des entités détectées. Il produit une classification de sensibilité, une évaluation des risques et des recommandations de gouvernance pour DPO/RSSI/COMEX.
Étape 5 — Sortie : trois artefacts sont générés : le document anonymisé, l'audit JSON horodaté (hash SHA256, versions des modèles, entités détectées), et le rapport de gouvernance en Markdown.

Exemple d'appel Python

import requests
# Appel Presidio Analyzer
analyze_response = requests.post(
    "http://localhost:5002/analyze",
    json={
        "text": "Jean Dupont, IBAN FR76 1234 5678, tél. 06 12 34 56 78",
        "language": "fr"
    }
)
entities = analyze_response.json()
# Appel Presidio Anonymizer
anonymize_response = requests.post(
    "http://localhost:5001/anonymize",
    json={
        "text": "Jean Dupont, IBAN FR76 1234 5678, tél. 06 12 34 56 78",
        "analyzer_results": entities
    }
)
clean_text = anonymize_response.json()["text"]
# Résultat : "<PERSON>, IBAN <IBAN_CODE>, tél. <PHONE_NUMBER>"
# Appel Ollama (Phi-4 ou Mistral)
ollama_response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "phi4",
        "prompt": f"Analyse de gouvernance du document suivant : {clean_text}\n"
                  f"Entités détectées : {entities}\n"
                  f"Fournis une classification de sensibilité et des recommandations RGPD.",
        "stream": False
    }
)
governance_report = ollama_response.json()["response"]

4. Matrice de criticité des entités (pour le scoring UGAIA)

Entité	Criticité	Réglementation	Action Presidio
Email	1	RGPD art. 4	Mask
Téléphone	2	RGPD art. 4	Mask
Adresse	2	RGPD art. 4	Redact
Nom complet	3	RGPD art. 4	Pseudonymiser
NIR (sécu)	4	RGPD art. 9	Hash/Encrypt
IBAN	4	PCI-DSS	Encrypt
Données santé	5	RGPD art. 9	Encrypt + accès restreint
Carte bancaire	5	PCI-DSS	FPE

Ce score de criticité alimentera directement le Score de Résilience UGAIA (composante Data Classification) dans votre framework de gouvernance.

5. Avantages pour UGAIA et la souveraineté numérique

Presidio + Ollama constitue une brique essentielle du pipeline de conformité UGAIA pour plusieurs raisons : aucune donnée ne sort du périmètre maîtrisé (déploiement on-premise Docker), la traçabilité est complète avec hash SHA256 et versionnage des modèles.

Le LLM n'accède jamais aux données brutes ce qui respecte le principe de minimisation du RGPD, et la solution est auditée et vérifiable par les DPO/RSSI sans dépendance à un fournisseur cloud externe.

C'est exactement le type d'architecture qui permet d'atteindre le niveau SOUVERAIN+ dans le scoring UGAIA (≥80 points), notamment sur les composantes "Traçabilité" et "Classification des données" (N1-N4).

Mon Blog documente une installation réussie avec détection de numéro de téléphone validée. L'étape suivante naturelle serait d'ajouter le modèle spaCy français (fr_core_news_lg) pour améliorer la détection des entités francophones, et d'intégrer des recognizers custom pour les identifiants spécifiques au contexte français (NIR, SIRET, numéros de permis).

Intégration de Grafana et Open WebUI dans l'architecture UGAIA + Presidio

Mon Architecture existante (Ollama + Presidio + Promtail + Loki) est déjà à 73/100 dans le scoring UGAIA. L'intégration correcte de Grafana et Open WebUI, avec les sécurisations nécessaires, vous permet d'atteindre ≥85/100 — niveau SOUVERAIN+, et donc l'éligibilité aux produits d'assurance UGAIA.

La règle fondamentale de cette architecture : Open WebUI est le seul point d'entrée des utilisateurs (port 3000), Grafana est réservé aux administrateurs (port 3001).

Tous les autres ports (Ollama 11434, Loki 3100, Presidio 5001/5002) restent strictement internes au réseau Docker.

1. Architecture cible — Vue d'ensemble.

Contenu du schéma ci-dessus :

Zones colorées :
- 🔴 Internet (Utilisateurs – HTTPS 443)
- 🟠 DMZ (Reverse Proxy / WAF – TLS)
- 🔵 Zone interne Docker ai_network
  - Open WebUI
  - Presidio (anonymisation PII)
  - Ollama (modèles locaux)
  - Promtail
  - Loki
- 🟢 Zone Administration (Grafana – VPN)
Flux réseau principaux (443 / 3000 / Admin)
Cartouche RSSI :
- Segmentation réseau
- Zero Trust
- Privacy by Design
- Modèles non exposés
- Journalisation souveraine

La règle fondamentale de cette architecture :

Open WebUI est le seul point d'entrée des utilisateurs (port 3000), Grafana est réservé aux administrateurs (port 3001). Tous les autres ports (Ollama 11434, Loki 3100, Presidio 5001/5002) restent strictement internes au réseau Docker.

2. docker-compose.yml complet et sécurisé.

version: '3.8'

networks:
  ai_network:
    driver: bridge
    internal: false  # Permet l'accès internet pour les mises à jour
    ipam:
      config:
        - subnet: 172.20.0.0/16

volumes:
  ollama_data:
  loki_data:
    driver: local
    driver_opts:
      type: none
      device: /data/loki  # Monter sur un volume chiffré LUKS
      o: bind
  open_webui_data:
  grafana_data:
  presidio_data:

services:

  # ─── COUCHE L1 : INTERFACE UTILISATEUR ─────────────────────────────

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    networks: [ai_network]
    ports:
      - "3000:8080"     # SEUL port exposé aux utilisateurs
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
      - WEBUI_AUTH=true               # Authentification obligatoire
      - WEBUI_SECRET_KEY=${SECRET_KEY} # À définir dans .env
      - DEFAULT_USER_ROLE=user         # RBAC : rôle minimal par défaut
      - ENABLE_SIGNUP=false            # Désactiver l'auto-inscription
      - WEBUI_NAME=UGAIA IA Souveraine
      # Intégration Presidio via pipeline
      - PRESIDIO_ANALYZER_URL=http://presidio-analyzer:3000
    volumes:
      - open_webui_data:/app/backend/data
    depends_on:
      ollama:
        condition: service_healthy
      presidio-analyzer:
        condition: service_started
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:8080/health"]
      interval: 30s
      timeout: 10s
      retries: 3
    restart: unless-stopped

  # ─── COUCHE L2 : INFÉRENCE SOUVERAINE ──────────────────────────────

  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    networks: [ai_network]
    # CRITIQUE : PAS de port exposé vers l'hôte
    volumes:
      - ollama_data:/root/.ollama
    environment:
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_NUM_PARALLEL=2
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:11434/api/tags"]
      interval: 30s
      timeout: 10s
      retries: 5
    restart: unless-stopped

  # ─── COUCHE L3 : ANONYMISATION PII (Presidio) ───────────────────────

  presidio-analyzer:
    image: mcr.microsoft.com/presidio-analyzer:latest
    container_name: presidio-analyzer
    networks: [ai_network]
    # PAS de port exposé — uniquement accessible depuis Open WebUI
    restart: unless-stopped

  presidio-anonymizer:
    image: mcr.microsoft.com/presidio-anonymizer:latest
    container_name: presidio-anonymizer
    networks: [ai_network]
    restart: unless-stopped

  # ─── COUCHE L4 : COLLECTE LOGS + PII SCRUBBING ─────────────────────

  promtail:
    image: grafana/promtail:latest
    container_name: promtail
    networks: [ai_network]
    volumes:
      - /var/log:/var/log:ro
      - /var/lib/docker/containers:/docker:ro
      - ./config/promtail-config.yaml:/etc/promtail/config.yaml:ro
    depends_on: [loki]
    restart: unless-stopped

  loki:
    image: grafana/loki:latest
    container_name: loki
    networks: [ai_network]
    # CRITIQUE : PAS de port 3100 exposé vers l'hôte
    volumes:
      - loki_data:/loki
      - ./config/loki-config.yaml:/etc/loki/local-config.yaml:ro
    healthcheck:
      test: ["CMD", "wget", "-q", "--spider", "http://localhost:3100/ready"]
      interval: 30s
      timeout: 10s
      retries: 5
    restart: unless-stopped

  # ─── COUCHE L5 : MONITORING & DASHBOARD UGAIA ──────────────────────

  grafana:
    image: grafana/grafana:latest
    container_name: grafana
    networks: [ai_network]
    ports:
      - "3001:3000"     # Accès ADMIN uniquement — restreindre par IP si possible
    environment:
      - GF_SECURITY_ADMIN_PASSWORD=${GRAFANA_ADMIN_PASSWORD}
      - GF_SECURITY_DISABLE_GRAVATAR=true
      - GF_ANALYTICS_REPORTING_ENABLED=false  # Pas de telemetrie externe
      - GF_ANALYTICS_CHECK_FOR_UPDATES=false
      - GF_SERVER_DOMAIN=localhost
      - GF_AUTH_ANONYMOUS_ENABLED=false
      - GF_USERS_ALLOW_SIGN_UP=false
    volumes:
      - grafana_data:/var/lib/grafana
      - ./config/grafana/dashboards:/etc/grafana/provisioning/dashboards:ro
      - ./config/grafana/datasources:/etc/grafana/provisioning/datasources:ro
    depends_on:
      loki:
        condition: service_healthy
    restart: unless-stopped

3. Configuration Promtail avec PII Scrubbing (RGPD Art. 25).

C'est la pièce maîtresse de conformité. Sans ce filtre, des données personnelles transitent vers Loki en clair. Fichier config/promtail-config.yaml :

server:
  http_listen_port: 9080
  grpc_listen_port: 0

positions:
  filename: /tmp/positions.yaml

clients:
  - url: http://loki:3100/loki/api/v1/push

scrape_configs:
  - job_name: ollama-containers
    docker_sd_configs:
      - host: unix:///var/run/docker.sock
        refresh_interval: 5s
    relabel_configs:
      - source_labels: [__meta_docker_container_name]
        target_label: container
      - source_labels: [__meta_docker_container_image]
        target_label: image

    # ─── PIPELINE PII SCRUBBING ────────────────────────────────────
    pipeline_stages:
      # 1. Parser les logs JSON d'Ollama
      - json:
          expressions:
            prompt: prompt
            model: model
            duration: total_duration

      # 2. Masquer emails
      - replace:
          expression: '([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})'
          replace: '[EMAIL_REDACTED]'

      # 3. Masquer numéros de téléphone français
      - replace:
          expression: '(\+33|0)[1-9]([0-9]{8})'
          replace: '[PHONE_REDACTED]'

      # 4. Masquer IBAN
      - replace:
          expression: '[A-Z]{2}[0-9]{2}[A-Z0-9]{4}[0-9]{7}([A-Z0-9]?){0,16}'
          replace: '[IBAN_REDACTED]'

      # 5. Masquer NIR (numéro sécurité sociale)
      - replace:
          expression: '[12][0-9]{2}(0[1-9]|1[0-2])[0-9]{8}[0-9]{2}'
          replace: '[NIR_REDACTED]'

      # 6. Labels pour requêtes LogQL dans Grafana
      - labels:
          model:
          container:

      # 7. Timestamp
      - timestamp:
          source: time
          format: RFC3339Nano

4. Configuration Loki avec rétention RGPD.

Fichier config/loki-config.yaml :

auth_enabled: false

server:
  http_listen_port: 3100

ingester:
  lifecycler:
    ring:
      kvstore:
        store: inmemory
      replication_factor: 1

schema_config:
  configs:
    - from: 2024-01-01
      store: boltdb-shipper
      object_store: filesystem
      schema: v11
      index:
        prefix: index_
        period: 24h

storage_config:
  boltdb_shipper:
    active_index_directory: /loki/boltdb-shipper-active
    cache_location: /loki/boltdb-shipper-cache
    shared_store: filesystem
  filesystem:
    directory: /loki/chunks

# ─── RÉTENTION RGPD Art. 5e ─────────────────────────────────────────
limits_config:
  retention_period: 720h    # 30 jours maximum (adapter selon politique DPO)
  ingestion_rate_mb: 4
  max_query_series: 500

compactor:
  working_directory: /loki/compactor
  shared_store: filesystem
  retention_enabled: true   # Active la suppression automatique
  retention_delete_delay: 2h
  retention_delete_worker_count: 150

5. Datasource Grafana → Loki (auto-provisioning).

Fichier config/grafana/datasources/loki.yaml :

apiVersion: 1
datasources:
  - name: Loki
    type: loki
    access: proxy
    url: http://loki:3100
    isDefault: true
    jsonData:
      maxLines: 1000
      timeout: 60

6. Dashboard Grafana — 5 panneaux UGAIA essentiels.

Voici les requêtes LogQL à construire pour votre tableau de bord UGAIA Score en temps réel.

Panneau 1 — Volume de requêtes IA par heure

sum by (model) (
  rate({container="ollama"}[1h])
)

Indicateur de charge et d'utilisation par modèle (Phi-4 vs Mistral).

Panneau 2 — Détections PII par Presidio (taux de conformité)

sum(
  count_over_time({container="presidio-analyzer"} |= "entity_type" [1h])
) by (entity_type)

Affiche le volume et les types d'entités détectées : PERSON, EMAIL, PHONE, IBAN, NIR. Alerte si le volume dépasse un seuil (ex. >100 détections/heure = risque de fuite de données structurelle).

Panneau 3 — Latence P95 des inférences Ollama

quantile_over_time(0.95,
  {container="ollama"} | json | unwrap total_duration [5m]
) by (model)

SLA de performance : alerte si P95 > 10 secondes.

Panneau 4 — Tentatives de prompt injection détectées

count_over_time(
  {container="open-webui"} |= "injection" or |= "jailbreak" or |= "ignore previous" [1h]
)

Indicateur de sécurité critique pour le scoring UGAIA (composante "Protection contre les attaques adversariales").

Panneau 5 — Score de Résilience UGAIA (jauge 0-100)

Ce panneau central agrège les métriques en un score composite. Il se construit via un panneau de type "Stat" avec une expression qui calcule :

Loki actif et ingérant : +15 pts
Promtail PII scrubbing actif : +20 pts
Presidio détections > 0 (preuve d'utilisation) : +15 pts
Latence P95 < 10s : +10 pts
Zéro erreur d'authentification Open WebUI : +10 pts
Rétention Loki configurée ≤30j : +10 pts
Alertes actives configurées : +10 pts
Aucun port sensible exposé (Ollama/Loki) : +10 pts

7. Sécurisation Open WebUI — Configuration avancée.

Open WebUI joue un rôle clé au-delà d'une simple interface : c'est le point d'application de la politique de gouvernance pour les utilisateurs finaux.

Configuration du System Prompt de gouvernance (à définir dans Open WebUI > Settings > Models) :

Tu es un assistant IA souverain déployé par [Organisation] dans le cadre 
du dispositif UGAIA. Tu opères dans un environnement conforme RGPD.

RÈGLES ABSOLUES :
- Ne jamais demander ni stocker de données personnelles (NIR, IBAN, données médicales).
- Ne jamais transmettre d'informations vers des systèmes externes.
- Si l'utilisateur semble partager des PII, l'informer que ces données 
  sont automatiquement anonymisées avant traitement.
- Toutes tes réponses sont journalisées à des fins d'audit UGAIA.

Classification des données autorisées : N1 (public) et N2 (interne).
Pour les données N3/N4, contacter le DPO.

Pop-up de consentement au premier login : configurer via Open WebUI > Admin > Banners un message imposant l'acceptation de la charte d'usage UGAIA avant accès. Cela constitue une preuve de consentement exploitable en audit.

RBAC recommandé dans Open WebUI :

Rôle	Permissions	Modèles accessibles
`user`	Chat uniquement	Phi-4, Mistral (données N1/N2)
`power_user`	RAG + fichiers	+ modèles spécialisés
`admin`	Gestion complète	Tous les modèles
`auditor` (lecture seule)	Historique conversations	Aucun

8. Alertes Grafana — 3 alertes critiques UGAIA.

Alerte 1 — PII non scrubées détectées dans Loki

# Si des emails passent le scrubbing → défaillance critique
count_over_time(
  {container="loki"} |~ "[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}" [5m]
) > 0

Sévérité : CRITIQUE — notification immédiate DPO + RSSI.

Alerte 2 — Ollama injoignable depuis Open WebUI

absent(rate({container="ollama"}[5m])) == 1

Sévérité : HAUTE — indisponibilité de service.

Alerte 3 — Volume anormal de détections PII

sum(count_over_time({container="presidio-analyzer"} [1h])) > 500

Sévérité : MOYENNE — possible tentative de fuite de données massives.

9. Impact sur le Score UGAIA.

Composant	Score avant	Score après intégration complète
Open WebUI (RBAC + SSO + System Prompt)	14/20	18/20
Grafana (Dashboard UGAIA + alertes)	13/20	18/20
Promtail (PII scrubbing actif)	12/20	17/20
Loki (rétention RGPD configurée)	15/20	17/20
Ollama (métriques exposées)	16/20	17/20
Docker (réseau isolé)	13/20	16/20
SCORE TOTAL	73/100	≥ 85/100 ✅ SOUVERAIN+

10. Plan d'implémentation en 3 sprints.

Sprint 1 (Semaine 1-2) — Fondation sécurisée
Déployer le docker-compose.yml avec réseau isolé + activer PII scrubbing Promtail + configurer la rétention Loki 30j + activer RBAC Open WebUI. Gain : +12 pts → 85/100.

Sprint 2 (Semaine 3-4) — Dashboard et alertes
Construire les 5 panneaux Grafana UGAIA Score + configurer les 3 alertes critiques + ajouter le System Prompt de gouvernance Open WebUI + bannière consentement. Gain : observabilité complète, preuve d'audit ≤48h.

Sprint 3 (Semaine 5-6) — Corrélation et traçabilité EU AI Act
Intégrer Langfuse avec mlflow_run_id comme clé pivot + relier les traces Langfuse au dashboard Grafana + documenter la procédure Droit à l'effacement (Loki Delete API) pour le DPO. Gain : conformité EU AI Act Art. 12 complète.

Le résultat est une architecture où chaque interaction utilisateur via Open WebUI génère une trace complète et auditée dans Grafana, sans qu'aucune donnée personnelle ne soit exposée dans les logs, tout en maintenant une souveraineté totale sur l'ensemble de la pile.

P. Erol GIRAUDY

Veille technologique - TIC - Gouvernance - AI - GPT (Teams, INSIDER Windows 11, INSIDER MICROSOFT 365, BETA TESTS Edge et Bing, et veille technologique sur les GAFAM+N), j'ai publié 4 livres sur les solutions Microsoft et l'AI et Copilot (c'est le 6ème aux formats ePUB et Papiers). Je pratique la Veille technologique active sur les TIC, Copilot, Ollama, LLAMA, Claude 3.5 Sonnet, Gemini, Bing, ChatGPT et AI et je suis membre de AIDAUG et UGAIA, http://www.ugaia.eu https://www.afees.org

vendredi 20 décembre 2024

Boostez votre productivité avec Microsoft AI Builder automatisez les e-mails, les documents et les images...

Boostez la productivité : automatisez les e-mails, les documents et les images avec Microsoft AI Builder

Par Gwenaël Bego

Dans l’environnement commercial d’aujourd’hui, il est essentiel de rationaliser les flux de travail et de réduire les tâches manuelles. Microsoft AI Builder apporte la puissance de l’automatisation avancée aux processus de routine tels que le traitement des e-mails, le traitement des documents et la gestion des images, aidant ainsi les entreprises à fonctionner plus intelligemment et plus efficacement. Grâce à de nouvelles fonctionnalités, notamment le traitement de contenu multimodal, les sorties JSON structurées, la sélection flexible de modèles, l’ancrage Dataverse et une vaste bibliothèque d’invites, AI Builder élève les agents, les applications et l’automatisation à un niveau supérieur d’impact commercial.

Traitement de documents et d’images de nouvelle génération avec GPT

L’une des mises à jour les plus révolutionnaires d’AI Builder est la nouvelle capacité de traitement de contenu multimodal, qui permet aux entreprises de gérer différents types de données, y compris du texte, des documents et des images, dans le cadre d’une seule instruction en langage naturel. Cette intégration simplifie considérablement le processus d’élaboration d’actions d’IA pour un traitement intelligent des documents. Contrairement aux modèles d’apprentissage automatique traditionnels qui nécessitent une formation et une expertise approfondies, le traitement multimodal d’AI Builder peut être configuré à l’aide du langage naturel et sans données d’entraînement.

https://youtu.be/QJTd8LkBb6A?si=XswfcbP5BugWNyW8

Sorties JSON structurées désormais disponibles pour tous

Grâce à la nouvelle fonctionnalité de sortie JSON structurée d’AI Builder, les entreprises disposent d’un moyen plus déterministe et plus fiable de gérer le contenu généré. Contrairement aux sorties traditionnelles dont le format et la structure peuvent varier, les sorties JSON sont désormais générées avec un schéma prédéfini cohérent que vous définissez au moment de la conception, ce qui garantit que chaque résultat s’aligne précisément sur les formats de données attendus. Ce déterminisme dans la génération de contenu signifie que vos flux de travail automatisés produiront à chaque fois des données prévisibles et structurées, et que ces résultats seront facilement intégrés en tant que variables dans votre flux de travail Power Automate pour le traitement en aval. Cette fonctionnalité est particulièrement bénéfique lors de l’intégration des sorties d’AI Builder dans d’autres systèmes, car elle réduit le besoin de nettoyage ou de transformation de données supplémentaires. Qu’il s’agisse d’alimenter un CRM, une base de données ou une application personnalisée, vous pouvez vous assurer que les données sont générées de manière structurée et prévisible.

La mise à la terre de Dataverse est maintenant disponible pour tous

La nouvelle fonctionnalité d’ancrage Dataverse permet aux modèles d’IA générative d’obtenir des informations actualisées et contextuellement pertinentes à partir des données de votre organisation. En utilisant la génération augmentée par récupération (RAG), AI Builder s’intègre directement à Dataverse pour extraire des connaissances en temps réel et spécifiques à l’entreprise, donnant aux modèles une compréhension plus approfondie de votre contexte unique.

Cette approche améliorée par RAG permet aux modèles d’IA de récupérer et d’incorporer dynamiquement des données pertinentes de Dataverse pendant le traitement, ce qui permet d’obtenir des scénarios de questions-réponses avec des réponses précises qui sont également hautement contextualisées pour votre organisation. Par exemple, les modèles peuvent accéder instantanément aux historiques des clients, aux informations sur les produits et aux données opérationnelles les plus récentes, enrichissant ainsi les résultats avec des connaissances directement ancrées dans votre réalité commerciale.

Dans le cadre de la mise à disposition générale de cette fonctionnalité, elle a été améliorée pour prendre en charge plusieurs tables, y compris les tables contenant de grandes quantités d’enregistrements de données.

Image of Dataverse grounding with AI Builder

Sélection du modèle : GPT-4o et GPT-4o Mini

AI Builder offre une flexibilité dans la sélection des modèles, permettant aux utilisateurs de choisir entre le puissant GPT-4o et le GPT-4o Mini économique. Cette adaptabilité permet une personnalisation en fonction des exigences spécifiques du projet et des considérations relatives aux ressources.

Bibliothèque d’invites

La fonctionnalité de bibliothèque d’invites fournit une collection d’invites prédéfinies, servant de modèles pour accélérer la création de modèles d’IA. Cette ressource accélère le développement et garantit que les meilleures pratiques sont suivies dans l’ingénierie rapide. Les utilisateurs peuvent modifier les modèles en fonction de leurs besoins spécifiques, en ajustant le langage, le ton et les détails pour correspondre aux normes et aux exigences de l’organisation. Les modèles couvrent des domaines clés tels que l’extraction de documents, la transformation des données et la génération de contenu, ce qui permet aux utilisateurs de trouver facilement le bon point de départ pour leurs objectifs d’automatisation intelligente.

Image of prompt library feature in AI Biulder

Cas d’utilisation pour commencer

Avec AI Builder, vous n’avez pas besoin d’être un expert en codage pour tirer parti de la puissance de l’IA dans vos opérations quotidiennes. En créant des invites capables d’extraire des informations de documents, de classer des e-mails et même d’analyser des images, vous pouvez donner à votre équipe les moyens de travailler plus intelligemment, et non plus durement. AI Builder fonctionne main dans la main avec d’autres outils Power Platform tels que Power Automate, Copilot Studio et Power Apps, ce qui permet aux utilisateurs de créer des flux de travail intelligents et des applications personnalisées pour répondre aux besoins de toute entreprise.

Par exemple, supposons que votre équipe traite fréquemment les demandes des clients. À l’aide d’AI Builder et de Power Automate, vous pouvez concevoir un flux de travail qui analyse le contenu des e-mails entrants, les catégorise par urgence ou par sujet, et suggère même des réponses. Cela permet non seulement de gagner du temps, mais aussi de maintenir une communication cohérente et efficace. En mettant en place ce flux automatisé, les entreprises peuvent garder le contrôle des interactions avec les clients et garantir des réponses rapides.

Êtes-vous prêt à intégrer l’IA dans votre organisation ?

La documentation d’AI Builder fournit un guide complet sur la configuration d’AI Builder, la configuration des modèles et son intégration à des outils tels que Power Automate et Power Apps.

https://learn.microsoft.com/en-us/ai-builder/overview

Pour des didacticiels étape par étape, le parcours d’apprentissage Microsoft Learn AI Builder est un excellent point de départ. Il couvre tout, des concepts fondamentaux aux cas d’utilisation avancés, aidant les utilisateurs de tous niveaux à maîtriser l’utilisation d’AI Builder pour automatiser et optimiser les flux de travail.

Pour obtenir des conseils et des exemples sur l’utilisation du traitement de contenu multimodal et d’autres invites avec Power Apps, vous pouvez utiliser le Creative AI Kit dans App Source ou GitHub. Les nouveaux exemples qui utilisent des invites multimodales incluent AI Image Diff, AI Describe Image, AI Fields from Image et AI Generate QnA.

https://github.com/microsoft/powercat-creator-kit/releases/tag/CreatorKit-November2024

Participez à nos sessions Ignite et découvrez d’autres annonces passionnantes pour Microsoft Power Platform :

Automatisez le traitement des e-mails, des documents et des images avec GPT dans Power Automate avec Gwenael Bego et Maria Gutierrez
Révolutionnez votre façon de travailler avec Power Automate et l’IA avec Joe Fernandez et Heather Orta-Olmo
Libérez l’innovation grâce à des stratégies pratiques dans Power Automate avec Jonathan Kendall
Voir notre session Dataverse Ignite (virtuelle et en personne) : Explorez Ignite 2024 : Libérez les connaissances de l’entreprise avec Dataverse – Microsoft Power Platform Blog

Gwenaël Bego

Voir plus d’articles de cet auteur

---

Pierre Erol GIRAUDY

http://about.me/giraudyerol

P. Erol GIRAUDY

dimanche 17 novembre 2024

LES OUTILS DE GOUVERNANCES ET DE PILOTAGES (tableau de la bote à outils).

LES OUTILS DE GOUVERNANCES ET DE PILOTAGES.

Extrait du tableau des 20/24 outils :

et une norme ISO ainsi que des guides et formations. L’agrégation des outils

sélectionnés donnera lieux à un Kit de Gouvernance avec des guides et une

sélection des outils et des questionnaires avec un chabot.

Exemple de la boite à outils.

Des OUTILS pour l'IA : un tableau sur GOUVERNANCES ET DE PILOTAGES. from UGAIA

Nous avons ressenti le besoin d’avoir une « boite à outils » afin de pouvoir piloter des projets d’IA :

a) développer et implémenter une solution d'IA.

b) utiliser les API et créer ses propres modèles pour mettre de l'IA sur ses

propres données.

c) nous aider à déployer Copilot ou toutes autres solutions d’IA.

Vous pouvez voir dans GitHub KIT GOV-1 · @peg500and's

KIT-Gov-Book (github.com).

https://fr.slideshare.net/slideshow/des-outils-pour-l-ia-un-tableau-sur-gouvernances-et-de-pilotages/273372929

Suivez les meilleures pratiques établies :

Pour encourager

l'utilisation et l'adoption des services Microsoft, il est recommandé de mettre

en œuvre vos propres meilleures pratiques internes. Ces pratiques peuvent

inclure des formations, des communications internes et

d'autres initiatives visant à sensibiliser les utilisateurs à Copilot.

Utilisez les outils fournis :

Microsoft fournira des outils supplémentaires dans le centre d'administration Microsoft 365 pour faciliter l'intégration et l'adoption de Copilot. Ces outils comprendront un guide d'intégration ainsi qu'une assistance supplémentaire pour vous et vos utilisateurs, afin de les aider à démarrer et à adopter Copilot une fois qu'il sera disponible pour votre organisation.

Renseignez-vous sur Copilot :

En attendant la disponibilité de Copilot pour votre organisation, vous pouvez aider vos utilisateurs à découvrir les principes fondamentaux de Copilot et de l'intelligence artificielle sur le site d'aide et d'apprentissage de Microsoft AI. Ce site fournira des informations détaillées sur Copilot, ses avantages pour l'expérience de travail et les principes éthiques que Microsoft suit dans le développement de solutions d'IA.

COPILOT https://techcommunity.microsoft.com/t5/microsoft-365-copilot/how-to-prepare-for-microsoft-365-copilot/ba-p/3851566

https://learn.microsoft.com/fr-fr/azure/active-directory/enterprise-users/licensing-groups-assign

https://github.blog/2023-06-27-the-economic-impact-of-the-ai-powered-developer-lifecycle-and-lessons-from-github-copilot/

Gouvernance (SFI_November_2024_update)

Microsoft a investi dans plusieurs structures de gouvernance et d’ingénierie qui nous aident à identifier, hiérarchiser et traiter les risques de cybersécurité dans l’ensemble de l’entreprise. Il s’agit notamment de :

• Conseil de gouvernance de la cybersécurité : responsable de l’ensemble des cyberrisques et de la conformité. Examine les menaces émergentes, hiérarchise les risques et garantit la conformité aux réglementations en matière de cybersécurité.
• Cadre d’exécution : Aborde les risques à grande échelle grâce à des actions d’ingénierie avec des modèles reproductibles et durables.
• Engagement de la haute direction : Assurer une surveillance et une responsabilisation continues. Vous trouverez ci-dessous des informations supplémentaires sur ces structures et les meilleures pratiques tirées de ce que nous avons appris à ce jour.

Igor Tsyganskiy, directeur de la sécurité des systèmes d’information (RSSI) de Microsoft, et 14 RSSI adjoints forment le Conseil de gouvernance de la cybersécurité récemment créé. Chaque RSSI adjoint représente et est responsable d’un domaine de sécurité, c’est-à-dire d’une division d’ingénierie dont il relève ou d’une fonction de sécurité fondamentale qui relève du RSSI.

Les RSSI adjoints qui relèvent d’une division d’ingénierie rendent compte aux chefs de division, assurant ainsi la responsabilité locale et la sensibilisation aux risques. Les RSSI adjoints sont chargés d’identifier, de hiérarchiser et de suivre l’état des risques de cybersécurité dans leur domaine. Ils se réunissent deux fois par semaine pour faire le point et prioriser les nouveaux risques. Cela permet de s’assurer que les risques bénéficient de l’examen collectif de 14 RSSI adjoints ayant des décennies d’expérience dans tous les secteurs.

Les risques classés par ordre de priorité sont examinés avec les dirigeants de l’ingénierie de SFI pour qu’ils prennent des mesures et font l’objet d’une surveillance jusqu’à l’achèvement. Les gouvernements du monde entier mettent de plus en plus l’accent sur la sécurité des technologies de l’information, en utilisant des initiatives politiques de cybersécurité pour encourager les fabricants et les clients à mieux se protéger contre les menaces de cybersécurité.

À l’avenir, les exigences réglementaires en matière de cybersécurité devraient augmenter.

Pour faciliter la conformité aux initiatives de politique de cybersécurité, le Conseil de gouvernance de la cybersécurité, avec l’appui d’experts en matière de politique de cybersécurité et de réglementation, examine et évalue les exigences. Exemples notables de la façon dont nous avons travaillé pour résoudre ces problèmes

En savoir plus sur les solutions d’audit dans Microsoft Purview | Microsoft Learn

https://learn.microsoft.com/fr-fr/purview/audit-solutions-overview

Les solutions d’audit Microsoft Purview fournissent une solution intégrée pour aider les organisations à répondre efficacement aux événements de sécurité, aux enquêtes médico-légales, aux enquêtes internes et aux obligations de conformité. Des milliers d’opérations utilisateur et d’administration effectuées dans des dizaines de services et de solutions Microsoft sont capturées, enregistrées et conservées dans le journal d’audit unifié de votre organisation. Les enregistrements d'audit de ces événements peuvent être utilisables dans une recherche par les responsables de la sécurité, les administrateurs informatiques, les équipes chargées de la lutte contre le risque interne et les enquêteurs chargés de la conformité et de la législation au sein de votre organisation. Cette fonctionnalité offre une visibilité sur les activités effectuées dans votre organisation.

Décrire les solutions de conformité des données de Microsoft Purview - Training | Microsoft Learn

https://learn.microsoft.com/fr-fr/training/modules/describe-purview-risk-compliance-governance/

Découvrez comment les solutions de conformité des données de Microsoft Purview permettent aux organisations de gérer les exigences réglementaires et les risques.

Objectifs d’apprentissage

À la fin de ce module, vous serez en mesure de :

Décrire l’audit et eDiscovery Microsoft Purview
Décrire le Gestionnaire de conformité Microsoft Purview
Décrire Conformité des communications Microsoft Purview
Décrire Gestion du cycle de vie des données Microsoft Purview
Décrire Gestion des enregistrements Microsoft Purview

Microsoft Digital Defense Report 2024

https://www.microsoft.com/en/security/security-insider/intelligence-reports/microsoft-digital-defense-report-2024

---

Pierre Erol GIRAUDY

http://about.me/giraudyerol

https://www.youtube.com/@EROLGIRAUDY

https://gouver2020.blogspot.com/

https://larselesrse.blogspot.com/

https://www.ugaia.eu/

P. Erol GIRAUDY

Translate

dimanche 1 mars 2026

PII De-Identification avec Microsoft Presidio démonstration anonymisation

Exemple d'utilisation de Presidio et tests.

Presidio est un framework open source personnalisable pour la détection et l'anonymisation des données personnelles.

Configurer des listes d'autorisation et de blocage.

Exemple rendu :

Sélectionnez la manipulation à appliquer au texte après l'identification des données personnelles.

Détails des textes dans les fenêtres ci-dessus :

Here are a few example sentences we currently support:

Here are a few example sentences we currently support:

Source

Échantillons :

PII, PHI et Microsoft Presidio, un guide complet en français.

1. Vocabulaire fondamental : PII, PHI, PCI

2. Microsoft Presidio — Le framework de référence

Architecture modulaire de Presidio

Installation Docker (testée et validée)

3. Intégration dans un pipeline Ollama + Presidio

Le flux en 5 étapes

Exemple d'appel Python

4. Matrice de criticité des entités (pour le scoring UGAIA)

5. Avantages pour UGAIA et la souveraineté numérique

Intégration de Grafana et Open WebUI dans l'architecture UGAIA + Presidio

1. Architecture cible — Vue d'ensemble.

Contenu du schéma ci-dessus :

La règle fondamentale de cette architecture :

2. docker-compose.yml complet et sécurisé.

3. Configuration Promtail avec PII Scrubbing (RGPD Art. 25).

4. Configuration Loki avec rétention RGPD.

5. Datasource Grafana → Loki (auto-provisioning).

6. Dashboard Grafana — 5 panneaux UGAIA essentiels.

7. Sécurisation Open WebUI — Configuration avancée.

8. Alertes Grafana — 3 alertes critiques UGAIA.

9. Impact sur le Score UGAIA.

10. Plan d'implémentation en 3 sprints.

vendredi 20 décembre 2024

Boostez votre productivité avec Microsoft AI Builder automatisez les e-mails, les documents et les images...

Boostez la productivité : automatisez les e-mails, les documents et les images avec Microsoft AI Builder

Traitement de documents et d’images de nouvelle génération avec GPT

https://youtu.be/QJTd8LkBb6A?si=XswfcbP5BugWNyW8

Sorties JSON structurées désormais disponibles pour tous

La mise à la terre de Dataverse est maintenant disponible pour tous

Sélection du modèle : GPT-4o et GPT-4o Mini

Bibliothèque d’invites

Cas d’utilisation pour commencer

dimanche 17 novembre 2024

LES OUTILS DE GOUVERNANCES ET DE PILOTAGES (tableau de la bote à outils).

LES OUTILS DE GOUVERNANCES ET DE PILOTAGES.

Extrait du tableau des 20/24 outils :

Exemple de la boite à outils. Des OUTILS pour l'IA : un tableau sur GOUVERNANCES ET DE PILOTAGES. from UGAIANous avons ressenti le besoin d’avoir une « boite à outils » afin de pouvoir piloter des projets d’IA :

Suivez les meilleures pratiques établies :

Pour encourager

Utilisez les outils fournis :

Renseignez-vous sur Copilot :

Gouvernance (SFI_November_2024_update)

En savoir plus sur les solutions d’audit dans Microsoft Purview | Microsoft Learn

Décrire les solutions de conformité des données de Microsoft Purview - Training | Microsoft Learn

Microsoft Digital Defense Report 2024

The-UN-norms-of-responsible-state-behaviour-in-cyberspace.pdf

Protecting Democratic Institutions from Cyber Threats - Microsoft On the Issues

RAISE: The Roundtable for AI, Security and Ethics → UNIDIR

Exemple de la boite à outils.

Des OUTILS pour l'IA : un tableau sur GOUVERNANCES ET DE PILOTAGES. from UGAIA

Nous avons ressenti le besoin d’avoir une « boite à outils » afin de pouvoir piloter des projets d’IA :