ConfidensIA

Programme

Pseudonymisation dense - LaPlume

Reconnaissance et pseudonymisation des entités identifiantes dans les écrits du secteur.

Pipeline LaPlumeTexte brut, détection, catégorisation, remplacement et sortie pseudonymisée.

Les écrits du travail social portent une matière intime. Cette matière est précieuse pour la continuité des prises en charge, mais elle ne peut être mobilisée sans protection robuste.

La protection implique une contrainte technique forte: le modèle doit pouvoir tourner localement, au plus près de la donnée. D'où le travail de distillation qui a permis de produire un modèle compact et spécialiste.

Ouverture du programme LaPlume

LaPlume couvre les entités directement et indirectement identifiantes. L'objectif est de réduire le risque de réidentification tout en préservant la structure narrative utile du document.

Réseau d'entités et pseudonymisation dans LaPlume

101

Catégories couvertes (résultats préliminaires, arbitrage inter-annotateur en cours)

Fiche technique

NERmodèle Titibongbong v2 (9 couches, 172 Mo)
Couverture101 catégories, entités directes et indirectes
Approchehybride modèle + règles + ressources sectorielles
Exécutionlocalisable, infrastructure maîtrisée
RéférenceZenodo DOI 10.5281/zenodo.17689395
Statutscores préliminaires, arbitrage inter-annotateur en cours
Une démonstration en ligne permet d'observer le comportement du pipeline sur un texte. Elle illustre, elle ne traite pas de données réelles.