ConfidensIA

Travaux

Travaux et publications

Nous publions nos modèles, articles et code, y compris les versions préliminaires et les chantiers en cours. Une démarche de R&D se juge aussi sur l'honnêteté de ses limites.

Working paper · 2026 · préliminaire

Pseudonymisation et risque de réidentification

Premiers résultats d'évaluation de LaPlume et modèle de risque R(d,l) à quatre composantes, avec protocole d'annotation à trois profils de lecteurs.

Zenodo · DOI 10.5281/zenodo.17689395

Titibongbong - modèle NER sectoriel

Documentation du modèle distillé (CamemBERT, student 9 couches, 172 Mo FP16) et de sa méthode d'entraînement.

Notes techniques (Substack)

  • Decomposer le cout reel d'un systeme RAG.
  • Optimiser pgvector: de 5 400 ms a 173 ms via HNSW et halfvec.
  • Distiller un modèle NER sectoriel: méthode et arbitrages.
S'abonner au Substack

En cours

  • Benchmark de pseudonymisation sur 10 documents ESSMS reels.
  • Évaluation empirique du modèle de risque R(d,l).
  • Modèle local sectoriel (horizon 24-36 mois).
Code sur GitHub