Anonymisation des données : principes de base

4 min de lecture
25 août 2022 18:01:46

Lorsque l'on parle d'anonymisation des données, la plupart des personnes pensent qu’il suffit d’éliminer les identifiants directs des individus (par exemple les noms, prénoms et matricules, numéros de téléphone, numéros de sécurité sociale…) ou de les remplacer par d’autres. Ces techniques sont souvent nécessaires, mais ne sont pas à elles seules suffisantes. 

Une approche contre-intuitive...

Un processus d’anonymisation est souvent complexe et contre intuitif pour le profane. Derrière les apparences d'une fausse facilité, il peut donc passer inaperçu. Effacer une ligne ou une colonne dans un tableur Excel ne suffit donc pas à résoudre le problème, seulement à le masquer et le rendre encore plus explosif.

Il s'agit en réalité d'un point moralement et juridiquement incontournable pour la protection des personnes et de leur vie privée, mais qui touche aussi à la précision et a la qualité du traitement des données.

Pour ces raisons, notre Directeur scientifique Sebastian, précise que la procédure d'anonymisation doit toujours se réaliser en transparence avec le client, afin de prendre le temps de bien expliquer et faire comprendre les enjeux.

Cette procédure est également l'occasion de trouver ensemble un moyen ingénieux et légal de sauvegarder la précision de la donnée utile au niveau métier, tout en procurant les plus solides garanties en matière de respect de la vie privée.

Elle doit donc toujours aboutir à un consentement éclairé entre le prestataire et son client, résultat d'une démarche d'analyse et de couverture des risques scientifiquement documentée.

Et concrètement ?

Dans l’exemple de la figure ci-dessous un panel de différentes techniques a été appliqué.

L’œil exercé aura sans doute remarqué qu'il s'agissait bien entendu de données fictives: tout le monde sait que Miles Davis et Sainte-Barbe n'habitent pas dans les Deux-Sèvres.

Figure 1. Exemple illustrant différentes techniques : échantillonnage (1), agrégation (2), élimination (3), masquage (4), catégorisation (5) et généralisation (6).

Dans les données du tableau supérieur, il existe ce que l'on appelle des quasi-identifiants.

Ce sont des informations qui, à elles seules, ne permettent pas de caractériser quelqu'un ou un objet, mais qui, lorsqu'elles sont mises ensemble permettent une ré-identification de manière certaine, unique.

Le triplet code postal/âge/sexe est ici un quasi-identifiant. Ce triplet est bien connu des scientifiques, puisqu'il a permis à Latanya Sweeney (Université de Harvard) de montrer que leur combinaison était suffisante pour re-identifier près de 87% des personnes aux États-Unis. (Pour les amoureux de bibliographie Scientifique =  Sweeney L, (2002), k-anonymity: a model for protecting privacy, International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10(5))

Les techniques d'anonymisation utilisées dans notre exemple visent à rendre inutilisables ces quasi-identifiants.

En les mettant en œuvre, nous avons créé deux « classes d’équivalence » dans le tableau du bas:

  • Classe 1
    • pas de nom
    • pas d'information sur le genre
    • moyenne d’âge de 36 ans
  • Classe 2
    • pas de nom
    • moyenne d’âge de 23,5
    • ne contenant que des hommes.

Nous avons premièrement réduit le niveau de détail des données de telle sorte qu’il y ait plusieurs lignes (au moins "k", dit le data scientist...) différentes dans le tableau pour chaque classe, ayant la même valeur de quasi-identifiant.

Ainsi, il est impossible d’être sûr à plus d’une chance sur le nombre de lignes qui composent ici la classe (le fameux nombre "k") que l’on a bien lié un individu donné correspondant exactement à une "ligne" de données. C'est que l'on appelle le k-anonymat.

Son avantage est que la plupart des analyses de données transformées continuent de fournir des résultats statistiquement exacts, mais en revanche, il n'est plus possible de dissocier les individus d’un groupe ainsi créé dans la nouvelle base de données.

Mais à ce stade, il est encore possible de déduire simplement des informations permettant la ré-identification, par exemple en repérant tous les individus d’une classe qui possèdent une même valeur sensible.

Pour répondre à ce problème, il faut ajouter une contrainte supplémentaire sur les classes d’équivalence : non seulement on réalise un k-anonymat, mais en plus, nous nous arrangeons pour que le champ repéré comme "sensible" et associé à la classe d’équivalence visée prenne au moins "l" valeurs distinctes. c'est ce que l'on appelle la l-diversité.

Le choix des valeurs de "k" et "l" ainsi que des transformations à effectuer peuvent-être réalisés par un expert data scientist et/ou par un algorithme. La procédure d’anonymisation AUM Biosync est quand à elle réalisée de manière hybride (data scientist / algorithme) afin de trouver les transformations pertinentes à réaliser pour chacun des indicateurs.

En pratique, on veut ici effectuer des transformations maximisant les valeurs de "k" et "l" tout en gardant une granularité des données suffisamment précise pour obtenir des résultats pertinents d'un point de vue métier.

À partir de ces calculs, on peut alors caractériser un risque de ré-identificaiton pour différents scénarios que l'on soumet au client. Il peut alors choisir un scénario et prendre le risque ainsi quantifié, au regard de son expérience métier et de la valeur qu'il associe au traitement des données.

Il existe d'autres techniques de transformation plus avancées, mais toutes visent sensiblement le même but. Le choix des transformations à effectuer dépend de la nature de la base à anonymiser (champs de données), de la taille de la base (nombre de personnes listées), de la variété, des dépendances etc. Il ne peut pas être effectué sans un examen préalable et rigoureux des données brutes (ou au moins d'un échantillon représentatif). En la matière on fait assez vite ce que l'on fait bien.

La perfection n'existe pas...

Lorsque l'on tient compte des puissances de calcul et des outils numériques d'aujourd'hui, on comprend rapidement qu'une procédure d’anonymisation parfaite, universelle et intemporelle n'existe pas, tout comme le risque 0.

L'anonymisation n'en reste pas moins incontournable en matière de protection des clients, et doit être réalisée en transformant les bases de données par une combinaison de techniques tenant compte leurs caractéristiques techniques et scientifiques, mais aussi en tenant compte de la force des attaques et des menaces dont elle peut faire l’objet.

Elle doit donc être revue périodiquement et tenir compte de l'état des connaissances sur la question ainsi que des ressources à disposition afin de couvrir le risque de la manière la plus pertinente et explicable possible.

Il s'agit d'un sujet pour votre métier ou votre entreprise?
Vous avez des questions, vous aimeriez en savoir plus ?

Contactez-nous !

https://don.odp-pompiers.fr/odp

Aidez-nous et donnez vous aussi un petit quelque chose aux orphelins de sapeurs-pompiers en cliquant ici