Data

Anonymisation vs Pseudonymisation

Les techniques favorisant l'anonymisation ou la pseudonymisation des données sensibles se sont multipliées ces dernières années. Toutefois, la signification exacte de ces mots reste assez floue pour une vaste majorité de personnes, y compris parmi les décideurs et les responsables politiques. En particulier, un mythe persiste : la pseudonymisation serait une manière sophistiquée d’effectuer de l'anonymisation… alors que c'est tout le contraire !Clarifions les choses à travers quelques définitions et des exemples simples.

Illustration recherche clinique

Définitions et nuances

Le RGPD nous fournit des indications précieuses pour mieux distinguer l’anonymisation de la pseudonymisation, cette dernière y étant définie comme "le traitement de données à caractère personnel de telle sorte que ces données ne puissent plus être attribuées à une personne spécifique sans l'utilisation d'informations supplémentaires" [1]. Cette notion est capitale : elle constitue à elle toute seule la distinction entre la pseudonymisation et l’anonymisation qui, elle, consiste à ne pouvoir identifier sous aucune condition la personne concernée par les données.

Reformulons. Que cela signifie-t-il ?

Tout simplement que, par définition, des données pseudonymisées peuvent être ré-identifiées à l'aide d'informations extérieures qui viendraient les compléter. Par contraste, cela permet également d'identifier plus finement les cas où une prétendue anonymisation, qui ne serait pas effectuée au sens du RGPD, serait de fait une pseudonymisation.

Prenons par exemple le cas où les identités de personnes réelles, contenues dans des enregistrements, sont remplacées par des identifiants aléatoires. Si une table d'index est conservée quelque part, permettant de faire correspondre ces identifiants aléatoires avec les identités réelles, alors ces données ne sont pas anonymisées mais pseudonymisées. Par ailleurs, admettons que les marqueurs d'identité les plus évidents aient été supprimés. S'il existe des données publiques qui permettent une ré-identification, même partielle, alors l'ensemble de données n’est que pseudonymisé.

Cela signifie qu'il est difficile en pratique de prouver qu'un ensemble de données est correctement anonymisé. Certaines entreprises en ont d’ailleurs fait les frais en se faisant épingler pour avoir divulgué des jeux de données mal anonymisés.

Des échecs notoires

Il faut bien comprendre que la principale difficulté de ces techniques n’est pas d’anonymiser les identifiants directs d’une personne tels que son nom, son numéro de sécurité sociale ou sa photo d'identité, qui peuvent aisément être supprimés ou randomisés. Le véritable enjeu est celui des identifiants indirects, comme les liens sociaux, les antécédents médicaux ou même la langue parlée, qui, pris séparément, ne sont pas toujours des identifiants forts mais qui, combinés, peuvent décrire une population très restreinte voire une personne unique.

En 2006, Netflix a publié un jeu de données sur le classement de films en utilisant les données de plus de 500 000 utilisateurs. Les données ont été nettoyées et les identificateurs directs - tels que le nom - ont été supprimés. Cependant, une partie importante de cet ensemble de données a été ré-identifié par des chercheur·se·s qui ont comparé l'ensemble des classements et les dates de ces classements avec les données publiques du site de critiques filmographiques IMDb [2]. Comme la façon dont les gens évaluent les films est très personnelle, cette réidentification a été étonnamment efficace. En particulier, ils ont montré qu'avec 8 classifications de films (dont 2 peuvent être complètement fausses) et des dates pouvant comporter une erreur de 14 jours, 99% des personnes pouvaient être identifiées de manière unique. Une divulgation de cette nature peut avoir des implications très sérieuses : les habitudes filmographiques peuvent révéler beaucoup de choses sur l'orientation sexuelle et politique d'une personne et Netflix a de fait été poursuivi en justice pour atteinte à la vie privée [3].

Ce qu’il faut retenir de ces travaux : les identificateurs peuvent être difficiles à repérer, et seuls quelques attributs peuvent être nécessaires pour désanonymiser un jeu de données.Bien d'autres scandales du même genre ont éclaté, comme la divulgation en 2014 des données personnelles des chauffeurs de taxi de New York, au travers de la publication de courses de taxi mal anonymisées, ou encore la ré-identification de patient·e·s à partir d’open data de dossiers de facturation médicale australiens en 2016, qui ont eu des implications jusqu’à encore récemment [4].Si certains échecs sont dus à une négligence claire lors de l’étape de nettoyage des données, même le plus minutieux des traitements peut ne pas suffire à garantir la robustesse de l’anonymisation contre la ré-identification - les chercheur·se·s l'ont bien montré pour le cas Netflix [5].
Cela nous conduit tout naturellement à nous poser la question suivante : quand peut-on affirmer qu'un ensemble de données est correctement anonymisé, étant donné l'impossibilité de connaître toutes les données extérieures disponibles ?

Vers un véritable anonymat

S’il existe plusieurs techniques d’anonymat qui offrent certaines garanties en matière de respect de la vie privée, chacune a ses limites.

Par exemple, le k-anonymat offre une certaine robustesse contre la ré-identification des individus en garantissant que chaque configuration d'attribut décrit une population d'au moins k individus. Il est donc impossible de distinguer une personne d'au moins k-1 autres à partir des caractéristiques du jeu de données. Pour ce faire, les identifiants directs sont supprimés et les identificateurs indirects sont généralisés pour être moins précis. Par exemple, si des dossiers médicaux contiennent l'âge des patient·e·s, celui-ci peut être remplacé par la décennie la plus proche (par exemple 20 < âge ≤ 30).

Le k-anonymat est vulnérable contre certaines attaques (comme les attaques dites par homogénéité) et suppose également d’avoir accès à toutes les données pour généraliser suffisamment les attributs sans toutefois perdre trop de précision, ce qui n’est pas possible pour les données de temps réel. De plus, on ne sait pas très bien comment appliquer cette méthode à certains formats de données comme les données textuelles (les messages, les compte-rendus médicaux, etc).

Pour lutter contre certaines des limites du k-anonymat, des techniques davantage sophistiquées, comme la l-diversité parmi tant d'autres, ont été proposées [6]. Mais il existe des limites inhérentes à toutes ces techniques, qui ne sont donc pas applicables à tous les formats de données.

Pour dire les choses simplement : la véritable anonymisation est difficile.

Alors, faut-il pour autant renoncer à l'anonymat ? Pas vraiment.

Tout d'abord, si vous connaissez les limites de chaque technique de désidentification, vous pouvez les utiliser avec succès dans des cas spécifiques et avoir des garanties suffisantes en matière de respect de la vie privée.

Deuxièmement, avec les progrès de l'apprentissage automatique, en particulier dans le contexte des données de santé et du secteur bancaire, de nouvelles techniques ont été mises au point. Elles pourraient renforcer la protection de la vie privée en déplaçant la question de la protection des données vers celle du modèle et de l'analyse effectués sur ces données. En particulier, au lieu d'ajouter du bruit ou des processus de généralisation directement sur les données, ces méthodes opèrent sur la requête ou le modèle qui est appliqué sur celles-ci, ce qui est moins destructeur pour les informations importantes tout en garantissant une meilleure protection de la vie privée. Cet ensemble de techniques s'appelle la "Differential Privacy" et constitue un domaine de recherche très actif [7] [8].

Illustration recherche clinique

Lire un autre article

Icône de professionnel de santé

La donnée de santé : un cadre juridique à sa mesure

Icône de professionnel de santé

Les enjeux du cohorting en recherche clinique...

Icône de professionnel de santé

Ce que les modèles de langes comprennent du monde