Les organismes qui traitent des données sensibles ont principalement recours à des pratiques de l’anonymisation pour les partager ou les vendre. En théorie, ces techniques, appelées dé-identification, rendent les individus non identifiables. Une fois rendues anonymes, les données ne sont plus considérées comme des données personnelles et échappent aux régimes de protection des données. Mais ces données demeurent-elles non identifiables pour le reste du temps avec les techniques actuelles ? La réponse c’est non, d’après les nouvelles recherches publiées dans la revue Nature Communications.
En effet, des scientifiques de l’Imperial College de Londres et de l’Université Catholique de Louvain, en Belgique ont développé un algorithme de « machine learning » qui prouve qu’il est possible de ré-identifier précisément et facilement les individus au sein de n’importe quelle base de données, même lorsque vos données personnelles ont été supprimées, ont indiqué les responsables de l’université mardi dans un communiqué. Ce qui est encore plus surprenant, c’est que les scientifiques ont affiché le code de leur logiciel en ligne pour que n’importe qui puisse l’utiliser.
Plus l’évolution technologique vous oblige à vous connectés, davantage vous laissez vos données en ligne chaque fois que vous faites une opération, comme commander un repas à emporter, la réservation d’une chambre d’hôtel lors d’un voyage. Mais surtout lorsque les données sensibles comme vos diagnostics médicaux ou votre dossier fiscal se retrouvent en ligne. Cependant, vous ne devriez pas vous inquiéter, car les données d’identification personnelle ont été supprimées, rendant ainsi vos informations « anonymes ».
La pratique actuelle consiste à éliminer les éléments manifestement identifiables tels que les noms, les numéros de téléphone, les adresses électroniques, etc. Les ensembles de données sont également modifiés pour être moins précis, les colonnes des feuilles de calcul sont supprimées et le « bruit » est introduit dans les données, a rapporté MIT Technology Review dans un article publié mardi.
Les politiques de protection de la vie privée nous assurent que cela signifie qu’il n’y a aucun risque que nous puissions être retracés dans la base de données de sorte que dans la plupart des pays du monde, les données anonymes ne sont pas considérées comme des données personnelles, c’est-à-dire, que l’information peut être partagée et vendue sans enfreindre les lois sur la vie privée, selon The New York Times. Les études de marché sont prêtes à payer les courtiers pour un large éventail de données, allant des préférences de datation aux tendances politiques, en passant par les achats des ménages et la diffusion en continu des données favorites.
Cependant, la nouvelle étude suggère que les données « anonymisées » avec les pratiques actuelles sont loin d’être anonymes. Les chercheurs de ces deux universités ont créé un modèle d’apprentissage machine qui estime exactement à quel point il est facile de ré-identifier des individus à partir d’un ensemble de données anonymisées. Ils ont rapporté dans la revue Nature Communications que leur modèle est capable d’identifier 99,98 % des Américains à partir de presque tous les ensembles de données disponibles avec aussi peu que 15 caractéristiques, comme le sexe, le code postal ou l’état civil.
« Au fur et à mesure que l’information s’accumule, les chances que ce ne soit pas vous diminuent très rapidement », a expliqué Yves-Alexandre de Montjoye, chercheur à l’Imperial College de Londres et un des auteurs de l’étude.
Pour parvenir à leur conclusion, les chercheurs ont rassemblé une base de données de 210 ensembles de données différents provenant de cinq sources, dont le recensement américain. Ils ont ensuite introduit ces données dans leur modèle d’apprentissage machine, qui a appris quelles combinaisons sont plus ou moins uniques et lesquelles le sont moins. Et enfin, le modèle attribue la probabilité d’une identification correcte.
Mais ce qui est encore plus surprenant, c’est la décision des scientifiques de publier le code de leur logiciel en ligne pour que n’importe qui puisse y accéder. Habituellement, lorsque les scientifiques découvrent une faille de sécurité, ils alertent le fournisseur ou l’organisme gouvernemental qui héberge les données. Mais ils n’ont pas procédé ainsi, car il y a de nombreuses données anonymes circulent dans le monde entier, et toutes sont en danger, a dit le Dr de Montjoye.
Selon le chercheur, la décision de la divulgation du code a été difficile à prendre. Il s’agissait donc de choisir entre garder ou publier la méthode afin que les fournisseurs de données puissent sécuriser les futurs ensembles de données et empêcher la ré-identification des individus.
« C’est très difficile », a dit le Dr de Montjoye. « Tu dois croiser les doigts que tu l’as bien fait, parce qu’une fois qu’il est là, tu ne le récupéreras jamais ».
Ce n’est la première étude qui montre à quel point il est facile de retrouver des individus à partir de bases de données anonymes. Selon The News York Times, en 2016, des individus ont été identifiés à partir de l’historique de navigation de trois millions d’Allemands, données qui avaient été achetées avec un fournisseur. Aussi, les généticiens ont déjà montré que les individus peuvent être identifiés dans des bases de données génétiques supposées anonymes.
Ces preuves montrent que toutes les pratiques d’anonymisation actuelles ont pris du retard par rapport à notre capacité à les briser
Selon The Times, parmi les moyens habituels de protection de la vie privée, il y a la « dé-identification » des personnes en supprimant des attributs ou en substituant de fausses valeurs, ou en ne divulguant que des fractions d’un ensemble de données rendues anonymes. Mais, d’après Dr de Montjoye, le fait que l’ensemble de données soit incomplet ne protège pas la vie privée des gens. Selon lui, les preuves recueillies jusqu’à présent montrent que toutes les méthodes actuelles sont inadéquates et ont surtout pris du retard par rapport à notre capacité à les briser. « Nous devons aller au-delà de la dé-identification », a-t-il dit, avant d’ajouter que « L’anonymat n’est pas une propriété d’un ensemble de données, mais une propriété de la façon dont vous l’utilisez ».
MIT Technology Review a rapporté que ces méthodes pourraient, par ailleurs, être utilisées à de mauvaises fins. Par exemple, quelqu’un qui cherche à commettre une fraude d’identité ou à obtenir des renseignements à des fins de chantage pourrait se servir de ces moyens.
« Le problème, c’est que nous pensons que lorsque les données ont été rendues anonymes, elles sont sûres. Les organisations et les entreprises nous disent que c’est sans danger, ce qui prouve que ce n’est pas le cas », a dit Dr de Montjoye.
Toutefois, selon The Times, l’équilibre est délicat en la matière, car l’information qui devient totalement anonyme devient également moins utile, en particulier pour les scientifiques qui tentent de reproduire les résultats d’autres études. Mais chaque petite partie qui est conservée dans une base de données rend l’identification des individus plus possible.
Des solutions pour empêcher la re-identification des personnes
Entre autres solutions proposées, il y a le contrôle d’accès aux données sensibles, telles que les dossiers médicaux. Les personnes habilitées devraient accéder à ces données dans une salle sécurisée. Les données peuvent être utilisées mais pas copiées, et tout ce qui est fait avec l’information doit être enregistré, a rapporté The Times. Kamel Gadouche, directeur général d’un centre de données de recherche en France, le CASD, a expliqué que les chercheurs peuvent également accéder à l’information à distance, mais « il y a des exigences très strictes pour la salle où le point d’accès est installé ».
Selon M. Gadouche, le CASD détient des informations sur 66 millions de personnes, y compris des données fiscales et médicales, fournies par les gouvernements et les universités. « Nous ne restreignons pas l’accès », a dit le directeur du centre. « Nous contrôlons l’accès ».
Mais il y a des inconvénients de la méthode du contrôle de l’accès aux données. A titre d’exemple, si un scientifique soumet un article de recherche à une revue, d’autres scientifiques pourraient vouloir confirmer les résultats en utilisant les données d’origine. Mais si l’accès est soumis à un contrôle, la confirmation des résultats sera un véritable défi.
Une autre solution a été rapporté par MIT Technologie Review. Selon Charlie Cabot, directeur de recherche chez Privitar, une firme d’ingénierie en protection de la vie privée, la méthode consiste pour les organisations à utiliser la protection différentielle de la vie privée, un modèle mathématique complexe qui permet aux organisations de partager des données agrégées sur les habitudes des utilisateurs tout en protégeant l’identité d’une personne.
Selon MIT Technologie Review, la technique subira pour la première fois un test majeur l’année prochaine. Elle est déjà utilisée pour sécuriser la base de données du recensement américain, a rapporté le magazine. Mais les organisations rendront-elles vraiment les données personnelles totalement anonymes si en le faisant elles deviennent moins utiles ?