1 844 sites Web recueillaient l’adresse électronique d’un utilisateur de l’UE
Mais sur un site grand public classé parmi les 1000 premiers, les utilisateurs ne s’attendent probablement pas à ce que leurs informations soient enregistrées au clavier. Selon une nouvelle étude, un nombre surprenant de sites web collectent tout ou partie des données utilisateurs lorsqu’ils les saisissent. Un nombre surprenant des 100 000 principaux sites Web comporte des enregistreurs de frappe qui enregistrent secrètement tout ce que l’utilisateur tape dans un formulaire.
Des chercheurs de la KU Leuven, de l’université Radboud et de l’université de Lausanne ont exploré et analysé les 100 000 principaux sites web, en examinant les scénarios dans lesquels un utilisateur visite un site dans l’Union européenne et un site aux États-Unis. Ils ont découvert que 1 844 sites Web recueillaient l’adresse électronique d’un utilisateur de l’UE sans son consentement et que 2 950 sites Web enregistraient l’adresse électronique d’un utilisateur américain sous une forme ou une autre. Il semble que de nombreux sites n’aient pas l’intention de procéder à la collecte de données, mais qu’ils intègrent des services de marketing et d’analyse tiers à l’origine de ce comportement.
En mai 2021, après avoir exploré des sites à la recherche de fuites de mots de passe, les chercheurs ont également découvert 52 sites Web sur lesquels des tiers, dont le géant russe de la technologie Yandex, collectaient des données relatives aux mots de passe avant de les envoyer. Le groupe a communiqué ses conclusions à ces sites, et les 52 cas ont depuis été résolus.
« S’il y a un bouton Soumettre sur un formulaire, on peut raisonnablement s’attendre à ce qu’il fasse quelque chose qu’il soumette vos données lorsque vous cliquez dessus », explique Güneş Acar, professeur et chercheur au sein du groupe de sécurité numérique de l’université Radboud et l’un des responsables de l’étude. « Nous avons été très surpris par ces résultats. Nous pensions que nous allions peut-être trouver quelques centaines de sites web où votre émail est collecté avant que vous le soumettiez, mais cela a dépassé de loin nos attentes.
Les chercheurs, qui présenteront leurs résultats lors de la conférence sur la sécurité Usenix en août, disent avoir été incités à enquêter sur ce qu’ils appellent les « formulaires de fuite » par des articles de presse, notamment de Gizmodo, concernant des tiers collectant des données de formulaire indépendamment du statut de soumission. Ils soulignent qu’à la base, ce comportement est similaire à celui des enregistreurs de frappe, qui sont généralement des programmes malveillants qui enregistrent tout ce qu’une cible tape.
Comme indiqué precedement, sur un site grand public classé parmi les 1000 premiers, les utilisateurs ne s’attendent probablement pas à ce que leurs informations soient enregistrées au clavier. Dans la pratique, les chercheurs ont constaté quelques variations du comportement. Certains sites enregistraient les données touche par touche, mais de nombreux sites capturaient les soumissions complètes d’un champ lorsque les utilisateurs cliquaient sur le suivant.
« Dans certains cas, lorsque vous cliquez sur le champ suivant, ils collectent le précédent, comme vous cliquez sur le champ du mot de passe et ils collectent l’émail, ou vous cliquez juste n’importe où et ils collectent toutes les informations immédiatement », explique Asuman Senol, un chercheur sur la vie privée et l’identité à la KU Leuven et l’un des coauteurs de l’étude. « Nous ne nous attendions pas à trouver des milliers de sites web ; et aux États-Unis, les chiffres sont vraiment élevés, ce qui est intéressant ».
Selon les chercheurs, les différences régionales peuvent être liées au fait que les entreprises sont plus prudentes en matière de suivi des utilisateurs, et même potentiellement intégrées avec moins de tiers, en raison du règlement général sur la protection des données de l’UE. Ils soulignent toutefois qu’il ne s’agit là que d’une possibilité, et que l’étude n’a pas examiné les explications de cette disparité.
Grâce à un effort substantiel pour informer les sites web et les tiers collectant des données de cette manière, les chercheurs ont découvert que l’une des explications de la collecte inattendue de données peut être liée à la difficulté de différencier une action « soumettre » des autres actions de l’utilisateur sur certaines pages web. Mais les chercheurs soulignent que, du point de vue de la protection de la vie privée, ce n’est pas une justification adéquate.
Depuis l’achèvement de leur article, le groupe a également fait une découverte sur Meta Pixel et TikTok Pixel, des traceurs marketing invisibles que les services intègrent sur leurs sites web pour suivre les utilisateurs sur le web et leur montrer des publicités. Dans leur documentation, tous deux affirment que les clients peuvent activer la « correspondance automatique avancée », ce qui déclenche la collecte de données lorsqu’un utilisateur soumet un formulaire.
Dans la pratique, cependant, les chercheurs ont constaté que ces pixels de suivi capturaient les adresses électroniques hachées, une version masquée des adresses électroniques utilisées pour identifier les internautes sur les différentes plateformes, avant leur envoi. Pour les utilisateurs américains, 8 438 sites pourraient avoir transmis des données à Meta, la société mère de Facebook, par le biais de pixels, et 7 379 sites pourraient être concernés pour les utilisateurs européens. Pour TikTok Pixel, le groupe a trouvé 154 sites pour les utilisateurs américains et 147 pour les utilisateurs européens.
Les chercheurs ont déposé un rapport de bogue auprès de Meta le 25 mars, et la société a rapidement affecté un ingénieur au dossier, mais le groupe n’a pas reçu de nouvelles depuis. Les chercheurs ont informé TikTok le 21 avril, ils ont découvert le comportement de TikTok plus récemment et n’ont pas eu de réponse. « Les risques pour la vie privée des utilisateurs sont qu’ils seront suivis encore plus efficacement ; ils peuvent être suivis à travers différents sites Web, à travers différentes sessions, à travers le mobile et le bureau, déclare Acar. Une adresse électronique est un identifiant tellement utile pour le suivi, car elle est globale, unique et constante. Vous ne pouvez pas l’effacer comme vous effacez vos cookies. C’est un identifiant très puissant. »
Acar souligne également qu’à mesure que les entreprises technologiques cherchent à éliminer progressivement le suivi basé sur les cookies pour répondre aux préoccupations en matière de protection de la vie privée, les spécialistes du marketing et autres analystes s’appuient de plus en plus sur des identifiants statiques tels que les numéros de téléphone et les adresses électroniques.
Étant donné que les résultats indiquent que la suppression des données d’un formulaire avant de le soumettre peut ne pas suffire à vous protéger de toute collecte, les chercheurs ont créé une extension Firefox appelée LeakInspector pour détecter les formulaires malveillants. Ils espèrent que leurs résultats sensibiliseront les internautes, mais aussi les développeurs et les administrateurs de sites Web, qui pourront vérifier de manière proactive si leurs propres systèmes ou les tiers qu’ils utilisent collectent des données dans des formulaires sans consentement.
Fuites vers Meta (Facebook) & TikTok
Meta Pixel et TikTok Pixel disposent tous deux d’une fonctionnalité appelée Automatic Advanced Matching qui collecte de manière automatisée les identifiants personnels hachés des formulaires web. Les identifiants personnels hachés sont ensuite utilisés pour cibler les publicités sur les plateformes respectives, mesurer les conversions ou créer de nouvelles audiences personnalisées.
Selon la documentation de Meta, et de TikTok, la correspondance automatique avancée devrait déclencher la collecte de données lorsqu’un utilisateur soumet un formulaire. Les chercheurs indiquent avoir constaté que, contrairement à ce qui est affirmé, Meta et TikTok Pixel collectent des données personnelles hachées lorsque l’utilisateur clique sur des liens ou des boutons qui ne ressemblent en rien à un bouton d’envoi. En fait, les scripts Meta et TikTok n’essaient même pas de reconnaître les boutons d’envoi ou d’écouter les événements d’envoi (de formulaire). Cela signifie que Meta et TikTok Pixel collectent des informations personnelles hachées, même lorsqu’un utilisateur décide d’abandonner un formulaire et clique sur un bouton/lien pour quitter la page.
Communication à Meta
« L’événement SubscribedButtonClick se déclenche à chaque clic, entraînant la collecte de DPI contre l’intention de l’utilisateur. Lorsque la correspondance automatique avancée est activée, l’événement SubscribedButtonClick est déclenché après avoir cliqué sur pratiquement tous les boutons ou liens d’une page. Cela signifie que Meta Pixel collecte des informations personnelles hachées, même lorsqu’un utilisateur décide d’abandonner un formulaire et clique sur un bouton/lien pour quitter la page.
« Selon sa page officielle, la correspondance automatique avancée devrait déclencher la collecte de données lorsqu’un utilisateur soumet un formulaire : « Après que le visiteur a cliqué sur Soumettre, le code JavaScript du pixel détecte automatiquement et transmet les champs de formulaire pertinents à Facebook. Contrairement à ce qui est affirmé, Meta Pixel collecte des données personnelles hachées lorsque l’utilisateur clique sur des liens ou des boutons qui ne ressemblent en rien à un bouton de soumission. En fait, le code JavaScript de Meta en question n’essaie même pas de reconnaître les boutons d’envoi, ou d’écouter les événements d’envoi (de formulaire).
abcmouse.com (un site web pour enfants) : Meta Pixel collecte l’adresse électronique hachée lorsque l’utilisateur ferme la boîte de dialogue de la newsletter. Dans ce cas, le partage de l’adresse électronique est exactement le contraire de l’intention de l’utilisateur.
prothomalo.com : le fait de cliquer sur les liens “Retour“, “Conditions d’utilisation” ou “Politique de confidentialité” déclenche la collecte de l’adresse électronique hachée et des nom et prénom (hachés). « Nous espérons que vous reconnaîtrez le désaccord entre le comportement décrit et le comportement réel de la correspondance automatique avancée, et que vous prendrez les mesures nécessaires pour résoudre ce problème. »
Une communication à similaire a été effectuée avec Tiktok
source : developpez