Options Mon compte Next INpact
Affichage
Modifications sauvegardées
  • Smileys
  • Images
  • Commentaires par actu
  • Commentaires sous les news
  • Désactiver la version mobile
  • Taille de police
Close

Vous consultez la version mobile de ce contenu.

Cliquez ici pour être redirigé vers la version complète, ou attendez 5 secondes. Fermez ce pop-up pour continuer sur la version mobile.

5
secondes
Cookies (tiers), traceurs, fingerprint et compagnie : comment ça marche ?
Web Crédits : Bumbasor/iStock

Cookies (tiers), traceurs, fingerprint et compagnie : comment ça marche ?

Très bien, malheureusement
19 min

La question du pistage des internautes est sur le devant de la scène depuis des années. Si l'on pense assez rapidement aux géants du web, il est aussi opéré par de nombreux acteurs de toutes tailles, via des solutions techniques variées. Voici nos explications, pour vous permettre de mieux vous protéger.

Lorsque l'on parle de pistage en ligne, certains mots reviennent souvent : cookies (tiers), traceurs ou même les fameuses empreintes (fingerprint). Ainsi, il suffirait de les interdire ou de les bloquer pour en être débarrassé et ne plus être suivi par une multitude de services à des fins de profilage, publicitaire ou non.

Mais comme toujours, la pratique est un peu plus complexe. Ces différents outils ne sont que des solutions techniques utilisables par les développeurs. Ils peuvent être exploités à des fins tout à fait légitimes... ou pour alimenter l'ogre Big Data sans votre consentement (qui doit pourtant être renouvelé tous les 13 mois selon la loi en vigueur, précise la CNIL).

Pour mieux se protéger, il faut d'abord comprendre ce dont il est réellement question. Voici donc un petit récapitulatif pour y voir plus clair, avec des exemples et guides pratiques.

Notre dossier sur le pistage des internautes en ligne :

Un cookie, c'est quoi, comment voir leur contenu ?

Commençons par le plus simple et le plus couramment mis en cause : le cookie. Contrairement à ce que pensent certains, il ne s'agit pas d'une incarnation du diable, mais d'un simple petit fichier contenant du texte, stocké au sein de votre navigateur. Il se compose d'un nom de variable, d'une valeur, est attribué à un domaine, et se voit parfois affublé d'une date d'expiration. Il peut disposer de différents attributs comme nous le verrons plus loin.

Sa création est simple, elle peut s'effectuer depuis une requête du serveur ou côté client. En JavaScript, une ligne suffit à les créer, modifier ou supprimer, les cookies étant accessibles via la propriété document.cookie. Pour créer un cookie, afficher son contenu puis le remettre à zéro, on peut ainsi utiliser le code suivant :

document.cookie = "id=ceciestunid; expires=Wed, 02 Oct 2018 05:35:00 GMT; Secure; HttpOnly";
console.log(document.cookie);
document.cookie = "id=; expires=Thu, 01 Jan 1970 00:00:00 GMT";

Vous pouvez simplement les voir dans les différents navigateurs en cliquant sur la zone à gauche de l'URL d'un site. Sous Chrome vous verrez directement le nombre de cookies du site, un clic permettant d'accéder à la liste. Sous Firefox, vous devrez cliquez sur la flèche vers la droite, puis sur Plus d'information avant d'arriver à une fenêtre comprenant un bouton Voir les cookies qui vous donne accès à la liste.

Il est aussi possible de passer par les outils dédiés aux développeurs tant sous Chrome (CTRL+MAJ+I puis Application) que sous Firefox via l'inspecteur de stockage (MAJ+F9).

Firefox Cookies

L'objectif de départ des cookies est simple : permettre de retrouver des informations au gré de la navigation sur un site. Imaginons que vous soyez sur une page de connexion. Vous entrez votre identifiant et votre mot de passe, vous cliquez sur Valider. Le serveur vérifie vos informations et si elles sont correctes, en informe votre navigateur.

Mais imaginons maintenant que vous alliez sur une page du site, pour lire un article par exemple. Comment va-t-il savoir que vous êtes toujours la même personne ? Pour cela, il vous fournit un identifiant unique stocké dans un cookie. Lorsqu'il voudra savoir quel utilisateur vous êtes, il lui suffira d'aller chercher cette information.

De la même manière, si vous vous rendez sur un site qui vous propose d'utiliser différents thèmes graphiques, sans vous demander de vous connecter à un compte, votre choix pourra être enregistré dans un cookie. Ainsi, dès que vous viendrez sur le site, l'information sur votre thème aura été gardée en mémoire par le navigateur, lui permettant d'afficher le bon.

Les cookies peuvent donc être utilisés à des fins tout à fait légitimes, et ne sont pas un ennemi à combattre. C'est d'ailleurs là que se situe tout le problème en matière de pistage en ligne : les usages sont le point qui nécessite notre vigilance, mais il est compliqué de différencier un cookie utilisé pour rendre service et un autre destiné à nous pister.

Cookies de session, Http-only, Sécurisé, Same-site : quelles différences ?

Bien qu'un cookie soit de composition simple, il en existe différentes variantes. La première tient à la date d'expiration. Si un cookie en est dépourvu, on parle de cookie de session puisqu'il ne sera valable que jusqu'à la fermeture du navigateur. Sinon, il est considéré comme durable et ne sera supprimé qu'une fois sa date d'expiration dépassée.

Celle-ci peut être modifiée à tout moment. Elle dépendra surtout de la nature de l'information stockée. Un élément de connexion pourra être gardé pour quelques jours, ou un mois sur demande de l'utilisateur. Un paramètre de personnalisation pourra de son côté être stocké bien plus longtemps afin d'éviter d'avoir à valider un choix régulièrement. Cette durée est laissée à la discrétion de l'éditeur du site.

Autre possibilité, créer un cookie non accessible par des applications côté client, par exemple via du JavaScript. Il s'agit ici surtout de limiter les attaques de type Cross-site scripting (XSS). Un tel cookie aura alors l'attribut Http-only, qui doit être utilisé lors de sa création. 

L'attribut Sécurisé, lui, n'implique pas un niveau de chiffrement ou de protection en particulier. Il permet simplement de distinguer des cookies qui ne peuvent être transmis que dans le cadre d'une connexion sécurisée. Les navigateurs récents limitent désormais la création de ces cookies à des sites eux-mêmes accessibles via HTTPS. 

Notez que dans sa documentation à destination des développeurs, Mozilla précise qu'en aucun cas des éléments importants ne doivent être stockés dans un cookie, du fait de leur nature peu sécurisée (quels que soient leurs attributs).

Notez qu'un attribut Same-site est également disponible avec deux modes de fonctionnement : Strict et Lax. Il permet de limiter l'accès à un cookie à un seul domaine et doit permettre d'éviter des attaques de type Cross-Site Request Forgery (CRSF). Pour le moment, il est néanmoins supporté par quelques navigateurs seulement, dont Chrome et Firefox.

La question de l'identifiant unique et du fingerprinting

Comme nous avons pu le voir, le souci n'est donc pas le cookie, mais ce qu'il contient. Car outre les usages déjà évoqués, certains sites les utilisent à des fins plus ou moins problématiques.

L'un des cas souvent rencontrés est le décompte des articles lus « gratuitement » sur une période donnée, pour vous obliger à vous abonner ensuite. Une pratique connue sous le petit nom de metered paywall, qui a l'avantage d'être souple et de ne pas nécessiter d'inscription, mais qui peut être contournée... en supprimant les cookies du site.

Mais le plus souvent, c'est un simple identifiant qui est stocké, car cela suffit à constituer un élément de base du pistage en ligne et du modèle publicitaire. Là aussi, il y a des usages légitimes. Imaginez par exemple qu'un site veuille compter le nombre de visiteurs uniques venus sur une même journée. Lors de votre premier passage, il va vous attribuer un identifiant sous la forme d'un nombre aléatoire et vous comptabiliser. Lors d'un second passage, il va compter une visite en plus, mais pas un visiteur puisque votre identifiant aura déjà été vu. 

Ce même identifiant peut être utilisé à des fins publicitaires, et rattaché à des informations comme votre adresse email, les contenus que vous avez lus, les liens cliqués, etc. Il peut permettre à un site d'établir le début d'un profil, plus ou moins précis en fonction de la quantité d'informations récoltées.

Ainsi, Lagardère Active Digital annonçait en novembre 2016 disposer de 15 millions de visiteurs uniques, mais également récolter 70 millions de cookies par mois et 120 millions de données par jour. En novembre 2015, nous assistions à une réunion de l'IAB France, un organisme regroupant de nombreux acteurs de la publicité, dans laquelle Le Figaro se vantait d'avoir 200 millions de cookies, constituant pas moins de 15 millions de profils appairés.

En 2017, la tendance aura été au regroupement, avec Gravity et Skyline, destinés à permettre aux éditeurs de mettre en commun toutes les données qu'ils récoltent au sein de leurs DMP (Data Management Platform) et commercialisées à travers leurs DSP (Demand-side Platform).

Mais le plus souvent, les différents services viennent en alimenter d'autres qui amassent des quantités énormes de données sur les internautes, via différentes sources (numériques ou non). Lors de la présentation de son dernier rapport annuel, la CNIL évoquait notamment le cas des Data brokers, des organismes qui vivent de la récolte et la revente de données personnelles précisant qu'elle allait « adopter les mesures qui s’imposent en 2017 ».

Cookies Lagardère

Pour s'assurer de l'aspect unique de l'identifiant généré, les développeurs utilisent parfois des éléments techniques concernant votre machine, plutôt que d'un nombre aléatoire. On parle alors d'empreinte, ou fingerprint. Celle-ci est composée d'informations faciles à récolter à travers votre navigateur, qui est très bavard : système d'exploitation, langue, fuseau horaire, paramètres, polices et plugins installés, présence ou non d'un bloqueur de publicité, définition de l'écran, référence de l'appareil, géolocalisation (parfois de manière assez précise), etc. 

Croisées, ces informations peuvent le plus souvent permettre de suivre votre machine et pas une autre. Le service Am I Unique créé par des chercheurs de l'université de Rennes vous permet par exemple de voir la liste des informations qui peuvent être récupérées pour composer une empreinte, et si celle calculée vous concernant est unique ou non.

Mais quelle que soit la méthode utilisée, qu'est-ce qui permet à un internaute de savoir que cet identifiant sera utilisé à des fins techniques ou de pistage publicitaire ? Rien. La loi actuelle impose néanmoins le recueil du consentement dans le second cas, et dans le premier s'il y a recoupement de données. Une loi qui n'est presque jamais respectée actuellement.

Quel est le problème avec les cookies tiers ?

Cette problématique est démultipliée par une autre pratique dont vous avez peut-être entendu parler : les cookies tiers. Ici, il s'agit d'autoriser un site externe à celui que vous visitez à déposer un cookie au sein de votre machine. 

Imaginez en effet que le site TopContenuDeLaMort.com utilise les services d'un prestataire AfficheMaPub.com pour gérer ses publicités et comptabiliser le nombre de clics, d'affichages, de visiteurs uniques touchés, etc. Lorsqu'une page est chargée, une requête est effectuée vers les serveurs d'AfficheMaPub.com, qui renvoient alors la publicité à afficher, mais demandent également le stockage d'un identifiant unique pour reconnaître le visiteur.

Dans ce cas, le cookie est visible dans le navigateur lorsque l'on accède aux données de TopContenuDeLaMort.com, mais il est rattaché au domaine AfficheMaPub.com. Cela signifie que seul ce dernier pourra y accéder et en lire le contenu. Problème, l'utilisateur ne sait pas quand un tiers stocke un cookie sur sa machine, cette action étant par nature invisible.

Cookies Le Monde
111 cookies sur une page du site Le Monde, dont un trentaine « seulement » ne sont pas déposés par des tiers

Cette problématique a été accentuée par l'automatisation de la publicité et l'achat programmatique. En effet, les éditeurs mettent leurs espaces publicitaires à disposition, sans savoir qui va les remplir et de quelle manière. Certains en profitent pour placer des identifiants sous forme de cookies tiers sur votre machine à travers de nombreux sites.

Ils peuvent ainsi savoir où vous êtes allés, à quelle heure, sur quel type de contenu et en profiter pour compléter le profil publicitaire rattaché à votre identifiant. C'est pour cela qu'il est le plus souvent conseillé de désactiver les cookies tiers, rarement utilisés à des fins légitimes.

Vous pouvez donc vous en passer sans rencontrer de problème dans votre navigation au quotidien, contrairement à une désactivation complète des cookies par exemple.

Mais rares sont les utilisateurs qui y pensent. C'est pour cela qu'Apple a décidé d'activer par défaut sa technologie Intelligent Tracking Prevention avec iOS 11 (voir notre analyse). Pour faire simple, il s'agit de limiter à 24 heures la durée de vie des cookies tiers et à trente jours celle des autres, à moins que vous n'interagissiez avec le domaine.

Ainsi, seuls les sites avec lesquels l'utilisateur est en contact direct peuvent réellement stocker des données sur le long terme, cassant le tracking opéré par de nombreuses sociétés (voir le cas de Criteo). Ce type de solution va sans doute être amené à se développer sur le long terme, Firefox travaillant actuellement sur une isolation totale site par site avec la First-Party Isolation (FPI) actuellement en test. 

Web Storage, IndexedDB : le stockage des temps modernes

Depuis quelques années, notamment avec la montée en puissance d'HTML5, les cookies ne sont plus le seul moyen de stocker des données au sein du navigateur, loin de là. 

La première est l'API Web Storage, débloquant l'accès à deux éléments :  un qui est uniquement valable le temps d'une session (sessionStorage) et l'autre qui est permanent (localStorage). Ici, il n'est pas question de domaines, d'éléments sécurisés ou même de date d'expiration, mais d'une variable sous la forme clé/valeur. 

Cette solution est couramment utilisée par les développeurs voulant se prémunir du blocage des cookies, car elle n'est elle-même pas facilement blocable. Elle est même parfois rattachée au fonctionnement des cookies, comme dans Chrome par exemple.

Pour ceux voulant aller plus loin, il a un temps été question de Web SQL, une solution qui n'est plus soutenue par le W3C. Elle a depuis été remplacée par IndexedDB, présente dans tous les navigateurs : une base de données locale permettant de traiter et d'organiser de plus gros volumes de données (dans certaines limites) avec requêtes complexes. On peut également y stocker images et fichiers. De quoi multiplier les possibilités.

En 2010, le développeur Samy Kamkar publiait ainsi un « proof of concept » de son dispositif Evercookie, qui exploitait toutes les possibilités de stockage du navigateur afin de placer puis récupérer des données, quels que soient les paramètres de l'utilisateur. 

Une simple requête ou un « pixel » suffisent à vous pister

Si les cookies servent à stocker des données sur votre machine, ce n'est pas la seule manière de récupérer des informations vous concernant. En effet, vos actions peuvent être pistées plus simplement à travers une simple requête effectuée depuis un site.

Imaginez par exemple que vous êtes connecté sur Facebook et que vous vous rendiez sur un site qui affiche un bouton « J'aime » via un script chargé depuis les serveurs de Facebook. Le réseau social sera capable d'associer ces deux informations et donc de savoir que vous avez visité le site en question, peut être en récupérant des informations au passage.

Là aussi, la publicité automatisée a aggravé la situation. Les requêtes vers des domaines qui ne sont pas celui du site visité se comptent par dizaines, voire par centaines. C'est notamment de cela dont il est question lorsque des outils comme Ghostery ou Privacy Badger parlent de « trackers ». 

Il en est de même à travers l'affichage d'une simple image, parfois invisible. On parle alors de « pixel ». Facebook les utilise, comme d'autres, pour aider ses clients à suivre leurs « conversions ». Imaginez en effet que vous souhaitiez faire de la publicité pour votre site sur le réseau social. En plaçant un pixel de conversion sur vos pages, un utilisateur cliquant depuis la publicité sera comptabilisé, vous permettant de connaître l'efficacité de la campagne.

Bien entendu, Facebook ne vous dira pas qui a cliqué sur ce lien et ne vous donnera pas plus de détails, mais grâce à vous, il sait désormais quels sont les membres connectés passant sur votre site, sur quelles pages, à quelle heure, etc.

Facebook Pixel Conversion

En 2014, l'Electronic Frontier Foundation (EFF) alertait sur la mise en place par Verizon d'un dispositif exploitant les en-têtes des requêtes HTTP pour opérer un suivi de ses clients, le tout étant mis à disposition de tiers. Une fonctionnalité nommée (à tort) Supercookie à l'époque. Ce qui s'est soldé par une amende de 1,35 million de dollars et la mise en place d'un dispositif d'opt-in.

Les FAI n'ont pour autant pas abandonné l'idée d'être des intermédiaires publicitaires. Bouygues, Orange et SFR disposent en effet de régies au sein de leurs groupes et lorgnent par exemple sur la publicité adressée. Ils devront néanmoins obtenir le consentement de l'utilisateur. Notez enfin qu'Orange a stoppé son expérience publicitaire Miroir Digital le 8 novembre. Toutes les données ont ainsi été détruites, précise l'opérateur.

JavaScript : l'ami du tracking

Si de nombreux éléments de pistage peuvent être récupérés aisément, un nombre important de dispositifs dépendent d'un élément aujourd'hui essentiel pour les sites web : JavaScript. 

Cette dépendance s'étend à de nombreux éléments, de l'affichage des publicités aux scripts de tracking en passant par ceux vérifiant la présence ou non d'un bloqueur de publicité. L'affaire de la collecte massive des frappes du clavier par certains services l'a encore récemment montrée.

Le bloquer revient le plus souvent à limiter grandement la façon dont vous serez suivi en ligne, sans la bloquer totalement. De plus, les sites utilisent souvent JavaScript de manière légitime, notamment pour gérer des éléments de leur interface. Votre navigation pourra alors être gênée par un tel blocage, qui peut être global, par site ou via des exceptions directement dans les paramètres du navigateur. 

Votre email, un identifiant qui vaut de l'or

Lorsque l'on parle de pistage en ligne, il y a un identifiant auquel on ne pense pas assez souvent : l'adresse email. En effet, il est le plus souvent utilisé comme moyen de connexion à de nombreux sites, permet de vous inscrire à des newsletters, mais aussi de vous identifier et de vous contacter directement. 

Récemment, plusieurs sociétés ont été épinglées pour la récupération de cette information de manière détournée à des fins de pistage publicitaire. Elles exploitaient un formulaire caché pour activer le gestionnaire de mot de passe intégré aux différents navigateurs (voir notre analyse).

De nombreux services proposent également de constituer des « audiences » sur la base de listes d'emails. C'est notamment le cas de réseaux sociaux comme Facebook ou Twitter qui permettent à leurs clients d'envoyer une liste d'emails afin de les faire correspondre avec ceux de leurs membres. 

Vous pouvez ainsi être visé de manière fiable et l'on peut envoyer des publicités à un groupe de personne précis. Mais récemment, on apprenait qu'un bug de cette fonctionnalité sur Facebook permettait potentiellement de récupérer le numéro de téléphone de l'utilisateur. Le souci a été réglé le 22 décembre dernier.

Facebook Audience Emails

C'est ainsi que certaines sociétés visent des utilisateurs ayant déjà un compte client, mais aussi des groupes tels que des journalistes participant à un salon. Attention néanmoins, pour procéder, un éditeur doit là aussi avoir le consentement de l'utilisateur pour transférer son email à un tiers. Une précaution qui n'est, malheureusement, pas toujours suivie.

Croisé avec des éléments de pistage, l'adresse email peut être un outil terriblement efficace. Imaginez en effet un vendeur de cartes graphiques plaçant de la publicité sur un site : il peut savoir que vous êtes justement en train de lire un contenu sur le dernier GPU à la mode. Une promotion étant actuellement en cours, il n'hésitera pas à vous envoyer un email vantant cette offre quelques secondes à peine après votre passage.

Mode incognito : vous n'êtes pas forcément protégé

Les utilisateurs pensent souvent que la meilleure manière de limiter le suivi en ligne est d'utiliser le mode incognito de leur navigateur. Il a des avantages clairs comme la suppression de l'historique, des cookies ou du stockage local dès la fin de la session. Mais rien de plus. 

Votre adresse IP pourra donc être récupérée, tout comme de nombreuses données issues de votre navigateur.  Il est aussi en général dépourvu d'extensions, limitant les bloqueurs de tracking/publicité. Si vous l'utilisez pour vous connecter à un service, et vous rendre ensuite sur des sites, un lien pourra à nouveau être constitué. 

De fait, il s'agit surtout de vous préserver d'un tiers ayant accès à votre machine et voulant connaître votre historique de navigation, ou d'accéder à un site de manière « neutre » que d'une réelle protection de votre vie privée.

Tor Browser et Tails comme meilleurs moyens de s'anonymiser

Nous l'avons vu, en l'état actuel du web, il est difficile d'échapper au tracking. S'il est possible d'agir pour le plus gros des pratiques, il est presque impossible de s'en préserver totalement à moins de multiplier les extensions, de bloquer les cookies et le stockage local, JavaScript, d'utiliser un VPN, de changer constamment de navigateur, etc. 

Pour ceux qui ont néanmoins un réel besoin à ce niveau, il existe une solution : Tor Browser. Outre l'utilisation du réseau Tor – qui masque l'origine de votre connexion Internet – de nombreuses fonctionnalités et extensions sont présentes par défaut pour réduire le plus possible le pistage. Il existe là aussi des conseils à suivre pour éviter de tout fiche en l'air, en utilisant BitTorrent par exemple.

Plus complète, la distribution Tails fournit de nombreux outils permettant de préserver au maximum votre anonymat au-delà de votre simple navigation sur le web.

Le véritable ennemi : le recoupement de données

Au final, on comprend que le fond du problème vient de la capacité de certains acteurs à recouper de nombreuses données auxquelles ils ont accès. L'exemple le plus frappant est Google, qui propose des dizaines de services, gratuits ou non, et peut donc y collecter une montagne d'informations nous concernant.

Mais avec des outils comme Google Analytics, Google Fonts, Google reCAPTCHA ou encore Google Ads, la société se paie le luxe de récupérer également des informations depuis la quasi-totalité des sites, notamment en Europe et aux États-Unis. Le tout, alors que les internautes sont connectés à ses services en permanence, et utilisent parfois même son navigateur Chrome en étant, là encore, connectés à leur compte Google. De quoi tout savoir de vous, assez précisément.

Il y a assez peu de solutions, si ce n'est limiter le plus possible d'être connecté à ces services, de les utiliser, et de bloquer Google Analytics avec le service d'opt-out que la société est obligée de fournir. Firefox propose également une solution à travers les Containers (ou contextes) qui isolent certains sites du reste de la navigation.

De manière plus générale, c'est seulement à travers des contraintes accrues de la réglementation que l'internaute pourra être mieux protégé. C'est tout l'enjeu du Règlement général sur la protection des données (RGPD) et d'ePrivacy, qui doivent entrer en vigueur en mai prochain et renforcer les obligations en matière de consentement. 

Mais rien ne sera possible si les organismes comme la CNIL ne jouent pas pleinement leur rôle. Espérons que nous aurons désormais droit à une véritable vigilance sur la question, et des sanctions en cas d'abus.

Publiée le 11 janvier 2018 à 08:30


Chargement des commentaires