RGPD : quand le machine learning accompagne la mise en conformité
Dans quelle mesure un algorithme peut-il contrôler la conformité des politiques de confidentialité vis-à-vis du RGPD ? Des chercheurs s’y sont intéressés.
Facebook muet sur l’exploitation de certaines catégories de données, Airbnb qui invoque son « intérêt légitime » sans en donner une définition claire… Les plates-formes en ligne ont encore du travail pour mettre leurs politiques de confidentialité en conformité avec le RGPD.
Des chercheurs de l’Institut universitaire de Florence ont établi ce constat à l’issue d’une étude menée au printemps avec des pairs des universités de Bologne et de Modène.
Le BEUC (Bureau européen des unions de consommateurs) a soutenu ces travaux, axés sur l’automatisation du contrôle desdites politiques de confidentialité.
Un algorithme baptisé Claudette (« automated CLAUse DETectEr ») a été développé dans ce cadre. Sur le principe de l’apprentissage automatique supervisé, il a été alimenté au préalable avec des données traitées par des humains. Notamment un corpus de conditions générales examinées dans le cadre d’une précédente étude.
Les chercheurs ont défini un « standard de conformité » basé sur trois critères.
En premier lieu, l’exhaustivité et la précision de l’information fournie concernant une douzaine de points dont l’identité du responsable de traitement et les types de données collectés. Deuxièmement, la compatibilité des traitements sur une dizaine d’aspects dont la publicité, les personnes mineures et la communication de données à des tiers. Troisièmement, la clarté de l’expression.
À chacun son angle
Dans l’absolu, le RGPD n’impose pas la publication d’une politique de confidentialité. Article 29 le recommande toutefois vivement. Le groupe des Cnil européennes privilégie une centralisation en un seul document comportant un texte « simplifié » tout en donnant accès à la version détaillée.
Sur les 14 politiques de confidentialité analysées à plusieurs reprises, aucune ne peut être, affirment les chercheurs, considérée comme parfaitement conforme. Sur un cumul de 3 658 phrases, 401 (11 %) contiennent des propos flous ; 1 240 (33,9 %) sont signalées comme potentiellement problématiques.
Outre la question de l’« intérêt légitime » comme base légale de traitement, Airbnb n’est pas clair sur le partage de données avec les réseaux sociaux.
Du côté d’Apple, on part du principe que des éléments comme la profession, la langue maternelle et le code postal ne relèvent pas du champ des données personnelles.
Google tend pour sa part à vulgariser excessivement sa politique de confidentialité, quand Microsoft ne fournit pas de voie de recours auprès des autorités chargées de la protection des données.
Quelques-unes des 14 plates-formes scrutées fixent par ailleurs l’âge minimal de consentement à 13 ans, alors que le RGPD l’établit par défaut à 16 ans (les États membres ayant la possibilité de le rabaisser jusqu’à 13 ans).
Plusieurs approches ont été expérimentées pour tester l’algorithme. Détecter d’abord les clauses problématiques puis les classer par catégories s’est révélé plus efficace que l’inverse. Les faux positifs ont, en outre, diminué en recherchant simultanément les clauses vagues (les taux de détection se sont approchés de ceux enregistrés lors de l’étude précédente).
Certaines catégories (contact du DPO, décision intégralement réalisée par un algorithme…) sont plus facilement identifiables que d’autres (finalités des traitements, base légale…).
Crédit photo : Cayusa via VisualHunt.com / CC BY-NC