RGPD : quand le machine learning accompagne la mise en conformité

Dans quelle mesure un algorithme peut-il contrôler la conformité des politiques de confidentialité vis-à-vis du RGPD ? Des chercheurs s’y sont intéressés.

Facebook muet sur l’exploitation de certaines catégories de données, Airbnb qui invoque son « intérêt légitime » sans en donner une définition claire… Les plates-formes en ligne ont encore du travail pour mettre leurs politiques de confidentialité en conformité avec le RGPD.

Des chercheurs de l’Institut universitaire de Florence ont établi ce constat à l’issue d’une étude menée au printemps avec des pairs des universités de Bologne et de Modène.

Le BEUC (Bureau européen des unions de consommateurs) a soutenu ces travaux, axés sur l’automatisation du contrôle desdites politiques de confidentialité.

Un algorithme baptisé Claudette (« automated CLAUse DETectEr ») a été développé dans ce cadre. Sur le principe de l’apprentissage automatique supervisé, il a été alimenté au préalable avec des données traitées par des humains. Notamment un corpus de conditions générales examinées dans le cadre d’une précédente étude.

Les chercheurs ont défini un « standard de conformité » basé sur trois critères.

En premier lieu, l’exhaustivité et la précision de l’information fournie concernant une douzaine de points dont l’identité du responsable de traitement et les types de données collectés. Deuxièmement, la compatibilité des traitements sur une dizaine d’aspects dont la publicité, les personnes mineures et la communication de données à des tiers. Troisièmement, la clarté de l’expression.

À chacun son angle

Dans l’absolu, le RGPD n’impose pas la publication d’une politique de confidentialité. Article 29 le recommande toutefois vivement. Le groupe des Cnil européennes privilégie une centralisation en un seul document comportant un texte « simplifié » tout en donnant accès à la version détaillée.

Sur les 14 politiques de confidentialité analysées à plusieurs reprises, aucune ne peut être, affirment les chercheurs, considérée comme parfaitement conforme. Sur un cumul de 3 658 phrases, 401 (11 %) contiennent des propos flous ; 1 240 (33,9 %) sont signalées comme potentiellement problématiques.

Outre la question de l’« intérêt légitime » comme base légale de traitement, Airbnb n’est pas clair sur le partage de données avec les réseaux sociaux.

Du côté d’Apple, on part du principe que des éléments comme la profession, la langue maternelle et le code postal ne relèvent pas du champ des données personnelles.

Google tend pour sa part à vulgariser excessivement sa politique de confidentialité, quand Microsoft ne fournit pas de voie de recours auprès des autorités chargées de la protection des données.

Quelques-unes des 14 plates-formes scrutées fixent par ailleurs l’âge minimal de consentement à 13 ans, alors que le RGPD l’établit par défaut à 16 ans (les États membres ayant la possibilité de le rabaisser jusqu’à 13 ans).

Plusieurs approches ont été expérimentées pour tester l’algorithme. Détecter d’abord les clauses problématiques puis les classer par catégories s’est révélé plus efficace que l’inverse. Les faux positifs ont, en outre, diminué en recherchant simultanément les clauses vagues (les taux de détection se sont approchés de ceux enregistrés lors de l’étude précédente).

Certaines catégories (contact du DPO, décision intégralement réalisée par un algorithme…) sont plus facilement identifiables que d’autres (finalités des traitements, base légale…).

Crédit photo : Cayusa via VisualHunt.com / CC BY-NC

Les Podcasts de Splunk

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

RGPD : quand le machine learning accompagne la mise en conformité

À chacun son angle

S’abonner

RGPD : comment transférer des données hors de l’UE

RGPD : Windows 10 Entreprise teste une « option » pour la télémétrie

RGPD : la Cnil publie son registre de traitements

Cybersécurité : cinq mesures pour protéger ses réseaux

Comprendre «l'après» peut aider les entreprises à se protéger contre les ransomwares

13 conseils pour télétravailler en toute sécurité

Choisir son fournisseur Cloud, une décision stratégique pour les PME

Le stockage dans le cloud continue d’inquiéter les PME

Numérique : le temps de l'augmentation est venu

À chacun son angle

S’abonner

Partager l'épisode

RGPD : comment transférer des données hors de l’UE

RGPD : Windows 10 Entreprise teste une « option » pour la télémétrie

RGPD : la Cnil publie son registre de traitements

Cybersécurité : cinq mesures pour protéger ses réseaux

Comprendre «l'après» peut aider les entreprises à se protéger contre les ransomwares

13 conseils pour télétravailler en toute sécurité

Choisir son fournisseur Cloud, une décision stratégique pour les PME

Le stockage dans le cloud continue d’inquiéter les PME

Numérique : le temps de l'augmentation est venu