Pour gérer vos consentements :
Categories: CloudSécurité

Sécurité IT : qui veut voler du machine learning ?

Quelques minutes peuvent suffire à reproduire un modèle d’apprentissage automatique… et à reconstituer les données qui lui sont associées.

Ce constat, cinq chercheurs l’établissent dans un rapport du 9 septembre 2016 intitulé « Stealing Machine Learning Models via Prediction APIs ».

Leur démonstration se base sur des techniques d’extraction et de rétro-ingénierie, à partir des API que de plus en plus de fournisseurs mettent à disposition pour simplifier l’exploitation de leurs systèmes d’intelligence artificielle dans le cadre d’offres cloud.

Alors où est la brèche ? Dans la nature même de ces solutions de « machine learning as a service »*, selon les chercheurs issus de l’université de Caroline du Nord, de l’EPFL Lausanne et de Cornell Tech. En l’occurrence, dans les données qu’elles fournissent en réponse à des requêtes.

En premier lieu, l’indicateur de confiance que les modèles prédictifs associent aux résultats qu’ils délivrent : échelonné de 0 à 1, il est exprimé en 16 chiffres significatifs chez Amazon Web Services et avec 5 chiffres après la virgule chez BigML.

Les chercheurs sont formels : leur attaque est d’autant moins performante que le nombre de chiffres diminue. Ils conseillent donc d’arrondir les indicateurs de confiance pour toutes les applications qui n’ont pas besoin d’une haute précision.

Du simple au complexe

Autre écueil : certaines API peuvent répondre à des requêtes partielles qui ignorent certains paramètres des modèles prédictifs. Particulièrement utile pour des tiers malintentionnés qui souhaiteraient percer les secrets d’un arbre de décision dont ils ignorent la structure exacte.

Dans la pratique, moins de 1 500 requêtes ont été nécessaires pour répliquer un algorithme Amazon qui prédit le salaire d’un individu en fonction d’éléments tels que son emploi, son statut marital et sa réputation auprès des établissements financiers. Il n’aura par ailleurs fallu que 650 requêtes espacées d’environ 100 ms pour s’approprier un modèle destiné à reconnaître l’écriture manuscrite des chiffres. Et environ 4 000 sur BigML pour un algorithme qui devine quelle cuisson une personne privilégie pour un steak.

Comme Nicholas Papernot, chercheur à l’université de Pennsylvanie et auteur de travaux en la matière, le confie à Wired, il faut relativiser : il est bien plus difficile de percer les secrets de modèles d’apprentissage automatique complexes, conçus pour répondre à des questions ouvertes. Ce que l’on confirme du côté de BigML, ainsi que d’Amazon, qui précise que ses API « machine learning » ne sont pas en accès public (seule une documentation partielle est fournie).

Quelles motivations à « voler » ainsi des modèles d’apprentissage automatique ? Pour certains, il s’agira d’éviter de payer pour exploiter le service auprès d’un tiers. D’autres lorgneront les jeux de données qui ont servi à créer et à entraîner ledit modèle.

* Dans la documentation de sa plate-forme Azure Machine Learning, Microsoft définit un modèle prédictif comme une « abstraction de la question à laquelle on essaye de répondre ou le résultat qu’on souhaite prédire ».

Recent Posts

Deux suites collaboratives intègrent des offres cyber packagées

Deux offres de cybersécurité portées par ITrust et Docaposte intègrent des suites collaboratives. Présentation.

1 semaine ago

PC IA : les entreprises sont enthousiastes malgré quelques incertitudes

Les dernières migrations de Windows 10 vers Windows 11 vont accélérer l'adoption des PC IA. Mais des…

4 semaines ago

Digital Workplace : comment l’IA Générative s’installe dans l’environnement de travail

L’IA générative excelle dans plusieurs cas d’usage, notamment dans l’analyse, la recherche et la synthèse…

2 mois ago

PC Copilot+ : avec Arm ou x86 ?

Trop tôt pour envisager d'acquérir un PC Copilot+ ? Les roadmaps d'Intel et d'AMD peuvent…

2 mois ago

Copilot+ : une sélection de PC convertibles

Dévoilés lors du CES 2025, les PC Copilot+ au format convertible restent encore limitée dans…

3 mois ago

Avec Gemini intégré à Google Workspace, les prix s’envolent

Les fonctionnalités de Gemini sont intégrées dans la suite bureautique Google Workspace. Conséquence : les…

3 mois ago