Pour gérer vos consentements :

Sécurité IT : qui veut voler du machine learning ?

Quelques minutes peuvent suffire à reproduire un modèle d’apprentissage automatique… et à reconstituer les données qui lui sont associées.

Ce constat, cinq chercheurs l’établissent dans un rapport du 9 septembre 2016 intitulé « Stealing Machine Learning Models via Prediction APIs ».

Leur démonstration se base sur des techniques d’extraction et de rétro-ingénierie, à partir des API que de plus en plus de fournisseurs mettent à disposition pour simplifier l’exploitation de leurs systèmes d’intelligence artificielle dans le cadre d’offres cloud.

Alors où est la brèche ? Dans la nature même de ces solutions de « machine learning as a service »*, selon les chercheurs issus de l’université de Caroline du Nord, de l’EPFL Lausanne et de Cornell Tech. En l’occurrence, dans les données qu’elles fournissent en réponse à des requêtes.

En premier lieu, l’indicateur de confiance que les modèles prédictifs associent aux résultats qu’ils délivrent : échelonné de 0 à 1, il est exprimé en 16 chiffres significatifs chez Amazon Web Services et avec 5 chiffres après la virgule chez BigML.

Les chercheurs sont formels : leur attaque est d’autant moins performante que le nombre de chiffres diminue. Ils conseillent donc d’arrondir les indicateurs de confiance pour toutes les applications qui n’ont pas besoin d’une haute précision.

Du simple au complexe

Autre écueil : certaines API peuvent répondre à des requêtes partielles qui ignorent certains paramètres des modèles prédictifs. Particulièrement utile pour des tiers malintentionnés qui souhaiteraient percer les secrets d’un arbre de décision dont ils ignorent la structure exacte.

Dans la pratique, moins de 1 500 requêtes ont été nécessaires pour répliquer un algorithme Amazon qui prédit le salaire d’un individu en fonction d’éléments tels que son emploi, son statut marital et sa réputation auprès des établissements financiers. Il n’aura par ailleurs fallu que 650 requêtes espacées d’environ 100 ms pour s’approprier un modèle destiné à reconnaître l’écriture manuscrite des chiffres. Et environ 4 000 sur BigML pour un algorithme qui devine quelle cuisson une personne privilégie pour un steak.

Comme Nicholas Papernot, chercheur à l’université de Pennsylvanie et auteur de travaux en la matière, le confie à Wired, il faut relativiser : il est bien plus difficile de percer les secrets de modèles d’apprentissage automatique complexes, conçus pour répondre à des questions ouvertes. Ce que l’on confirme du côté de BigML, ainsi que d’Amazon, qui précise que ses API « machine learning » ne sont pas en accès public (seule une documentation partielle est fournie).

Quelles motivations à « voler » ainsi des modèles d’apprentissage automatique ? Pour certains, il s’agira d’éviter de payer pour exploiter le service auprès d’un tiers. D’autres lorgneront les jeux de données qui ont servi à créer et à entraîner ledit modèle.

* Dans la documentation de sa plate-forme Azure Machine Learning, Microsoft définit un modèle prédictif comme une « abstraction de la question à laquelle on essaye de répondre ou le résultat qu’on souhaite prédire ».