Facebook enseigne aux bots l’art de la négociation

Dans quelle mesure un bot peut-il apprendre à négocier ?

Facebook s’est intéressé à la question. Les expérimentations menées par son laboratoire de recherche en intelligence artificielle sont synthétisées dans un rapport (document PDF, 11 pages) accompagné de code source publié sur GitHub.

Pour développer les capacités de raisonnement et d’argumentation de leurs algorithmes, les chercheurs les ont d’abord entraînés, sur la base de plusieurs milliers de dialogues entre des humains.

La collecte de ces données a été réalisée par le biais de la plate-forme de crowdsourcing Amazon Mechanical Turk. Les internautes étaient payés 15 centimes par négociation.

bot-nego-2

Supervisé ou renforcé ?

Ces informations ont permis, sur le principe de l’apprentissage supervisé, d’apprendre aux robots à reproduire les comportements humains. Et plus particulièrement à traduire des pensées en langage naturel.

Est ensuite intervenue une phase d’apprentissage par renforcement : à force d’expérience à négocier contre eux-mêmes, les bots ont déterminé quelles étaient les meilleures techniques pour parvenir à leurs fins. Ici, obtenir le meilleur score possible dans une situation de partage d’objets.

Les objets en question sont des balles, des livres et des chapeaux, au nombre de 5 à 7 en fonction des scénarios. On demande à deux robots de se les répartir, sachant que chacun d’entre accorde plus ou moins d’importance à tel ou tel objet… et que son vis-à-vis l’ignore (il doit donc la deviner au fil de la discussion).

Les chercheurs ont intégré quelques paramètres, dont le fait que chacun des objets ait une valeur non nulle pour au moins un des participants. Ils se sont aussi assurés qu’il soit impossible pour lesdits participants d’obtenir simultanément le meilleur score envisageable… tout en décrétant que l’absence d’accord après 10 rounds de négociation valait un zéro pointé à chacun.

Des bots calculateurs

Constat : les bots entraînés pour orienter la discussion en fonction de ses issues probables sont moins performants que ceux qui se concentrent sur leur objectif final.

Ces derniers se sont notamment révélés capables de feintes, faisant croire à leur vis-à-vis qu’un objet avait beaucoup de valeur pour eux, alors qu’il n’en était rien. Une option que l’IA a découverte par elle-même.

La technique sous-jacente s’apparente à de la planification : le bot évalue tous les déroulés possibles de la conversation et calcule ce que lui rapporte chacune des issues. Il en devient plus « dur en affaires » (en moyenne, plus de 7 rounds par négociation, contre 5 pour le modèle par apprentissage supervisé), si bien que les humains amenés à négocier avec lui ont tendance à abandonner plus souvent.

Autre inconvénient de l’apprentissage par renforcement : les bots ont tendance à commencer leurs phrases en manifestant leur accord… avant de poser une contre-offre. Pour autant, les résultats sont plus probants, notamment sur le nombre de négociations dites « optimales » au sens où le score d’un bot ne peut pas être amélioré sans réduire celui de l’autre.