Pour gérer vos consentements :
Categories: Data-stockage

Facebook enseigne aux bots l’art de la négociation

Dans quelle mesure un bot peut-il apprendre à négocier ?

Facebook s’est intéressé à la question. Les expérimentations menées par son laboratoire de recherche en intelligence artificielle sont synthétisées dans un rapport (document PDF, 11 pages) accompagné de code source publié sur GitHub.

Pour développer les capacités de raisonnement et d’argumentation de leurs algorithmes, les chercheurs les ont d’abord entraînés, sur la base de plusieurs milliers de dialogues entre des humains.

La collecte de ces données a été réalisée par le biais de la plate-forme de crowdsourcing Amazon Mechanical Turk. Les internautes étaient payés 15 centimes par négociation.

Supervisé ou renforcé ?

Ces informations ont permis, sur le principe de l’apprentissage supervisé, d’apprendre aux robots à reproduire les comportements humains. Et plus particulièrement à traduire des pensées en langage naturel.

Est ensuite intervenue une phase d’apprentissage par renforcement : à force d’expérience à négocier contre eux-mêmes, les bots ont déterminé quelles étaient les meilleures techniques pour parvenir à leurs fins. Ici, obtenir le meilleur score possible dans une situation de partage d’objets.

Les objets en question sont des balles, des livres et des chapeaux, au nombre de 5 à 7 en fonction des scénarios. On demande à deux robots de se les répartir, sachant que chacun d’entre accorde plus ou moins d’importance à tel ou tel objet… et que son vis-à-vis l’ignore (il doit donc la deviner au fil de la discussion).

Les chercheurs ont intégré quelques paramètres, dont le fait que chacun des objets ait une valeur non nulle pour au moins un des participants. Ils se sont aussi assurés qu’il soit impossible pour lesdits participants d’obtenir simultanément le meilleur score envisageable… tout en décrétant que l’absence d’accord après 10 rounds de négociation valait un zéro pointé à chacun.

Des bots calculateurs

Constat : les bots entraînés pour orienter la discussion en fonction de ses issues probables sont moins performants que ceux qui se concentrent sur leur objectif final.

Ces derniers se sont notamment révélés capables de feintes, faisant croire à leur vis-à-vis qu’un objet avait beaucoup de valeur pour eux, alors qu’il n’en était rien. Une option que l’IA a découverte par elle-même.

La technique sous-jacente s’apparente à de la planification : le bot évalue tous les déroulés possibles de la conversation et calcule ce que lui rapporte chacune des issues. Il en devient plus « dur en affaires » (en moyenne, plus de 7 rounds par négociation, contre 5 pour le modèle par apprentissage supervisé), si bien que les humains amenés à négocier avec lui ont tendance à abandonner plus souvent.

Autre inconvénient de l’apprentissage par renforcement : les bots ont tendance à commencer leurs phrases en manifestant leur accord… avant de poser une contre-offre. Pour autant, les résultats sont plus probants, notamment sur le nombre de négociations dites « optimales » au sens où le score d’un bot ne peut pas être amélioré sans réduire celui de l’autre.

Recent Posts

PC Copilot+ : une porte d’entrée vers l’ IA locale ?

Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…

2 semaines ago

PCIe 5.0 : La révolution des cartes-mères est-elle en marche ?

Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…

3 semaines ago

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 mois ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

3 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

3 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

4 mois ago