Pour gérer vos consentements :

Salesforce creuse l’intelligence artificielle sous l’angle du résumé de texte

Le problème avec l’information, ce n’est plus d’y accéder, mais de s’y retrouver.

Ce postulat, on le doit à l’équipe de Richard Socher, « Chief Scientist » chez Salesforce depuis un peu plus d’un an, consécutivement à l’acquisition, par l’éditeur américain, de sa start-up MetaMind, spécialisée dans l’intelligence artificielle.

Avec deux de ses associés qui ont poursuivi l’aventure (Romain Paulus et Caiming Xiong), l’intéressé a planché sur une problématique liée à l’interprétation du langage naturel : le résumé de texte.

Les avancées technologiques réalisées dans le cadre de ces travaux portent essentiellement sur l’entraînement des algorithmes et sur la dimension de contexte. Elles permettront, selon Salesforce, d’améliorer la productivité de nombreux métiers, en synthétisant des chaînes d’e-mails, des articles d’actualité ou encore des évaluations de clients.

Chercher le contexte

À l’heure actuelle, les principaux algorithmes dédiés à la tâche fonctionnent soit par extraction, soit par abstraction.

Dans le premier cas, ils sélectionnent les phrases les plus pertinentes d’un document et les concatènent. La qualité des résumés qui en résultent est limitée, entre autres du fait de l’impossibilité d’utiliser des mots non présents dans le texte d’origine. L’algo a par là même tendance à paraphraser.

Le modèle d’abstraction supprime cette barrière, mais il est plus difficile à mettre en œuvre : il n’est pas rare de trouver des phrases incohérentes, des répétitions, voire des éléments sans intérêt.

Les réseaux neuronaux aujourd’hui exploités pour représenter des textes sous forme informatisée examinent les mots à la suite, l’analyse de chaque terme dépendant globalement du précédent.

MetaMind se base sur ce principe, mais introduit un deuxième réseau neuronal qui parcourt la séquence de droite à gauche, en plus de celui qui l’interprète dans le sens « conventionnel ».

Une technique dite d’« attention temporelle » est mise à contribution en parallèle pour permettre à l’algorithme de chercher, à chaque fois qu’il produit un mot, du contexte dans d’autres parties du document. Ce qui a notamment pour effet de minimiser les répétitions.

De la partie au tout

Qu’en est-il en matière d’entraînement de l’algo ? Communément, on sélectionne un résumé de référence et on compare, mot par mot, ce que produit la machine.

Comme le fait remarquer MetaMind, cette approche a ses limites : deux personnes peuvent synthétiser un texte de manière très différente (style, syntaxe, vocabulaire…) sans pour autant que leur production soit de mauvaise qualité.

Dans cette optique, il est fait appel à une technique d’apprentissage « par renforcement » : on laisse l’IA faire sa synthèse, puis on la compare à un résumé de référence. Selon le score obtenu, l’algorithme classe l’expérience comme « à oublier » ou « à reproduire ».

L’évaluation est réalisée sur la « prestation d’ensemble ».

S’étant aperçus que les résumés les mieux notés n’étaient pas forcément les plus lisibles, les chercheurs ont opté pour une combinaison des deux méthodes, la première assurant une lecture plus fluide.

Recent Posts

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 semaines ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

2 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

2 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

3 mois ago

Windows 11 : comment Microsoft va réduire la taille des mises à jour

Comment réduire la taille des mises à jour de Windows 11 ? Microsoft annonce la…

4 mois ago

Windows 11 : comment Bloc-notes va remplacer WordPad

Déjà doté de la sauvegarde automatique, d'un compteur de caractères et de Copilot, Bloc-notes embarque…

4 mois ago