Les discours de haine en ligne apparaissent le plus souvent sur les forums de discussion, d’après une étude d’Utopia Analytics pour le ministère de la Justice finlandais. Le rapport révèle que les forums de discussion reçoivent 97 % des messages de discours de haine identifiés. Les types de plateformes les plus importants ensuite sont les messages Twitter avec 2,5 % et les messages Instagram avec 0,2 %. Les blogs, les commentaires sur l’actualité et les messages Facebook publics représentent moins de 0,02 % de l’ensemble des discours de haine identifiés. L’ensemble de données n’incluait pas les discussions privées, comme les groupes ou comptes Facebook.
Le projet, qui fait partie du programme Facts Against Hate du ministère de la Justice, a testé la capacité de l’intelligence artificielle à reconnaître les discours haineux dans les environnements en ligne. L’approche combinait l’évaluation humaine avec l’apprentissage automatique. L’un des objectifs clés était de trouver les principaux canaux de diffusion des discours haineux, et d’identifier les différences entre les plateformes pour ce genre de discours.
La définition du discours de haine était basée sur des recherches universitaires dans le domaine des sciences sociales. La définition a été faite en produisant des catégories de discours haineux, puis utilisée pour identifier manuellement des exemples de discours haineux dans un ensemble de données de messages en ligne. Ces annotations ont ensuite été utilisées comme données d’apprentissage pour Utopia AI Moderator, un outil indépendant de la langue qui utilise l’analyse textuelle et l’apprentissage automatique. L’ensemble de données comportait 12 millions de commentaires et messages en finlandais, publiés entre septembre et octobre 2020.
Les résultats montrent qu’environ 150 000 messages contenant des discours haineux apparaissent chaque mois sur les plateformes de réseaux sociaux finlandaises disponibles publiquement. Cela représente environ 1,8 % de l’ensemble des messages.
Parmi les plateformes de réseaux sociaux publiques internationales, Twitter semble être la principale, avec 7 450 messages identifiés comme étant des discours de haine, soit 0,14 % de tous les tweets. Les retweets jouent un rôle important dans la circulation de ces messages : 39 % de tous les tweets contenant des discours haineux sont des copies.
« Bien que l’ensemble de données fût principalement composé de messages en finlandais », a déclaré le Dr Mari-Sanna Paukkeri, PDG d’Utopia, « les résultats seraient très similaires dans d’autres langues. Par exemple, la principale plateforme pour les discours de haine en finlandais, Ylilauta, est un homologue du célèbre forum 4chan. Par ailleurs, nous pouvons construire un modèle d’IA similaire pour identifier les discours de haine dans n’importe quelle langue en seulement deux semaines. Tout ce dont nous avons besoin, c’est qu’une personne formée nous dise comment définir les discours haineux dans votre culture et votre langue, et nous avons besoin des données à analyser. »
Bibliothèque multimédia/photos : https://utopiaanalytics.com/media-library
Le texte du communiqué issu d’une traduction ne doit d’aucune manière être considéré comme officiel. La seule version du communiqué qui fasse foi est celle du communiqué dans sa langue d’origine. La traduction devra toujours être confrontée au texte source, qui fera jurisprudence.
Consultez la version source sur businesswire.com : https://www.businesswire.com/news/home/20210422005735/fr/