Pour gérer vos consentements :

Twitter donne un coup de fouet à l’exploitation de données sociales

Accéder quasi instantanément à tous les contenus publiés sur Twitter depuis l’ouverture de la plate-forme de micro-blogging en 2006 ? Il y a une API pour ça.

Lancé cette semaine après des expérimentations en association avec un cercle restreint de partenaires parmi lesquels Brandwatch, NetBase et Sprout Social, ce connecteur a été développé par les équipes de Gnip.

Cette start-up du Colorado, spécialisée dans l’exploitation de données sociales, était passée dans le giron de Twitter en 2014. Depuis lors, sa mission n’a pas changé : faciliter, pour les entreprises, l’accès aux tweets en vue d’une analyse à des fins marketing, publicitaires, de veille ou de gestion de la relation client.

La technologie permettait jusqu’alors de remonter jusqu’à 30 jours en arrière. Depuis le 11 août, elle donne accès à 9 ans d’archives, depuis le premier tweet posté le 21 mars 2006 par Jack Dorsey, cofondateur du réseau social.

Du point de vue technique, cette API RESTful accepte les requêtes écrites dans la syntaxe déjà exploitée par l’outil PowerTrack de Gnip. Les tweets sont classés du plus récent au plus ancien, sachant que les affichages sont limités à 31 jours ou 500 résultats (une commande « suivant » est disponible pour passer au prochain jeu de données).

En consultant la documentation technique de cette « Full Archive API », on constate qu’elle prend en charge la plupart des opérateurs associés à PowerTrack. On citera from:, retweets_of:, has:mentions: ou encore has:images.

Dans l’état actuel, les caractères spéciaux sont normalisés. Ce qui peut poser des problèmes dans certaines langues comme l’espagnol, où une simple lettre accentuée peut modifier le sens d’un mot (on parle d’accent grammatical, par opposition à l’accent tonique).

De même, lors d’une recherche par phrases (insérées entre guillemets, selon la syntaxe de l’API), les signes de ponctuation sont traités comme des espaces : « Hello, World » est traité de la même façon que « Hello. World ».

On notera par ailleurs cette petite subtilité sur la recherche d’adresses Internet : il faut absolument fournir des mots ou groupes de mots « complets ». Concrètement, pour l’URL https://www.google.com/doodles, la requête url_contains:«google.com» est valide, tout comme url_contains:«doodles»… mais pas url_contains:«oogle.com», ni url_contains:«google.com/doo».

La plupart du temps, les tweets sont affichés tels qu’ils existent au moment de la requête. Dans certains cas, par exemple avec les opérateurs from, to et @, ils peuvent être retournés tels qu’ils étaient au moment de leur publication (ce qui, ici, s’explique par le fait que le nom d’utilisateur a pu changer).

Le maximum de requêtes autorisées est fixé à 120 par minute. Twitter estime ainsi qu’une heure est nécessaire pour analyser 1 millions de tweets répartis de manière plus ou moins égale sur l’espace d’un an (on peut toutefois aller plus rapidement en parallélisant les tâches).

Crédit photo : pryzmat – Shutterstock.com

Recent Posts

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

3 semaines ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

2 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

2 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

3 mois ago

Windows 11 : comment Microsoft va réduire la taille des mises à jour

Comment réduire la taille des mises à jour de Windows 11 ? Microsoft annonce la…

4 mois ago

Windows 11 : comment Bloc-notes va remplacer WordPad

Déjà doté de la sauvegarde automatique, d'un compteur de caractères et de Copilot, Bloc-notes embarque…

5 mois ago