Twitter donne un coup de fouet à l'exploitation de données sociales

L’exploitation de données sociales sur Twitter prend une nouvelle dimension avec une API qui gère les requêtes sur l’ensemble des archives de la plate-forme.

Accéder quasi instantanément à tous les contenus publiés sur Twitter depuis l’ouverture de la plate-forme de micro-blogging en 2006 ? Il y a une API pour ça.

Lancé cette semaine après des expérimentations en association avec un cercle restreint de partenaires parmi lesquels Brandwatch, NetBase et Sprout Social, ce connecteur a été développé par les équipes de Gnip.

Cette start-up du Colorado, spécialisée dans l’exploitation de données sociales, était passée dans le giron de Twitter en 2014. Depuis lors, sa mission n’a pas changé : faciliter, pour les entreprises, l’accès aux tweets en vue d’une analyse à des fins marketing, publicitaires, de veille ou de gestion de la relation client.

La technologie permettait jusqu’alors de remonter jusqu’à 30 jours en arrière. Depuis le 11 août, elle donne accès à 9 ans d’archives, depuis le premier tweet posté le 21 mars 2006 par Jack Dorsey, cofondateur du réseau social.

Du point de vue technique, cette API RESTful accepte les requêtes écrites dans la syntaxe déjà exploitée par l’outil PowerTrack de Gnip. Les tweets sont classés du plus récent au plus ancien, sachant que les affichages sont limités à 31 jours ou 500 résultats (une commande « suivant » est disponible pour passer au prochain jeu de données).

En consultant la documentation technique de cette « Full Archive API », on constate qu’elle prend en charge la plupart des opérateurs associés à PowerTrack. On citera from:, retweets_of:, has:mentions: ou encore has:images.

Dans l’état actuel, les caractères spéciaux sont normalisés. Ce qui peut poser des problèmes dans certaines langues comme l’espagnol, où une simple lettre accentuée peut modifier le sens d’un mot (on parle d’accent grammatical, par opposition à l’accent tonique).

De même, lors d’une recherche par phrases (insérées entre guillemets, selon la syntaxe de l’API), les signes de ponctuation sont traités comme des espaces : « Hello, World » est traité de la même façon que « Hello. World ».

On notera par ailleurs cette petite subtilité sur la recherche d’adresses Internet : il faut absolument fournir des mots ou groupes de mots « complets ». Concrètement, pour l’URL https://www.google.com/doodles, la requête url_contains:«google.com» est valide, tout comme url_contains:«doodles»… mais pas url_contains:«oogle.com», ni url_contains:«google.com/doo».

La plupart du temps, les tweets sont affichés tels qu’ils existent au moment de la requête. Dans certains cas, par exemple avec les opérateurs from, to et @, ils peuvent être retournés tels qu’ils étaient au moment de leur publication (ce qui, ici, s’explique par le fait que le nom d’utilisateur a pu changer).

Le maximum de requêtes autorisées est fixé à 120 par minute. Twitter estime ainsi qu’une heure est nécessaire pour analyser 1 millions de tweets répartis de manière plus ou moins égale sur l’espace d’un an (on peut toutefois aller plus rapidement en parallélisant les tâches).

Crédit photo : pryzmat – Shutterstock.com

Les Podcasts de Splunk

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Twitter donne un coup de fouet à l’exploitation de données sociales

S’abonner

Banques et FinTech : le débat sur l’accès aux données des clients remonte à Bruxelles

Interview Anytime: la néobanque veut agréger une quinzaine de services FinTech

Rachat d’Apigee : Google demeure insatiable avec les API

Cybersécurité : cinq mesures pour protéger ses réseaux

Comprendre «l'après» peut aider les entreprises à se protéger contre les ransomwares

13 conseils pour télétravailler en toute sécurité

Choisir son fournisseur Cloud, une décision stratégique pour les PME

Le stockage dans le cloud continue d’inquiéter les PME

Numérique : le temps de l'augmentation est venu