Big data : LinkedIn verse dans l’open source pour développer WhereHows

Bases de donnéesBig dataData-stockageMarketingSocial Media
linkedin-wherehows

LinkedIn choisit la voie de l’open source pour accélérer le développement de WhereHows, sa solution de data mining orientée sur l’exploitation des métadonnées.

Au tour de LinkedIn de miser sur l’open source pour améliorer un outil développé en interne.

La société Internet américaine confie à la communauté sa solution WhereHows, qui associe un entrepôt de métadonnées et des outils de découverte.

Selon l’équipe Data chargée du projet, il s’agit de « créer un référentiel central et un portail pour les processus, les utilisateurs et les connaissances autour de l’élément le plus important de tout système big data : les données elles-mêmes ».

En l’état actuel, WhereHows* regroupe les métadonnées liées à 50 000 jeux de données représentant l’équivalent de 15 Po répartis sur différents clusters. Mais aussi à 14 000 commentaires, ainsi qu’à 35 millions d’opérations sur les données et d’éléments concernant la ligne de données.

Principal objectif pour LinkedIn : disposer d’une vue unifiée de ses silos de données en unifiant la grande diversité des environnements big data constitués au fil du temps.

Le réseau social professionnel travaille effectivement avec de nombreuses sources et bassins d’information. Ses flux de production sont pilotés par différents moteurs d’ordonnancement et de multiples moteurs de transformation sont exploités pour créer et traiter des données dérivées.

Cette spécialisation garantit l’accès au meilleur outil pour chaque tâche, mais elle ne permet pas de donner facilement un sens au flux de données global.

C’est là qu’intervient WhereHows, dont la mise en place a débuté après la construction d’un data warehouse regroupant les données essentielles des différents silos.

Le chantier, encore loin d’être finalisé, devrait s’accélérer par la voie de l’open source. Pour l’heure, l’entrepôt est accessible via une API et une interface Web. Celle-ci inclut des fonctions de recherche, de visualisation des liens de parenté et de collaboration – des annotations, par exemple.

Il est question d’intégrer, dans le court terme, des systèmes de provisionnement et de gestion du cycle de vie des données, comme Nuage et Gobblin.

* L’architecture de WhereHows se compose du référentiel, d’un serveur Web qui récupère les données au travers des deux interfaces (Web app, API) et d’un serveur back-end qui cherche périodiquement les métadonnées sur d’autres systèmes.

Crédit photo : hin255 – Shutterstock.com

Lire aussi :

Lire la biographie de l´auteur  Masquer la biographie de l´auteur