Au tour de LinkedIn de miser sur l’open source pour améliorer un outil développé en interne.
La société Internet américaine confie à la communauté sa solution WhereHows, qui associe un entrepôt de métadonnées et des outils de découverte.
Selon l’équipe Data chargée du projet, il s’agit de « créer un référentiel central et un portail pour les processus, les utilisateurs et les connaissances autour de l’élément le plus important de tout système big data : les données elles-mêmes ».
En l’état actuel, WhereHows* regroupe les métadonnées liées à 50 000 jeux de données représentant l’équivalent de 15 Po répartis sur différents clusters. Mais aussi à 14 000 commentaires, ainsi qu’à 35 millions d’opérations sur les données et d’éléments concernant la ligne de données.
Principal objectif pour LinkedIn : disposer d’une vue unifiée de ses silos de données en unifiant la grande diversité des environnements big data constitués au fil du temps.
Le réseau social professionnel travaille effectivement avec de nombreuses sources et bassins d’information. Ses flux de production sont pilotés par différents moteurs d’ordonnancement et de multiples moteurs de transformation sont exploités pour créer et traiter des données dérivées.
Cette spécialisation garantit l’accès au meilleur outil pour chaque tâche, mais elle ne permet pas de donner facilement un sens au flux de données global.
C’est là qu’intervient WhereHows, dont la mise en place a débuté après la construction d’un data warehouse regroupant les données essentielles des différents silos.
Le chantier, encore loin d’être finalisé, devrait s’accélérer par la voie de l’open source. Pour l’heure, l’entrepôt est accessible via une API et une interface Web. Celle-ci inclut des fonctions de recherche, de visualisation des liens de parenté et de collaboration – des annotations, par exemple.
Il est question d’intégrer, dans le court terme, des systèmes de provisionnement et de gestion du cycle de vie des données, comme Nuage et Gobblin.
* L’architecture de WhereHows se compose du référentiel, d’un serveur Web qui récupère les données au travers des deux interfaces (Web app, API) et d’un serveur back-end qui cherche périodiquement les métadonnées sur d’autres systèmes.
Crédit photo : hin255 – Shutterstock.com
Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…
Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…
L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…
Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…
Comment réduire la taille des mises à jour de Windows 11 ? Microsoft annonce la…
Déjà doté de la sauvegarde automatique, d'un compteur de caractères et de Copilot, Bloc-notes embarque…