Se connecter

goodpods headphones icon

Pour accéder à toutes nos fonctionnalités

Ouvrez l’application Goodpods
Close icon
Decideo - Data Science, Big Data, Intelligence Augmentée - #4.4 Zeenea lance un catalogue de data products

#4.4 Zeenea lance un catalogue de data products

01/24/24 • 3 min

Decideo - Data Science, Big Data, Intelligence Augmentée
Une place de marché pour cataloguer les data products

Vous avez décidé de suivre la tendance ? Bravo ! C’est à dire de vous appuyer sur les utilisateurs métiers pour gérer et gouverner leurs données. Et vos propriétaires de données développent des data products, en négociation directe avec les consommateurs de ces mêmes données. Fantastique ! Selon plusieurs études, entre 50 et 70 % des entreprises seraient en train de planifier ou de déployer ce type d’architecture.

Généralement, lorsque je présente cette nouvelle organisation à des entreprises, cela soulève deux questions : celle du catalogage des data products, et celle du stockage des données.

Pour ce qui est du stockage, beaucoup de solutions ont émergé; on parle souvent de Snowflake ou de Databricks, mais également de Amazon Data Zone que je vous présentais la semaine dernière.

En ce qui concerne le catalogage des données, c’est plus compliqué.

Par définition, un catalogue de données catalogue ... des données. Or là, ces données sont regroupées dans des jeux de données, ces fameux data products.

Comment un catalogue de données peut-il évoluer vers un catalogue de jeux de données. C’est ce que propose depuis cette semaine Zeenea. Zeenea est un éditeur français, qui propose à ses clients une gestion de catalogue de données.

Dans Zeenea, un Data Product est, je cite, “une collection de Jeux de Données de haute qualité et leurs métadonnées (propriétés, description, termes de glossaire liés, etc.), fournissant un contexte clair aux consommateurs de données”.

L’éditeur a choisi de créer un magasin de data products. A l’image d’un site de commerce électronique, les utilisateurs de données vont pouvoir consulter une “Enterprise Data Marketplace”, dans laquelle les producteurs de données auront déposé leurs data products. Vous pouvez donc dans Zeenea cataloguer vos données, et partager vos data products.

La solution est de plus basée sur un graphe de connaissance. Il permet aux utilisateurs de découvrir des données ou des data products, en suivant les liens. Les points essentiels tels que la gestion du cycle de vie, des politiques d’accès aux données, ou encore de la conformité des data products, sont pris en charge par la plateforme. A plus long terme, Zeenea envisage de décentraliser plus encore ses catalogues de données, en intégrant une forme de fédéralisation. Un catalogage géré par les utilisateurs, mais dans un cadre de gouvernance fédéral.

Alors, appelez cela data mesh, ou pas, mais clairement Zeenea va dans la bonne direction. Allez, juste une remarque, Zeenea devrait intégrer la notion de data contracts dans sa plateforme. Ce contrat, signé entre le producteur et le consommateur d’un data product, est justement la partie qui manque à la théorie du data mesh.

plus icon
bookmark
Une place de marché pour cataloguer les data products

Vous avez décidé de suivre la tendance ? Bravo ! C’est à dire de vous appuyer sur les utilisateurs métiers pour gérer et gouverner leurs données. Et vos propriétaires de données développent des data products, en négociation directe avec les consommateurs de ces mêmes données. Fantastique ! Selon plusieurs études, entre 50 et 70 % des entreprises seraient en train de planifier ou de déployer ce type d’architecture.

Généralement, lorsque je présente cette nouvelle organisation à des entreprises, cela soulève deux questions : celle du catalogage des data products, et celle du stockage des données.

Pour ce qui est du stockage, beaucoup de solutions ont émergé; on parle souvent de Snowflake ou de Databricks, mais également de Amazon Data Zone que je vous présentais la semaine dernière.

En ce qui concerne le catalogage des données, c’est plus compliqué.

Par définition, un catalogue de données catalogue ... des données. Or là, ces données sont regroupées dans des jeux de données, ces fameux data products.

Comment un catalogue de données peut-il évoluer vers un catalogue de jeux de données. C’est ce que propose depuis cette semaine Zeenea. Zeenea est un éditeur français, qui propose à ses clients une gestion de catalogue de données.

Dans Zeenea, un Data Product est, je cite, “une collection de Jeux de Données de haute qualité et leurs métadonnées (propriétés, description, termes de glossaire liés, etc.), fournissant un contexte clair aux consommateurs de données”.

L’éditeur a choisi de créer un magasin de data products. A l’image d’un site de commerce électronique, les utilisateurs de données vont pouvoir consulter une “Enterprise Data Marketplace”, dans laquelle les producteurs de données auront déposé leurs data products. Vous pouvez donc dans Zeenea cataloguer vos données, et partager vos data products.

La solution est de plus basée sur un graphe de connaissance. Il permet aux utilisateurs de découvrir des données ou des data products, en suivant les liens. Les points essentiels tels que la gestion du cycle de vie, des politiques d’accès aux données, ou encore de la conformité des data products, sont pris en charge par la plateforme. A plus long terme, Zeenea envisage de décentraliser plus encore ses catalogues de données, en intégrant une forme de fédéralisation. Un catalogage géré par les utilisateurs, mais dans un cadre de gouvernance fédéral.

Alors, appelez cela data mesh, ou pas, mais clairement Zeenea va dans la bonne direction. Allez, juste une remarque, Zeenea devrait intégrer la notion de data contracts dans sa plateforme. Ce contrat, signé entre le producteur et le consommateur d’un data product, est justement la partie qui manque à la théorie du data mesh.

Épisode précédent

undefined - #4.3 AWS met le catalogue de données au coeur de sa Data Zone

#4.3 AWS met le catalogue de données au coeur de sa Data Zone

Un peu comme Monsieur Jourdain faisait de la prose sans le savoir, la mode semble aujourd’hui de faire du Data Mesh sans le dire. Presque toutes les entreprises que je rencontre testent actuellement le concept de Data Product, permettant de faire négocier directement les producteurs et les consommateurs de données. Mais personne ne semble utiliser le terme de Data Mesh. Alors certes, inventé par Zhamak Dehghani en 2019, le data mesh est également devenu pour son inventeur l’occasion de promouvoir un outil informatique ad-hoc.

Mais c’est surtout parce que le data mesh est assez contraignant, si l’on en respecte l’ensemble des principes. Les entreprises choisissent donc plutôt de s’en inspirer et de sélectionner les règles qu’elles souhaitent appliquer.

Se pose bien entendu la question de l’architecture informatique qui va supporter ces data products. Hors de question de laisser chaque utilisateur gérer cela de son côté. Ce serait une catastrophe technique et de conformité. Mais on ne veut pas non plus revenir à une centralisation, dans un outil technique inaccessible aux utilisateurs... nous n’aurions alors pas progressé par rapport au data warehouse... Et n’oublions pas, pour compléter le tableau, que ces data products vont devoir partager la scène, pendant plusieurs années sans doute, avec les architectures centralisées actuelles. Difficile d’imaginer qu’une grande entreprise ait la maturité nécessaire pour que tous les utilisateurs prennent dès maintenant le contrôle de leurs données. Il va donc falloir gérer une transition par étape, avant d’envisager de décommissioner les systèmes centraux.

Amazon propose d’apporter une réponse avec un nouveau produit, appelé Data Zone. Il s’agit d’un “espace”, où l’on va pouvoir conserver l’ensemble des données, qu’elles soient dans des data lakes, des data products, avec une logique de place de marché. En parallèle, Amazon lance un outil d’intelligence artificielle générative au service de la donnée. Il s’appelle Data Genie. Il va fonctionner de concert avec le catalogue de données Amazon Glue Data Catalog. Et s’appuie sur ce catalogue pour y ajouter un glossaire métier, permettant à l’IA générative de créer des descriptions automatisées, et de comprendre des requêtes en langage naturel. Amazon reconnait que “cela ne remplacera jamais la description rédigée par un spécialiste métier”, mais c’est une avancée intéressante. Attention cependant, les descriptions sont uniquement générées en anglais pour l’instant.

Dans le cadre de la compréhension des requêtes envoyées par l’utilisateur en langage naturel (d’ailleurs cela fonctionne ici en français, en espagnol et en anglais), plutôt que de vectoriser l’ensemble des données pour essayer de les comprendre, Amazon Genie s’appuie là encore sur le catalogue; et c’est lui qui est vectorisé - à la clef, gain d’espace, de temps de calcul et de coût. Cela renforce la place centrale de la gouvernance des données, et de son catalogue au coeur de la plateforme data. Bien sur cela ne fonctionne que si vous utilisez l’ensemble de l’écosystème Amazon. L’éditeur nous dit que le lien peut être fait avec des catalogues existants tels que Collibra ou Alation, mais cela suppose un export de tout le catalogue au format JSON... je n’appelle pas cela de l’intégration.

Alors, la Data Zone est-elle plus claire que les Data Plate-forme, Data Hub, Data Fabric et autres Data Trucs inventés par chaque fournisseur ? Je n’en suis pas certain, mais en plaçant le catalogue de données au centre de sa Data Zone, Amazon clairement va dans la bonne direction, celle de la gouvernance des données. Et celle d’une gouvernance appliquée à une architecture moderne, autour des data products, préservant cependant l’existant.

Épisode suivant

undefined - #4.5 La gouvernance des données avec Rachid Tighremt - Layer Data

#4.5 La gouvernance des données avec Rachid Tighremt - Layer Data

Cette semaine, une conversation passionnante avec Rachid Tighremt, fondateur de la société Layer Data, qui se spécialise dans l'accompagnement des projets de gouvernance des données.

Nous parlons de conduite de projet, de choix d'un outil de catalogue de données, de la répartition des responsabilités entre l'informatique et les métiers. Nous abordons également un sujet novateur, celui du tableau de bord du projet de gouvernance : comment le construire, quels indicateurs doit-il contenir, etc.

Commentaires de l'épisode

Générer un badge

Obtenez un badge pour votre site web qui renvoie vers ce episode

Sélectionnez le type et la taille
Open dropdown icon
share badge image

<a href="https://goodpods.com/podcasts/decideo-data-science-big-data-intelligence-augment%c3%a9e-621095/44-zeenea-lance-un-catalogue-de-data-products-82061985"> <img src="https://storage.googleapis.com/goodpods-images-bucket/badges/generic-badge-1.svg" alt="listen to #4.4 zeenea lance un catalogue de data products on goodpods" style="width: 225px" /> </a>

Copier