Le Data Lake : LA solution pour accéder à des données clients 360°

 

 

 

 

data-lake (2)

 

Le Data Lake est un concept relativement nouveau inventé par le CTO de Pentaho, James Dixon, en 2011, qui s’est accéléré avec la convergence du besoin de plateformes fédératrices dans les entreprises et les nouveaux moyens techniques apportés par les technologies Big Data. L’idée générale est de pouvoir fournir un stockage global des informations présentes dans l’entreprise, avec suffisamment de flexibilité pour interagir avec les données, qu’elles soient brutes ou très raffinées. Cette faculté permet d’insérer toutes les données, quelles que soient leur nature et leur origine. Au-delà du stockage, l’un des enjeux du Data Lake est de pouvoir très facilement traiter et transformer l’information afin d’accélérer les cycles d’innovation, et ainsi être un support aux différentes initiatives data.

Le Data Lake doit donc permettre de casser les silos des systèmes d’information et de gagner en agilité.

Nous cherchons à montrer ici que le Data Lake est LA solution pour gérer et stocker au mieux vos données.

 

datalake1

1) Les atouts d’un Data Lake 

Les atouts du Data Lake sont multiples :

  • Il permet de stocker des données de toutes natures et structures en temps réel.
  • Il utilise des outils technologiques très à la page, ce qui fait de lui un système expert.
  • On lui associe souvent des processus de machine learning qui lui permettent de réaliser des modèles prédictifs.

Le fait de ne pas imposer de schéma strict aux données, lors de leur intégration dans le data lake, présente un risque de qualité et de fiabilité. Dans les faits, on constate que les données restent finalement non structurées assez peu longtemps, puisqu’elles passent rapidement dans un pipeline qui va permettre de normaliser les sources et de les cataloguer pour obtenir des meta-données. La gouvernance apparaît alors comme l’un des enjeux majeurs du bon fonctionnement d’un Data Lake.

L’approche de « Schema On Read » qui n’applique une structure aux données que lorsqu’elles sont utilisées permet de garder tout le potentiel des données d’origine intact. Cependant, cet aspect nécessite des compétences et des outils très techniques afin d’exploiter les données.

Le Data Lake est très souvent basé sur des technologies qui permettent le traitement in-situ des données. Le fait de disposer de puissance de calcul directement associée au stockage permet de raffiner un flux de données, et ainsi de facilement en créer les déclinaisons métier attendues. La richesse des outillages intégrés permettent à des analystes, des data-scientists, ou des développeurs de tirer parti des données et de rapidement construire des scénarios analytiques ou des applications. On y associe aussi très souvent des processus de machine learning qui ont vocation à exploiter toutes les données pour constituer des modèles prédictifs. La capacité de ceux-ci à être appliqués aux flux entrants apporte une dimension très proactive à ce type de plateforme vis-à-vis de la donnée.

2) Les usages du Data Lake

D’une manière générale, de nombreux Data Lake voient le jour par des projets de remplacement et d’amélioration des infrastructures SI existantes. Les organisations sont motivées par le besoin d’améliorer leur utilisation des données, de centraliser toutes les sources en un seul point et d’accélérer les cycles d’innovation. Les secteurs du marketing et des médias sont les premiers à saisir cette opportunité.

Selon une enquête Gartner de 2013 sur le Big Data, 56% des directeurs marketing interrogés considèrent les Data Lakes comme un de leurs principaux challenges et 26% comme une priorité.

Les Data Lakes sont à l’origine de gains substantiels sur le plan de la performance commerciale.

En effet, selon une enquête Teradata Marketing de 2014, les entreprises ayant intégré un Data Lake dans leurs services sont 20% plus performantes que leurs concurrents en 2015.

 

Le Data Lake permet, par exemple, de collecter et analyser les données d’interactions clients.

Dans une démarche de DMP (Data Management Platform), le Data Lake permet de collecter toutes les données issues des interactions avec les clients, de raffiner celles-ci pour offrir une vision à 360° sur les clients. Ces projets ont souvent vocation à appliquer sur ces données des algorithmes de segmentation, ou de prédiction pour anticiper les comportements des consommateurs. Ils mettent aussi en avant les capacités à assembler et valoriser une grande variété de données. Cependant, ces chantiers étaient encore très centrés sur les données des ventes et de leur usage marketing. Plus récemment, des projets dans le secteur industriel se sont développés, ayant pour objet de collecter toutes les sources de données liées à des environnements de fabrication, mais aussi à l’usage fait des produits afin de fiabiliser et optimiser ces produits. La capacité de collecte massive et les volumes d’informations produites, à l’ère de l’IoT, amènent de nouveaux champs d’application pour ces outils, permettant d’appréhender des masses importantes de données, et de systématiser l’utilisation de machine learning à grande échelle.

 

DMP

 

3) Les solutions techniques clés dans ce domaine

Si Hadoop, framework libre de Java semble la technologie la plus adaptée pour construire un Data Lake, du fait de sa très grande capacité à stocker des données, de son rôle de facilitateur de création d’applications distribuées et scalables, permettant aux applications de travailler avec des milliers de nœuds et des pétaoctets de données, il serait assez réducteur de penser qu’il soit l’unique solution à implémenter. Les défis à relever sont non seulement dans le stockage et le traitement des données, mais aussi dans les besoins périphériques comme la visualisation, la data science, la gouvernance des données, et les capacités de traitement en temps réel. De ce fait aujourd’hui, on trouve également des possibilités, avec Kafka, Storm ou Spark-Streaming, d’apporter des traitements à la volée sur les informations collectées avant même de les engranger dans le Data Lake.

 

 hadoop

Il est également assez tentant de donner une dimension opérationnelle à ces Data Lakes. Cette extension de l’usage nécessite alors de pouvoir utiliser les données avec des applications modifiant celles-ci. On peut alors stocker les profils utilisateurs et avoir des applications qui interagissent avec ces profils pour améliorer l’expérience des usagers pendant leurs consultations des sites web.

En complément d’Hadoop, une base NoSQL comme Cassandra permet d’utiliser les données de manière interactive, et d’apporter consistance et haute disponibilité.

Dans la construction d’un Data Lake, le cloud est assurément la meilleure option, car elle permet de provisionner à la demande les ressources pour faire croître l’infrastructure au fur et à mesure des besoins. L’élasticité est aussi un facteur d’accélération de l’innovation autour des données, et permet, par exemple, de traiter ponctuellement en marge de la production un historique de données pour valider un nouvel algorithme.

Le coût d’une telle approche est sans commune mesure avec ce qu’il faudrait mettre en place dans un déploiement « on-premise » pour arriver au même résultat. L’intérêt de bâtir un Data Lake dans le cloud n’est pas qu’économique, il faut aussi tenir compte de la richesse de composants qu’on trouve dans les offres de fournisseurs comme Google Cloud Platform ou Microsoft Azure. Ceux-ci permettent avec leurs offres PaaS d’offrir des composants très riches pour développer des applications, et des API interagissant avec la donnée. Face à l’ampleur du chantier que représente un Data Lake, le Cloud permet d’avoir une approche graduelle, et de faire appel à un service managé pour produire et exploiter cet environnement.

Ainsi, le data lake semble être la solution technologique indispensable afin d’obtenir une vision client 360°, temps réel et omnicanal. Elle permet de stocker des données de toutes natures sur les interactions clients, de les enrichir afin de raffiner la vision client et de proposer des algorithmes de prédiction et de segmentation. Une approche pour rentrer sur ces nouveaux sujets, qui a fait ses preuves, est de lancer un projet transverse de création d’une nouvelle proposition de service interne et de se concentrer sur un use case métiers à enjeux. A vous de jouer !