Le big data et la notion de datalake nouvelle génération

par marketingthema

slide11

La notion de datalake se démocratise mais c’est quoi un datalake temps réel ou réactif ? Le point.

 La notion de datalake est de plus en plus à la mode et commence à arriver dans nos systèmes d’information (SI). Nous sommes forcés de constater que ce nouveau concept ressemble à des choses que l’on a déjà connues (datawarehouse, infocentre, datamart…).

Alors en quoi est-ce si différent ?

Le datalake dans sa définition première représente cette zone où l’on déverserait toute ses données internes ou externes afin d’en extraire cette quintessence que tout chef d’entreprise espère… Le Graal de l’exploration de la donnée en somme.

Ce nouveau paradigme de datalake est né du fait que l’on peut avoir une approche différente de celle des entrepôts de données (datawarehouse) qui étaient lourds à mettre en place et surtout très rigides.

En effet , tout le monde a été confronté, au fait, que l’alimentation, la modélisation, la restitution dans son datawarehouse donnent le vertige quand les utilisateurs demandent une nouvel indicateur.

La modélisation multidimensionnelle et l’alimentation des tables d’agrégats sont un cauchemar en termes de délai de mise à disposition. De plus, l’utilisateur devra exprimer son besoin de façon très précise afin d’optimiser l’axe d’analyse voulu car sinon les temps de requêtage seront trop long.

La frustration sera d’autant plus grande que si une nouvelle demande survient, il devra repasser par toute la chaîne (conception, modélisation, alimentation, restitution…)

C’est là que le dig data et la notion de datalake intervient. Les technologies telles que Hadoop et Impala (Cloudera) permettent de donner une respiration à votre SI.

On peut utiliser la capacité des composants Hadoop et du monde NoSQL pour réaliser un datalake réactif. On peut maintenant avec ce type de technologie alimenter notre entrepôt de données en temps réel avec un mode message. Kafka est une des briques du monde Hadoop (développée par LinkedIn) qui fonctionne comme un broker de message et qui permet de déverser une quantité de données très importante dans notre datalake. Les systèmes sources s’abonnent à des Topics (File d’attente) et déposent leurs données.

Full paper here

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :