Blog

< Retour aux articles

Le Data Lake, extension du Big Data

Big data lake

Alors même que le concept de Big Data n’est pas encore maîtrisé, un nouveau venu, le Data Lake, littéralement traduit par « lac de données » fait son entrée dans le domaine de manipulation et d’exploitation des données.

 

En quoi consiste le Data Lake ?

C’est un concept nouveau et étroitement lié à celui du Big Data. Ce terme est souvent assimilé à un réservoir de stockage de données qui sont intégrées à l’état brut, ne sont pas structurées, et conservent cet état jusqu’à ce qu’elles soient utilisées. L’expression Data Lake est utilisée pour désigner tout système de stockage de données de grand volume, qui ne suivent pas un schéma précis. Le concept de lac de données est apparu au moment où on a senti la nécessité de conserver un important volume de données qui ne seront pas analysées et utilisées dans l’immédiat, mais qui s’avèrera, un jour ou l’autre toujours utile. Un exemple caractéristique du Data Lake est la conservation d’informations sur les statuts sociaux, les commentaires sur les blogs : ces informations ne seront pas utilisées sur le moment, mais pourraient, dans le futur, être croisées entre elles et exploitées.
 

Les utilisations du Data Lake

La formule en vogue est désormais : « Si tu ne sais pas à quoi cette donnée va servir, tu pourras toujours le découvrir plus tard », et les acteurs du marketing seraient les plus intéressés par l’utilisation du Data Lake. Toute entreprise qui souhaite prendre de l’avance sur ses concurrents ou être compétitive serait sûrement intéressée d’obtenir des informations ayant une relation étroite avec les clients, comme leur comportement ou leurs attentes. Toutes les données qui pourraient servir pour les offensives et stratégies en marketing sont recueillies telles les informations laissées par les internautes sur les sites web ou les centres d’appel, les commentaires sur les réseaux sociaux ou les forums, les évolutions de leurs commandes. Le Data Lake possède cet avantage de pouvoir faire coexister des données très cohérentes et ordonnées avec celles qui ne le sont pas du tout. Il incombe ensuite aux Data Scientist ou les spécialistes d’analyse de données de décider de la manière de les utiliser.
 
Le Data Lake est maintenant un concept très à la mode dans le domaine du Big Data. Avec les nouvelles technologies développées par les géants du numérique qui ont entraîné la baisse du coût du stockage des données, même les entreprises qui n’avaient pas les moyens de se lancer dans des projets Big Data, peuvent désormais l’essayer.
TOP