PROJET AUTOBLOG


FunInformatique

Site original : FunInformatique

⇐ retour index

Mise à jour

Mise à jour de la base de données, veuillez patienter...

3 différences entre Data Warehouse et Data Lake

Sunday 29 November 2020 à 16:00

Selon Google, l’intérêt pour les «Big Data» est à la hausse depuis plusieurs années. Mais il a vraiment pris de l’ampleur cette dernière année.

Le but de cet article est de mettre en évidence les différences entre les Data Lacs et les Data Warehouse.

Les Data Lakes et les Data Warehouse sont tous conçus pour stocker des grandes données( Big Data). Cependant, ces deux types de stockage de données sont très différents.

En fait, la seule véritable similitude entre eux est leur capacité à stocker des données.

C’est quoi Data Warehouse ?

Le terme Data Warehouse se traduit en français par “Entrepôt de données”. A la manière d’un véritable entrepôt, le Data Warehouse permet de collecter, ordonner, et stocker des informations provenant de base de données opérationnelles.

Ceci permet aux entreprises d’améliorer les prises de décisions en effectuant des requêtes pour examiner les tendances de leurs clients.

C’est quoi Data Lake ?

Le terme de Date Lake se traduit en français par “lac de données. C’est une méthode de stockage des données utilisée également par le big data. Au contraire d’un Data Warhouse, les données sont gardées dans leurs formats originaux ou sont très peu transformées. Data lake permet de stocker des données brutes provenant de sources diverses.

3 différences entre un data lake et un data warehouse

Ensuite, mettons en évidence trois différences clés entre Data Warehouse et Data Lake. Il existe un certain nombre de facteurs de différenciation essentiels entre un data lake et un data warehouse, voici trois de ces facteurs:

Data Lake stocke des données brutes, Date Warehouse stocke des données transformées

Les données brutes sont des données qui n’ont pas encore été analysée et utilisée dans un but précis.

La plus grande différence entre les data lakes et les data warehouses est sans doute la différence de structure entre les données brutes et les données transformées : les data lakes stockent généralement des données brutes non transformées, alors que les data warehouses stockent des données transformées et nettoyées.

Comme les Data Lacs, les Data Warehouse permettent de stocker une grande quantité de données. Cependant leur stockage nécessite de les structurer un minimum, c’est à dire qu’il s’agit de les retravailler pour passer ainsi d’une “donnée brute” à une “donnée nette”.

Data Lakes conserve toutes les données

Pendant le développement d’un data Warehouse, un temps considérable est consacré à l’analyse et la compréhension des données.

Généralement, si les données ne sont pas utilisées pour répondre à des questions spécifiques ou dans un rapport défini, elles peuvent être exclues du data Wahrehouse

Cela est généralement fait pour simplifier le modèle de données et également pour économiser de l’espace de stockage des serveurs.

En revanche, le Date Lac conserve TOUTES les données.

Pas seulement des données qui sont utilisées aujourd’hui, mais des données qui peuvent être utilisées et même des données qui ne peuvent jamais être utilisées simplement parce qu’elles POURRAIENT être utilisées un jour.

Cette approche devient possible car le matériel d’un Data Lac diffère généralement beaucoup de celui utilisé pour un Data Warehouse.

Data Lake s’adapte facilement aux changements

L’un des principaux inconvénients concernant les Data Wharehouse est le temps nécessaire pour les modifier.

Un temps considérable est consacré à l’avance pendant le développement pour obtenir la bonne structure de l’entrepôt.

Une bonne conception d’entrepôt peut s’adapter au changement, mais en raison de la complexité du processus de chargement des données et du travail effectué pour faciliter l’analyse et la génération de rapports, ces changements consomment nécessairement certaines ressources de développeur et prennent du temps.

De nombreuses questions commerciales ne peuvent pas attendre que l’équipe du Data Wharehouse adapte son système pour y répondre.

Les data lakes n’ont pas de structure et sont donc faciles à consulter et modifier ; les modifications à apporter aux données peuvent être faites très rapidement, dans la mesure où les data lakes sont soumis à très peu de restrictions.

Donc les utilisateurs peuvent explorer les données de nouvelles façons et répondre à leurs questions très rapidement.

Tutoriels recommandés pour vous

Data Management Platform, c'est quoi et comment ça fonctionne ?

Sunday 29 November 2020 à 15:38

Une Data Management Platform est une plateforme de gestion des données des internautes. Il s’agit d’une plateforme proposée généralement en mode SaaS qui permet de récupérer, centraliser, gérer et utiliser les données des utilisateurs.

Comment ça marche une DPM ?

A chaque visite d’un site web des informations des internautes sont récupérées, stockées et classées dans une base de données. Elles sont ensuite utilisées pour personnaliser l’expérience utilisateur et ainsi avoir une vision 360 degrés de ses prospects ou clients.

Pour cela, une Data Management Platform utilise les cookies pour analyser le comportement des internautes et tirer le meilleur profit de ces données. Le but ultime est de pouvoir reconnaître sa cible sur l’ensemble des canaux online & offline.

Comment les données sont collectées ?

Concrètement, les données sont collectées depuis trois sources :

Que faire avec une DMP ?

Une DMP peut être utilisée sur tous les leviers, de l’emailing à la personnalisation de l’offre en temps réel sur le site marchand.

A partir des données collectées, stockées et traitées par la DMP, on pourra envisager diverses actions, comme par exemple :

Avantages de la DMP ?

De nombreuses raisons peuvent donc pousser une entreprise à s’équiper d’une Data Management Platform.

En croisant l’ensemble de ces données, les entreprises disposent d’une connaissance bien plus précise de leurs clients et prospects. Ce qui permet de:

Tutoriels recommandés pour vous

Data analytics – C'est quoi ?

Sunday 29 November 2020 à 12:16

Le Data Analytics est un ensemble de méthodes statistiques visant à tirer des conclusions de masses d’informations. Cette science s’appuie sur les innombrables données récoltées par une entité pour comprendre certains phénomènes et ainsi mieux les anticiper.

Dans le monde de l’entreprise, cela permet par exemple de prendre les décisions les plus adéquates le plus rapidement possible. Grâce au développement de la science, les analystes sont équipés d’outils à but descriptif, prédictif ou prescriptif et peuvent ainsi faire parler les données.

Quelle est la différence entre le Data Mining et le Data Analytics ?

A la différence du Data Mining qui fouille les données, le Data Analytics se focalise sur des données brutes afin d’en tirer des conclusions plus sommaires, sans rechercher de modèles cachés.

Le but est d’en ressortir des informations compréhensibles et accessibles pour tous, de faire parler les données. Des données qui ne sont pas observables de prime abord et nécessitent d’être traitées.

Elles sont souvent traduites par des représentations graphiques pour être encore plus facilement appréhendées.

Les différents types de Data Analytics

On distingue 3 sortes de domaine analytique. Chacun d’eux possède un but précis et participe à sa manière à la prise de décision la plus adéquate.

Exemples concrets d’utilisation

Les Data Analyst interviennent quotidiennement dans les entreprises et recherchent sans cesse les données pertinentes selon les directives qu’ils reçoivent.

Un site marchand a par exemple recours à l’analyse de données pour déterminer le comportement des visiteurs sur leur site.

Les études menées peuvent dégager les tendances comportementales des utilisateurs tout en utilisant des données multiples et complexes.

En fonction des résultats, l’entreprise peut décider de la marche à suivre en termes de fidélisation, d’offres supplémentaires ou bien même de la restructuration de certaines pages du site. Évidemment plus les données collectées en amont sont importantes, plus les enseignements tirés sont précis.

Autre exemple, en période de soldes, les boutiques vont décider en amont des remises à effectuer. Selon les premières tendances de ventes, la remise pourra être accentuée ou bien laissée au même taux.

Si un article est jugé suffisamment “accéléré” par un remise à -20%, il y a de fortes chances qu’il reste à ce taux. En revanche, si les Data Analyst remarque qu’un article soldé à -20% ne voit pas ses ventes boostées, alors la direction de l’offre prendre certainement la décision de passer cet article à une remise supérieure.

Tutoriels recommandés pour vous

Data warehouse définition – Qu’est-ce que c’est ?

Sunday 29 November 2020 à 09:07

Le terme Data Warehouse se traduit en français par “Entrepôt de données”. A la manière d’un véritable entrepôt, le Data Warehouse permet de stocker des téraoctets de données fonctionnelles.

Ces données sont collectées, traitées et ordonnées dans un entrepôt de données. Elles peuvent ensuite être croisées, coupées, analysées, décortiquées… c’est ce qu’on appelle le Datamining.

Sa finalité est d’aider à la prise de décisions. Evidemment, ces quantités de données ne peuvent être stockées que sur de puissants systèmes informatiques.

La qualité d’un Data Warehouse dépend essentiellement de la qualité des données qui s’y trouvent, de leur fiabilité et de leur cohérence. Des points primordiaux pour tirer les enseignements les plus pertinents.

Différences entre une base de donnés et un Data Warehouse

La confusion entre les deux termes est fréquente tant plus que les deux concepts s’apparentent.

Cela dit, la base de données sert en général à une fonction précise de l’entreprise (service client, comptabilité, achats, ressources humaine…) alors que le Data Warehouse permet d’analyser toutes ces infos à la fois.

Le Data Warehouse est la concentration de toutes les bases de données en une seule base. 

Autre différence, les bases de données sont en théorie optimisées pour une lecture rapide. Un simple coup d’oeil et les informations peuvent être lues et décryptées.

En revanche, le Data Warehouse va stocker ces données de manière agrégées, demandant une première analyse avant de pouvoir décrypter les informations qui s’y trouvent.

Les bases de données de chaque métier de l’entreprise sont donc au service des Data Warehouse et les alimentent.

Les grandes caractéristiques du Data Warehouse

Bill Inmon

Bill Inmon, le fondateur du concept décrivait le Data Warehouse comme n’étant “pas une simple copie des données de production. Le Data Warehouse est organisé et structuré”.

Concrètement, à quoi sert le Data Warehouse ?

Contrairement aux systèmes opérationnels, le Data Warehouse permet l’analyse de l’activité de l’entreprise sur des milliers d’enregistrement parfois recoupés d’autres informations.

Ceci permet aux entreprises d’améliorer les prises de décisions en effectuant des requêtes pour examiner les processus, les performances et les tendances de leurs clients.

Exemple concret :

Avec le Data Warehouse, on peut analyser l’impact d’une remise à -30% sur les clients fidèles et sur les clients qui vont leur premier achat. Pour aller encore plus loin, on peut différencier les boutiques qui avaient ce produit en vitrine contre celles qui ne l’avaient pas.

Les informations propres à plusieurs services sont ici utilisées et serviront à répondre à plusieurs questions :

Des décisions qui impacteront les services opérationnelles de merchandising, d’approvisionnement, etc..

Tutoriels recommandés pour vous

Data Scientist – Ce qu’il faut maîtriser pour exercer ce métier

Saturday 28 November 2020 à 10:18

Big Data: c’est le mot à la mode en ce moment. Un mot à la fois flou et passionnant, stressant et futuriste mais surtout qui génère de nouveaux métiers, dont celui de Data scientist.

Data Scientist, c’est quoi ?

Aujourd’hui, le Big Data, cette masse gigantesque de données numériques ne peut plus être ignorée et oubliée. C’est une mine d’or virtuelle qui aide à augmenter les revenus. Mais pour bien l’exploiter, il faut que quelqu’un sait traiter et analyser ces données. C’est là que le Data scientist intervient. Il analyse, exploite et donne du sens à ces données de plus en plus gigantesques.

Les data sientist sont à la fois mathématicien et informaticien. Et, comme ils chevauchent également le monde des affaires, ils sont très recherchés et bien payés.

Quel est le rôle d’un Data Scientist ?

En tant que Data Scientist, votre rôle est la gestion et de l’analyse des données. Plus précisément, le Data Scientist a le rôle de faire parler les données et de les mettre au service de la direction d’une entreprise.

Vous réaliserez par exemple des moteurs de recommandations, des prédictions pour améliorer les ventes de votre entreprise, ou encore des intelligences artificielles pour des applications mobiles.

Quelles sont les missions d’un Data Scientist

Il n’y a pas de mission précis lorsqu’il s’agit d’un rôle de Data Scientist. Mais voici quelques fonctions qu’il doit faire probablement:

Comment devenir Data Scientist ?

Le métier de Data Scientist est passionnant. Cependant, il s’agit également d’un poste à haute responsabilité, qui nécessite des prédispositions naturelles et une éducation de haut niveau.

Le Data Scientist sort d’une formation supérieure en école d’ingénieur (bac+5), voire un doctorat (bac+8) en analyse statistique et programmation informatique. Il justifie également de 4 à 5 ans d’expérience dans l’analyse de données ou dans un environnement datacenter.

Il faut bien entendu être un passionné des chiffres et des statistiques et respecter des règles de confidentialité car les données que manipulent le data scientist sont par essence sensibles et stratégiques.

Voici les compétences indispensables pour espérer faire carrière dans ce domaine.

Pour plus de détails sur comment devenir data scientist, regardez cette vidéo:

Tutoriels recommandés pour vous

Unknown feed type?!