PROJET AUTOBLOG


FunInformatique

Site original : FunInformatique

⇐ retour index

Data Mining définition – Qu’est-ce que c’est ?

Sunday 29 November 2020 à 16:12

Le Data Mining c’est en français l’exploration de données. Une fois les données stockées sur une base dédiée à cet effet (un data warehouse), encore faut-il décrypter ces informations et en tirer les enseignements pertinents. C’est là qu’intervient le Data Mining, le forage de données.

Il s’agit d’explorer et d’analyser une base de données souvent très vaste. Cette base de données est issue de plusieurs bases de données, pour en extraire une connaissance et anticiper des phénomènes. On recherche ici un modèle caché ou non évident.

Les résultats de ces études permettent de prendre des décisions cohérentes et viables pour l’entreprise.

A quoi sert le Data Mining ?

Le but du Data Mining est de pousser les analyses à un niveau supérieur. Là où les métiers de l’entreprise s’arrêteront aux données dont leur service dispose, le Data Mining analyse les données de l’entreprise dans sa globalité.

Il recherche par exemple des corrélations entre plusieurs facteurs issus de branches différentes de l’entreprise.

Une fois les enseignements tirés, les décisionnaires comprennent les phénomènes déclenchés par leurs actions.

Ce savoir permet la prédiction, qui elle même permet la prise de décision adéquate. Grâce à leurs analyses, les Data Miners peuvent mettre en lumière des schémas totalement ignorés.

Ils peuvent par exemple mettre en avant que lorsque qu’un internaute regarde un épisode d’une série le dimanche après-midi, il y a alors 80% de chance qu’il commande à manger le soir.

Pour une entreprise de livraison à domicile, c’est un modèle extrêmement important dans la mesure où il permet de cibler les publicités vers les personnes qui répondent à ces critères.

Le processus du Data Mining décrypté

Le Data Mining c’est tout d’abord la collecte des données, les extraire les transformer, les uniformiser pour pouvoir les compiler.

Une première étape parfois longue et fastidieuse qui permet dans un second temps de stocker ces données dans les Data Warehouses.

Le challenge est de recueillir le tout en les classifiant et ordonnant d’une manière à pouvoir les utiliser et les croiser.

Pas facile lorsque les données sont si vastes :

Vient ensuite la modélisation. Étape durant laquelle les données pertinentes sont sélectionnées et corroborer avec d’autres pour “être traduites”. Souvent utilisées à travers un logiciel applicatif, les données sont organisées sous forme de graphique ou de tableau.

Les résultats peuvent être présentés et compris aisément par les décisionnaires.

En d’autres termes, les Datas Analysts et spécialistes informatiques vont décortiquer les éléments et explorer les nombreuses possibilités offertes.

Ils vont étudier les patterns qui s’offrent à eux, étudier les relations possibles, les associations potentielles entre toute les données collectées et à disposition. Un travail précieux qui est censé déboucher sur des patterns récurrents et donc désormais compris, ou bien à propos de tendances futures.

Tutoriels recommandés pour vous

3 différences entre Data Warehouse et Data Lake

Sunday 29 November 2020 à 16:00

Selon Google, l’intérêt pour les «Big Data» est à la hausse depuis plusieurs années. Mais il a vraiment pris de l’ampleur cette dernière année.

Le but de cet article est de mettre en évidence les différences entre les Data Lacs et les Data Warehouse.

Les Data Lakes et les Data Warehouse sont tous conçus pour stocker des grandes données( Big Data). Cependant, ces deux types de stockage de données sont très différents.

En fait, la seule véritable similitude entre eux est leur capacité à stocker des données.

C’est quoi Data Warehouse ?

Le terme Data Warehouse se traduit en français par “Entrepôt de données”. A la manière d’un véritable entrepôt, le Data Warehouse permet de collecter, ordonner, et stocker des informations provenant de base de données opérationnelles.

Ceci permet aux entreprises d’améliorer les prises de décisions en effectuant des requêtes pour examiner les tendances de leurs clients.

C’est quoi Data Lake ?

Le terme de Date Lake se traduit en français par “lac de données. C’est une méthode de stockage des données utilisée également par le big data. Au contraire d’un Data Warhouse, les données sont gardées dans leurs formats originaux ou sont très peu transformées. Data lake permet de stocker des données brutes provenant de sources diverses.

3 différences entre un data lake et un data warehouse

Ensuite, mettons en évidence trois différences clés entre Data Warehouse et Data Lake. Il existe un certain nombre de facteurs de différenciation essentiels entre un data lake et un data warehouse, voici trois de ces facteurs:

Data Lake stocke des données brutes, Date Warehouse stocke des données transformées

Les données brutes sont des données qui n’ont pas encore été analysée et utilisée dans un but précis.

La plus grande différence entre les data lakes et les data warehouses est sans doute la différence de structure entre les données brutes et les données transformées : les data lakes stockent généralement des données brutes non transformées, alors que les data warehouses stockent des données transformées et nettoyées.

Comme les Data Lacs, les Data Warehouse permettent de stocker une grande quantité de données. Cependant leur stockage nécessite de les structurer un minimum, c’est à dire qu’il s’agit de les retravailler pour passer ainsi d’une “donnée brute” à une “donnée nette”.

Data Lakes conserve toutes les données

Pendant le développement d’un data Warehouse, un temps considérable est consacré à l’analyse et la compréhension des données.

Généralement, si les données ne sont pas utilisées pour répondre à des questions spécifiques ou dans un rapport défini, elles peuvent être exclues du data Wahrehouse

Cela est généralement fait pour simplifier le modèle de données et également pour économiser de l’espace de stockage des serveurs.

En revanche, le Date Lac conserve TOUTES les données.

Pas seulement des données qui sont utilisées aujourd’hui, mais des données qui peuvent être utilisées et même des données qui ne peuvent jamais être utilisées simplement parce qu’elles POURRAIENT être utilisées un jour.

Cette approche devient possible car le matériel d’un Data Lac diffère généralement beaucoup de celui utilisé pour un Data Warehouse.

Data Lake s’adapte facilement aux changements

L’un des principaux inconvénients concernant les Data Wharehouse est le temps nécessaire pour les modifier.

Un temps considérable est consacré à l’avance pendant le développement pour obtenir la bonne structure de l’entrepôt.

Une bonne conception d’entrepôt peut s’adapter au changement, mais en raison de la complexité du processus de chargement des données et du travail effectué pour faciliter l’analyse et la génération de rapports, ces changements consomment nécessairement certaines ressources de développeur et prennent du temps.

De nombreuses questions commerciales ne peuvent pas attendre que l’équipe du Data Wharehouse adapte son système pour y répondre.

Les data lakes n’ont pas de structure et sont donc faciles à consulter et modifier ; les modifications à apporter aux données peuvent être faites très rapidement, dans la mesure où les data lakes sont soumis à très peu de restrictions.

Donc les utilisateurs peuvent explorer les données de nouvelles façons et répondre à leurs questions très rapidement.

Tutoriels recommandés pour vous

Data Management Platform, c'est quoi et comment ça fonctionne ?

Sunday 29 November 2020 à 15:38

Une Data Management Platform est une plateforme de gestion des données des internautes. Il s’agit d’une plateforme proposée généralement en mode SaaS qui permet de récupérer, centraliser, gérer et utiliser les données des utilisateurs.

Comment ça marche une DPM ?

A chaque visite d’un site web des informations des internautes sont récupérées, stockées et classées dans une base de données. Elles sont ensuite utilisées pour personnaliser l’expérience utilisateur et ainsi avoir une vision 360 degrés de ses prospects ou clients.

Pour cela, une Data Management Platform utilise les cookies pour analyser le comportement des internautes et tirer le meilleur profit de ces données. Le but ultime est de pouvoir reconnaître sa cible sur l’ensemble des canaux online & offline.

Comment les données sont collectées ?

Concrètement, les données sont collectées depuis trois sources :

Que faire avec une DMP ?

Une DMP peut être utilisée sur tous les leviers, de l’emailing à la personnalisation de l’offre en temps réel sur le site marchand.

A partir des données collectées, stockées et traitées par la DMP, on pourra envisager diverses actions, comme par exemple :

Avantages de la DMP ?

De nombreuses raisons peuvent donc pousser une entreprise à s’équiper d’une Data Management Platform.

En croisant l’ensemble de ces données, les entreprises disposent d’une connaissance bien plus précise de leurs clients et prospects. Ce qui permet de:

Tutoriels recommandés pour vous

Data analytics – C'est quoi ?

Sunday 29 November 2020 à 12:16

Le Data Analytics est un ensemble de méthodes statistiques visant à tirer des conclusions de masses d’informations. Cette science s’appuie sur les innombrables données récoltées par une entité pour comprendre certains phénomènes et ainsi mieux les anticiper.

Dans le monde de l’entreprise, cela permet par exemple de prendre les décisions les plus adéquates le plus rapidement possible. Grâce au développement de la science, les analystes sont équipés d’outils à but descriptif, prédictif ou prescriptif et peuvent ainsi faire parler les données.

Quelle est la différence entre le Data Mining et le Data Analytics ?

A la différence du Data Mining qui fouille les données, le Data Analytics se focalise sur des données brutes afin d’en tirer des conclusions plus sommaires, sans rechercher de modèles cachés.

Le but est d’en ressortir des informations compréhensibles et accessibles pour tous, de faire parler les données. Des données qui ne sont pas observables de prime abord et nécessitent d’être traitées.

Elles sont souvent traduites par des représentations graphiques pour être encore plus facilement appréhendées.

Les différents types de Data Analytics

On distingue 3 sortes de domaine analytique. Chacun d’eux possède un but précis et participe à sa manière à la prise de décision la plus adéquate.

Exemples concrets d’utilisation

Les Data Analyst interviennent quotidiennement dans les entreprises et recherchent sans cesse les données pertinentes selon les directives qu’ils reçoivent.

Un site marchand a par exemple recours à l’analyse de données pour déterminer le comportement des visiteurs sur leur site.

Les études menées peuvent dégager les tendances comportementales des utilisateurs tout en utilisant des données multiples et complexes.

En fonction des résultats, l’entreprise peut décider de la marche à suivre en termes de fidélisation, d’offres supplémentaires ou bien même de la restructuration de certaines pages du site. Évidemment plus les données collectées en amont sont importantes, plus les enseignements tirés sont précis.

Autre exemple, en période de soldes, les boutiques vont décider en amont des remises à effectuer. Selon les premières tendances de ventes, la remise pourra être accentuée ou bien laissée au même taux.

Si un article est jugé suffisamment “accéléré” par un remise à -20%, il y a de fortes chances qu’il reste à ce taux. En revanche, si les Data Analyst remarque qu’un article soldé à -20% ne voit pas ses ventes boostées, alors la direction de l’offre prendre certainement la décision de passer cet article à une remise supérieure.

Tutoriels recommandés pour vous

Data warehouse définition – Qu’est-ce que c’est ?

Sunday 29 November 2020 à 09:07

Le terme Data Warehouse se traduit en français par “Entrepôt de données”. A la manière d’un véritable entrepôt, le Data Warehouse permet de stocker des téraoctets de données fonctionnelles.

Ces données sont collectées, traitées et ordonnées dans un entrepôt de données. Elles peuvent ensuite être croisées, coupées, analysées, décortiquées… c’est ce qu’on appelle le Datamining.

Sa finalité est d’aider à la prise de décisions. Evidemment, ces quantités de données ne peuvent être stockées que sur de puissants systèmes informatiques.

La qualité d’un Data Warehouse dépend essentiellement de la qualité des données qui s’y trouvent, de leur fiabilité et de leur cohérence. Des points primordiaux pour tirer les enseignements les plus pertinents.

Différences entre une base de donnés et un Data Warehouse

La confusion entre les deux termes est fréquente tant plus que les deux concepts s’apparentent.

Cela dit, la base de données sert en général à une fonction précise de l’entreprise (service client, comptabilité, achats, ressources humaine…) alors que le Data Warehouse permet d’analyser toutes ces infos à la fois.

Le Data Warehouse est la concentration de toutes les bases de données en une seule base. 

Autre différence, les bases de données sont en théorie optimisées pour une lecture rapide. Un simple coup d’oeil et les informations peuvent être lues et décryptées.

En revanche, le Data Warehouse va stocker ces données de manière agrégées, demandant une première analyse avant de pouvoir décrypter les informations qui s’y trouvent.

Les bases de données de chaque métier de l’entreprise sont donc au service des Data Warehouse et les alimentent.

Les grandes caractéristiques du Data Warehouse

Bill Inmon

Bill Inmon, le fondateur du concept décrivait le Data Warehouse comme n’étant “pas une simple copie des données de production. Le Data Warehouse est organisé et structuré”.

Concrètement, à quoi sert le Data Warehouse ?

Contrairement aux systèmes opérationnels, le Data Warehouse permet l’analyse de l’activité de l’entreprise sur des milliers d’enregistrement parfois recoupés d’autres informations.

Ceci permet aux entreprises d’améliorer les prises de décisions en effectuant des requêtes pour examiner les processus, les performances et les tendances de leurs clients.

Exemple concret :

Avec le Data Warehouse, on peut analyser l’impact d’une remise à -30% sur les clients fidèles et sur les clients qui vont leur premier achat. Pour aller encore plus loin, on peut différencier les boutiques qui avaient ce produit en vitrine contre celles qui ne l’avaient pas.

Les informations propres à plusieurs services sont ici utilisées et serviront à répondre à plusieurs questions :

Des décisions qui impacteront les services opérationnelles de merchandising, d’approvisionnement, etc..

Tutoriels recommandés pour vous