Dans l’optique de vous faire connaître l’environnement de Fabric, je vous ai fait un résumé des différentes composantes (Introduction à Microsoft Fabric pour l’analyse de données) puis j’ai détaillé la 1ere composante Data Factory (Microsoft Fabric : Intégrez vos données avec Data Factory). Il est maintenant temps de parler de la 2e composante qui est Synapse Data Engineering.
Nous allons regarder ce qu’est l’ingénierie de données (Data Engineering), puis dans quelle mesure Synapse Data Engineering nous permet de faire cette ingénierie de données.
Définition de l’ingénierie de données
L’ingénierie de données (Data Engineering) est la science qui se concentre sur la gestion des données. Il s’agit de collecter les données, de les entreposer, de les traiter afin qu’elles soient propres et préparées pour l’analyse de données.
À l’intérieur de Microsoft Fabric, Synapse Data Engineering est destiné à la science de données. Pour y accéder vous cliquez sur le logo Power BI au bas à gauche de votre écran Power BI Service puis vous sélectionnez Data Engineering sous la section Synapse.
Les options de Data Engineering pour gérer les données
À l’ouverture de Data Engineering vous verrez que les 6 options suivantes s’offrent à vous :
- Lakehouse
- Bloc-notes
- Définition du travail Spark
- Pipeline de données
- Importer un bloc-notes
- Utiliser un exemple
Faisons un survol de chacune de ces options.
1. Lakehouse
Synapse Data Engineering permet en premier lieu de se créer un Lakehouse pour y entreposer des données.
Différentes options s’offrent à nous à ce moment-ci. L’on peut copier des données à partir d’un fichier local, utiliser un flux de données ou utiliser un pipeline.
Les données seront alors intégrées dans le Lakehouse sous forme de tables ou de fichiers.
Étapes pour la création du Lakehouse
- Cliquer sur le bouton Lakehouse qui est actuellement en préversion
- Inscrire le nom souhaité pour le Lakehouse :
- Choisir la méthode pour récupérer les données :
Vous pouvez également connecter votre Lakehouse à vos dossiers Windows, voir les étapes dans l’article suivant : Accéder à Microsoft Fabric OneLake par l’explorateur Windows
On pourra par la suite interroger nos données directement dans le Lakehouse en naviguant dans les tables et les fichiers.
Dans l’exemple suivant, j’ai sélectionné un fichier .csv qui a été importé préalablement.
Il est également possible d’interroger les données à l’aide du langage SQL en cliquant dans le haut à droite de votre écran sur Lakehouse, puis de sélectionner Point de terminaison SQL.
Ici, en utilisant une instruction SQL, j’ai sélectionné à partir de la table ventes toutes les lignes de ventes correspondantes au magasin 632 (NoMagasin).
- Votre requête est sauvegardée dans le dossier Mes requêtes dans le panneau de gauche, vous pouvez la renommer puis la réutiliser au besoin.
- Vous pouvez télécharger les données résultantes de votre requête dans Excel ou les visualiser à partir de Power BI, puis créer un rapport à partir de cette requête SQL.
Enfin, il est également possible d’utiliser le langage SQL pour créer des vues, des fonctions et des procédures stockées.
2. Bloc-notes
et
5. Importer un bloc-notes
Le Bloc-notes permet de transformer les données un peu comme les flux de données, mais avec une expérience axée pour les développeurs, tout particulièrement par les ingénieurs de données (Data Engineer) ou les scientifiques de données (Data Scientist). En plus de la transformation de données, il peut être utilisé pour l’analyse de données, présenter des prédictions, et des expériences d’apprentissage automatique (Machine Learning).
C’est un outil flexible qui permet d’écrire le code et le tester à même l’outil sans avoir à l’exécuter. Il peut même générer des graphiques pour une meilleure analyse et visibilité sur les données.
Vous avez la possibilité de créer un bloc-notes ou bien d’en importer un.
À la fin de l’article, je vous propose de suivre un tutoriel de Microsoft qui comporte entre autres deux blocs-notes qu’il est possible de télécharger pour mieux comprendre cet outil. Vous avez également l’option Utiliser un exemple décrite plus bas.
Pour utiliser le Bloc-Notes il est probable que vous ayez besoin de configurer Power BI Service pour utiliser la langue anglaise. C’est à vérifier si vous obtenez le message d’erreur suivant :
3. Définition du travail Spark
Spark est une technologie Open Source qui est utilisée pour l’ingénierie de données, la science de données et l’expérience d’apprentissage automatique (Machine Learning). Il permet l’utilisation de différents langages de programmation (Python, SQL, Java, Scala, R) pour consulter de larges volumétries de données (Big Data). Vous pouvez consulter le lien suivant pour plus de détails sur cette technologie: Apache Spark™ – Unified Engine for large-scale data analytics.
Pour en apprendre davantage sur l’utilisation de Spark dans Microsoft Fabric, vous pouvez consulter la formation suivante (sans frais) : Use Apache Spark in Microsoft Fabric – Training | Microsoft Learn
4. Pipeline de données
Le Pipeline de données permet de configurer une séquence d’activités dans un ordre particulier pour ainsi créer un mouvement de données. Par exemple, exécuter un flux de données et attendre que ce dernier soit terminé avant l’exécution d’un 2e flux.
Le pipeline a été expliqué dans l’article suivant : Microsoft Fabric : Intégrez vos données avec Data Factory.
C’est tout simplement une autre porte d’entrée pour se rendre aux pipelines.
6. Utiliser un exemple
La dernière option permet d’utiliser un exemple pour se familiariser avec Synapse Data Engineering.
Vous pouvez premièrement vous positionner sur Lakehouse et cliquer sur Jours fériées. Cette action a pour effet de créer un Lakehouse, un point de terminaison SQL pour consulter les données en utilisant le langage SQL tel que décrit plus haut, et un jeu de données pour créer des rapports Power BI.
Le Lakehouse va contenir une table « publicholidays » qui contient les dates de jours fériés pour 38 pays. Il contient également des fichiers dans les dossiers images et sample_datasets qui pourront être utilisée pour créer un bloc-notes par exemple.
Ensuite, si vous retournez dans l’option « Utiliser un exemple », vous pouvez aller sous Notebook et cliquer sur « Un kit de démarrage d’Ingénieurs de données ». Ceci vous permettra d’explorer le Bloc-notes en transformant les données et en utilisant Spark pour les analyser. Vous serez guidé pas à pas dans le Bloc-notes.
En résumé, Synapse Data Engineering vous permet de gérer efficacement vos données en passant par la création d’un Lakehouse pour entreposer vos données, de l’utilisation du Bloc-notes pour la transformation et l’analyse des données et des pipelines pour automatiser la collecte de données. Vous commencez peut-être à remarquer que chacune des composantes de Fabric sont interreliées et qu’il est possible d’initier de mêmes actions à partir d’une composante ou d’une autre, comme la création de pipelines.
Pour en apprendre davantage sur Fabric et le Data Engineering, je vous invite à consulter les tutoriels que Microsoft partage sur Learn.
Ces derniers vous aideront à monter un scénario, à partir de la création du Lakehouse jusqu’à la conception d’un rapport Power BI.
Avez-vous consulté tous les articles de cette série sur Microsoft Fabric?
Afin de recevoir nos nouveaux articles directement dans votre boite courriel, abonnez-vous à nos infolettres.
- Introduction à Microsoft Fabric, outil intégré pour l’analyse de données
- 3 étapes pour accéder à une version d’essai de Microsoft Fabric
- Accéder à OneLake directement par l’explorateur de dossiers Windows
- Microsoft Fabric : Intégrez vos données avec Data Factory
- Microsoft Fabric : Gérez vos données avec Synapse Data Engineering
- Découvrez l’entrepôt virtuel de Fabric et sa simplicité d’utilisation
- La science des données simplifiée avec Fabric Data Science
- Analysez vos données en temps réel avec Fabric Real-Time Analytics!
- Déclenchez une action avec Fabric Data Activator
Formation complémentaire
Vous devez manipuler et analyser beaucoup de données et êtes à la recherche d’un outil BI (Business Intelligence) performant, en mode libre-service ? Suivez la formation Power BI – Niveau 1.