Microsoft Fabric : Intégrez vos données avec Data Factory

Publié le 17 octobre 2023
par Kim Leblanc BAA
Microsoft Fabric Data Factory

Dans un premier article sur Fabric, j’ai présenté les différentes composantes de cette solution de Microsoft . La première de ces composantes est Data Factory et elle est utilisée pour l’intégration de données.

Microsoft Fabric Data Factory

 

Effectivement, il est possible d’intégrer les données avec Data Factory qui est la combinaison de deux outils déjà existants :

  • Les flux de données Power Query: utilisé pour la partie connexion aux données et transformations
  • Azure Data Factory : utilisé pour la partie Mouvement de données (avec les pipelines) et de suivis des activités (monitoring)

Avec l’utilisation de Data Factory nous sommes donc en mesure de nous connecter à différentes sources de données (structurées ou non), de les transformer au passage et de les sauvegarder dans un environnement accessible pour les créateurs de rapports. L’intégration des données pourra également suivre un certain flux d’activités qui aura été programmé préalablement à l’aide d’un pipeline.

Pré-Requis : vous devez avoir une licence Fabric pour accéder à l’outil.
Voir notre article pour vous procurer une version d’essai.

 

Comment accéder à Data Factory ?

Pour accéder à Data Factory, à partir de Power BI Service, il faut cliquer sur le bouton situé en bas à gauche, et sélectionner Data Factory.

Fabric

 

Une fois dans l’outil, vous verrez que 3 options s’offrent à vous :

  1. Créer un Flux de données Gen2
  2. Créer un Pipeline de données
  3. Vous former sur l’outil

Fabric

 

 

Voyons de façon sommaire chacune des options de Data Factory

Option 1 : Flux de données Gen2

C’est la partie Power Query de l’outil. C’est dans cette partie que l’on peut se connecter aux données, les nettoyer et les transformer.

Il sera possible, à ce stade-ci, de charger les données vers un pont de destination comme dans un Lakehouse. Cette possibilité diffère du flux de données (Power Query) que l’on connait dans Power BI ou Excel où l’on va plutôt parler de Flux de données Gen1. Vous pourrez ensuite intégrer ces flux de données Gen2 dans un pipeline pour en coordonner l’exécution.

Pour savoir comment créer un Lakehouse dans Power BI, vous pouvez vous référer à notre article Accéder à Microsoft Fabric OneLake par l’explorateur Windows.

 

Étapes pour créer un flux de données Gen2

1 – Cliquer sur le bouton « Flux de données Gen2 »

Flux de données préversion

 

2 – Choisissez ensuite un connecteur pour aller chercher vos données.

Si vous connaissez déjà Power Query, vous vous reconnaissez immédiatement !

Vous pouvez importer vos données en passant par le menu Obtenir les données ou bien par les raccourcis présentés au centre de la fenêtre.

Fabric

 

3 – Une fois les transformations complétées, vous pouvez ajouter une destination avec le bouton « Ajouter une destination de données ».

Il y a 4 options qui s’offrent à vous :

  • Base de données SQL Azure
  • Lakehouse
  • Azure Data Explorer (Kusto)
  • Entrepôt

Accédez à Data Factory

 

Dans mon cas, j’ai choisi le Lakehouse.

Accédez à Data Factory

 

Puis j’ai sélectionné mon Lakehouse CFOMasque.

Accédez à Data Factory

 

Il faut ensuite choisir la méthode de la mise à jour du flux. On peut choisir d’ajouter les données à la table ou bien de remplacer les données existantes. Dans mon cas j’ai choisi la 2e option car je veux remplacer la table chaque fois que le flux sera exécuté.

Accédez à Data Factory

 

4 – Finalement, on publie le flux à l’aide du bouton approprié

 

Microsoft Fabric

 

La table créée avec le flux de données Power Query Gen2 est maintenant disponible dans le Lakehouse CFOmasque.

 

Option 2 : Le Pipeline de données

Le Pipeline de données nous permet de configurer une séquence d’activités dans un ordre particulier pour ainsi créer un mouvement de données.

On peut exécuter un flux de données, et une fois que ce flux est terminé, on exécute un second flux de données. Ceci peut être utile, entre autres, lorsque le résultat du 1er flux de données est utilisé dans un 2e flux. Il est primordial que le 1er flux soit complété avant l’exécution du second flux.

Il est possible alors de suivre le déroulement du pipeline (monitoring) et ainsi s’assurer que le mouvement de nos données s’est bien exécuté.

 

Vous devez analyser de grandes quantités de données et les présenter dans des rapports et tableaux de bord, avec des indicateurs de performance pertinents ? Développez vos compétences avec nos formations en Power BI.

Formations Power BI disponibles en anglais

 

Étapes pour créer un Pipeline de données

1 – Cliquez sur le bouton Pipeline de données.

Microsoft Fabric

 

2 – Ajoutez les activités

Nous pouvons ensuite cliquer sur Ajouter une activité de pipeline, puis sur Flux de données. Notez qu’il y a plusieurs autres options d’activités, mais que nous allons nous contenter de couvrir les flux de données dans cet article.

Microsoft Fabric

 

L’activité Flux de données apparaît dans notre pipeline, il faut alors aller sélectionner le flux de données à exécuter dans l’onglet Paramètres. Ici, nous allons chercher le flux de données créé précédemment qui se nomme Dataflow 1.

Microsoft Fabric

 

On peut ensuite ajouter une nouvelle activité. Nous allons ajouter l’exécution d’un autre flux de données en cliquant sur la flèche verte du premier Flux de données.

Flux de données

Dataflow Fabric

 

3 – Mettez en marche le pipeline

Une fois la 2e activité créée, nous pouvons exécuter notre pipeline en cliquant sur le bouton de mise en marche : RUN.

Microsoft Fabric

 

Si ce n’est pas déjà fait, il faudra enregistrer notre pipeline pour l’exécuter.

Data Factory

 

4 – Suivez le déroulement du pipeline (monitoring)

Il est possible de suivre l’évolution de l’exécution dans l’onglet Sortie au bas de l’écran.

Dans ce cas-ci, notez que le 1er Flux de données (Dataflow1) a été exécuté avec succès et que le 2e Flux (Dataflow2) est en cours d’exécution.

Data Factory

 

5 – Planifiez la fréquence d’exécution du pipeline

Il est possible finalement de planifier une fréquence d’exécution en cliquant sur le bouton Schedule puis en insérant la fréquence et l’heure souhaitée dans la section Planification.

Fabric

 

Il est possible également de suivre l’exécution des pipelines dans le hub de supervision

Fabric

 

Option 3 : Formation sur l’outil (documentation)

Remarquez que vous avez à votre disposition des articles et capsules vidéo vous permettant d’en apprendre davantage sur Data Factory et ses composantes. Je vous invite à les consulter pour vous familiariser avec les différents concepts. C’est un bon point de départ si vous débutez avec la solution !

Fabric

 

En conclusion

Sommairement, j’ai trouvé que c’était relativement intuitif comme outils Low Code No Code. Il a été plutôt aisé de configurer les deux flux de données pour ensuite en planifier l’exécution par le pipeline.

L’avez-vous essayé? Quelles sont vos premières impressions ?

 

Avez-vous consulté tous les articles de cette série sur Microsoft Fabric?

Afin de recevoir nos nouveaux articles directement dans votre boite courriel, abonnez-vous à nos infolettres.

  1. Introduction à Microsoft Fabric, outil intégré pour l’analyse de données
  2. 3 étapes pour accéder à une version d’essai de Microsoft Fabric
  3. Accéder à OneLake directement par l’explorateur de dossiers Windows
  4. Microsoft Fabric : Intégrez vos données avec Data Factory
  5. Microsoft Fabric : Gérez vos données avec Synapse Data Engineering

 

Formation complémentaire

Vous devez manipuler et analyser beaucoup de données et êtes à la recherche d’un outil BI (Business Intelligence) performant, en mode libre-service ? Suivez la formation Power BI – Niveau 1.

Voici quelques commentaires d’apprenants ayant suivi cette formation :

Le CFO masqué - Commentaires d'apprenants ayant suivi la formation : Power BI - Niveau 1
CFO-Masque_Formations-en-ligne_FBLa mission du CFO masqué est de développer les compétences techniques des analystes et des contrôleurs de gestion en informatique décisionnelle avec Excel et Power BI et favoriser l’atteinte de leur plein potentiel, en stimulant leur autonomie, leur curiosité, leur raisonnement logique, leur esprit critique et leur créativité.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut