Aperçu des données dans Power Query = un allié pour connaître les propriétés de vos colonnes de données!

Publié le 04 mai 2022
par Kim Leblanc BAA
Profil Colonne

Dans tout bon modèle de données, il est important de bien comprendre nos données et de s’assurer de la qualité de celles-ci.  En connaissant bien vos données, vous serez à même de bien les nettoyer et de vous assurer de les utiliser à bon escient. L’Aperçu des données dans Power Query pourra vous donner un grand coup de main pour faire cela.

Pour y accéder, allez dans le menu Affichage de Power Query, puis dans la section Aperçu des données.

Nous avions déjà rédigé un article dans le passé concernant la Qualité des colonnes. Depuis, de nouvelles options ont été ajoutées.

Voyons les différentes options que comporte actuellement la section Aperçu des données dans Power Query.

aperçu des données dans Power Query

 

Les options les plus utiles – à connaître absolument!

Des 5 options disponibles, les 3 suivantes sont les plus utiles:

  1. Qualité de la colonne
  2. Distribution des colonnes
  3. Profil de colonne

Sachez tout d’abord que l’information, que l’on obtiendra pour ces 3 options, sera basée par défaut sur les 1,000 premières lignes de votre jeu de données. Pour être en mesure de voir l’information en fonction du jeu de données complet (il peut arriver que les 1,000 premières lignes ne soient pas représentatives du jeu de données complet) il faudra modifier l’information au bas de la fenêtre de Power Query.

Vous cliquez sur Profilage de la colonne en fonction des 1000 premières lignes.

Vous aurez alors les options suivantes:

  • Profilage de la colonne en fonction des 1000 premières lignes
  • Profilage de colonne basé sur l’ensemble du jeu de données

Vous pourrez cocher la 2e option.

Profilage des données dans Power Query

 

Option Profilage dans Power Query

 

Qualité de la colonne

Qualité de la colonne

La qualité de la colonne nous montre 3 informations: Valide, Erreur et Vide avec le pourcentage associé pour chacune de ces informations.

Une valeur est Valide si elle n’est ni Vide ni une Erreur.

Dans l’exemple si haut, il y a 3 valeurs et un null, il y a donc 75% des cellules qui contiennent des données valides.

Si vous avez des valeurs null dans votre colonne elles seront comptabilisées dans Vide, il est important de connaître le comportement des valeurs null dans Power Query et de prendre action en conséquence.

Si vous avez des erreurs dans votre colonne, il faut bien évidemment les corriger! Voir l’article Enrayez vos erreurs au fur et à mesure pour vous aider à ce sujet.

 

Distribution des colonnes

Distribution Colonne

La distribution de colonnes (voir l’histogramme au haut de la colonne) nous permet de voir combien il y a de valeurs distinctes dans la colonne. Chacune des barres représente une de ces valeurs et la hauteur de la barre nous donne une indication du nombre de répétitions de cette valeur.

Sous l’histogramme nous avons l’indication de combien il y a de valeur distincte et s’il y a des valeurs uniques.

Dans le cas présent, j’ai 20 noms d’arrondissement différents et aucun de ces arrondissements n’apparaît qu’une seule fois (0 unique).

Si vous voulez plus de détails sur la distribution des valeurs de votre colonne, il faut cocher l’option Profil de colonne.

Vous avez des sources de données volumineuses à rassembler et analyser dans Excel ? Apprenez à automatiser tout le processus d’importation, de transformation et de modélisation  des données avec nos formations sur Power Query et Power Pivot dans Excel.

 

Profil de colonne

Profil Colonne dans Power Query

 

Lorsque vous activez l’option Profil de colonne, il faut sélectionner une colonne pour être en mesure de voir les résultats. Dans le cas illustré ci-dessus, j’ai sélectionné la colonne Qté.

Vous verrez alors les encadrés Statistiques de colonnes et Distribution de valeurs.

On retrouve les informations vues précédemment pour les options Qualité de la colonne et Distribution des colonnes, mais nous avons maintenant plus de détails tels que le nombre de répétitions de chacune des valeurs présentes, la valeur minimum et maximum de la colonne, la moyenne, l’écart type,…

Si vous sélectionnez une barre de l’histogramme, vous aurez le détail pour cette valeur.

Profile de colonne

Profil de colonne

 

ATTENTION! La valeur affichée est en fonction des 1000 premières lignes si vous n’avez pas coché Profilage de colonne basé sur l’ensemble du jeu de données tel que décrit précédemment.

Ci-haut, dans la première image, j’ai sélectionné la première barre de l’histogramme pour voir le détail de la valeur 3 de ma colonne Qté. Une boite apparaît au-dessus et m’indique que la valeur 3 est présente 175 fois dans la colonne, ce qui équivaut à 17% des valeurs des 1000 premières lignes de la colonne.

Dans la 2e image, on voit l’information pour le jeu de données au complet, la première barre est maintenant pour la valeur 2 qui revient 3,701 fois dans la colonne. Vous comprenez alors pourquoi on devrait toujours regarder en fonction du jeu complet lorsqu’on regarde le Profil de colonne.

Notez que vous pouvez appliquer un filtre sur votre colonne à partir de cette même boite en sélectionnant Est égal à ou N’est pas égal à. Vous avez également d’autres options de transformation si vous cliquez les ““.

 

Les autres options – par simple curiosité

À espacement fixe

Cette option, lorsqu’elle est cochée a seulement un effet sur l’affichage de vos données. Les données s’affichent avec une police de caractères de type monospace donc à espacement fixe et de largeur uniforme. Voyez la comparaison lorsque l’option est cochée (image de droite) par rapport à la vue originale.

 

Afficher les espaces blancs

Cette option permet d’afficher, ou non, les espaces lorsqu’il y en a plusieurs, un à la suite de l’autre, ou lorsqu’une tabulation, un saut de ligne ou un retour de chariot ont été utilisés dans les données sources.

Dans les images suivantes, on voit les données à gauche telles qu’elles apparaissent dans les données sources:

  • Dans Les Entreprises KLM    Inc., il y a une succession d’espace entre le KLM et le inc.
  • Au niveau de la 2e ligne, il y a un saut de ligne entre rénovation et JLP.

Lorsqu’on coche l’option Afficher les espaces blancs (image de droite), on ne voit plus les espaces consécutifs pour Les Entreprises KLM Inc. et la compagnie de la 2e ligne s’affiche sur une seule ligne.

 

 

ATTENTION, ça ne modifie pas les données, les espaces en trop sont toujours là et la 2e compagnie est toujours sur 2 lignes. Dans les 2 images, j’ai sélectionné la 2e compagnie et on voit au bas de l’image que la donnée inclut toujours un saut de ligne.

Il faut donc être prudent avec cette option.  Assurez-vous de bien connaître vos données avant d’utiliser cette option. Une fois que vous connaissez bien vos données, vous pourrez toujours la sélectionner pour avoir une vue plus succincte des données dans Power Query. Imaginez que toutes les lignes d’une colonne de données comportent un saut de ligne…

 

Impact de l’aperçu de données dans Power Query

Lorsque l’ensemble de ces options sont cochées, ça prend plus de temps pour afficher les résultats des différentes étapes de vos requêtes.

Bien évidemment, Power Query doit passer au travers de chacune de vos colonnes de votre requête pour analyser l’information à afficher. Ça lui donne un travail supplémentaire! D’autant plus si vous avez choisi l’option Profilage de colonne basé sur l’ensemble du jeu de données et que votre jeu de données contient des millions de lignes! Vous aurez alors peut-être intérêt à décocher ces options une fois l’analyse des données terminées.

 


 

Formation complémentaire

Pour une introduction au langage M, suivez la formation Excel – Introduction à Power Query et au langage M.

Voici quelques commentaires d’apprenants ayant suivi cette formation :

Voici quelques commentaires d’apprenants ayant suivi la formation - Excel Introduction à Power Query et au langage M

CFO-Masque_Formations-en-ligne_FBLa mission du CFO masqué est de développer les compétences techniques des analystes et des contrôleurs de gestion en informatique décisionnelle avec Excel et Power BI et favoriser l’atteinte de leur plein potentiel, en stimulant leur autonomie, leur curiosité, leur raisonnement logique, leur esprit critique et leur créativité.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut