Il est désormais possible d’importer les données de PDF dans Excel, via Power Query, comme c’est le cas avec Power BI Desktop. Cet article vous explique comment importer un PDF et le modifier avec Power Query, afin de pouvoir en analyser le contenu directement dans Excel.
Données sources
Pour montrer comment importer des données de fichiers PDF dans Excel via Power Query, nous allons travailler avec des données ouvertes de la Ville de Montréal, plus précisément des données sur l’habitation de l’Office municipal d’habitation de Montréal.
Nous allons plus précisément nous attarder aux données de l’arrondissement Ahunstic-Cartierville, mais nous aurions pu utiliser n’importe quel autre arrondissement ou même l’ensemble de ces arrondissements.
Chacun des fichiers PDF par arrondissement, montre d’abord une carte géographique, suivie de 3 tableaux. Les données qui nous intéressent sont dans le premier tableau.
Importer un PDF dans Power Query
Lorsqu’on importe un fichier PDF dans Power Query, que ce soit dans Excel ou Power BI Desktop, on se retrouve avec une structure de pages et de tables comme la suivante.
Il faut tenter de repérer où se trouve les données que l’on souhaite importer. Dans notre cas, on sait que les données sont à la page 2 et en cliquant sur le lien Table de la ligne 22, on obtient un aperçu, dans le bas, de la table que l’on recherche. C’est donc sur ce lien que l’on va cliquer. Pour la balance des transformations, on va procéder comme à l’habitude.
Vous avez des sources de données volumineuses à rassembler et analyser dans Excel ? Apprenez à automatiser tout le processus d’importation, de transformation et de modélisation des données avec nos formations sur Power Query et Power Pivot dans Excel. |
---|
Procéder aux transformations dans Power Query
Première série de transformations
Tout d’abord, après avoir cliqué sur la table recherchée, on va modifier les types de données et supprimer les colonnes superflues, afin d’obtenir ce qui suit.
Par la suite, on va remplir les données de la première colonne vers le bas, pour s’assurer d’avoir un identifiant unique par quartier (ou regroupement d’adresses si vous préférez).
On pourra aussi supprimer les premières lignes, qui sont vides.
Pour fusionner les expressions recherchées (comme Famille Pers. seule par exemple), on va d’abord transposer la table.
Une fois la table transposée, on va fusionner les deux premières colonnes.
Une fois les colonnes fusionnées, on va revenir au mode de présentation original en transposant à nouveau la table et en faisant la promotion de la première ligne dans les en-têtes de colonnes.
Il ne restera plus qu’à modifier les types de données, supprimer les colonnes superflues, renommer les colonnes au besoin et remplacer les X de la colonne Organ Com par des 1.
Deuxième série de transformations
Pour s’assurer d’avoir toutes les informations de quartier (ou regroupement d’adresses) sur une même ligne, on va ensuite faire une référence à la table obtenue à l’étape précédente, supprimer toutes les colonnes sauf la colonne Regroupement et la colonne Habitation, tel qu’illustré ci-dessous.
On va ensuite effectuer un regroupement par “regroupement” et on va demander à voir toutes les lignes.
On va ainsi obtenir le résultat suivant.
Pour obtenir la liste de toutes les informations d’une même adresse sur une même ligne, on va ensuite ajouter une colonne personnalisée avec la fonction M suivante, qui permettra de récupérer toute l’information de la colonne Habitation, pour chaque regroupement.
On va ensuite choisir l’option Extraire les valeurs.
Ceci va permettre d’obtenir ce qui suit.
On pourra ensuite fusionner notre requête avec la première et faisant une agrégation, plus précisément une somme, sur tous les autres champs. Il suffira ensuite de supprimer les colonnes superflues, renommer les colonnes restantes et s’assurer de présenter le bon type de données.
Fichier d’accompagnement VIP à télécharger
Pour télécharger le fichier utilisé dans ce tutoriel, devenez membre VIP du CFO masqué.
Formation complémentaire
Afin d’approfondir vos connaissances avec Excel, dont celles touchant à Power Query, nous vous recommandons notre formation Excel – Introduction à Power Query et au langage M.
Voici quelques commentaires d’apprenants ayant suivi cette formation :
Bonjour Sophie,
Merci beaucoup. Il semble néanmoins y avoir un problème avec le lien de téléchargement du fichier d’accompagnement.
Merci
Raphaël
Bonjour Sophie,
Même problème de mon côté: je ne parviens pas à télécharger le fichier (malgré mon inscription en tant que membre VIP). Le lien de téléchargement génère un message de type “Not found”.
Merci de votre retour et bonne journée
Fabienne
Bonjour,
Désolé pour cette inconvénient. Le fichier est maintenant disponible.
Bonne journée.