Importez et analysez vos fichiers PDF dans Excel

Publié le 23 août 2020
par Sophie Marchand M.Sc.
Aperçu contenu PDF

Il est désormais possible d’importer les données de PDF dans Excel, via Power Query, comme c’est le cas avec Power BI Desktop. Cet article vous explique comment importer un PDF et le modifier avec Power Query, afin de pouvoir en analyser le contenu directement dans Excel.

 

Données sources

Pour montrer comment importer des données de fichiers PDF dans Excel via Power Query, nous allons travailler avec des données ouvertes de la Ville de Montréal, plus précisément des données sur l’habitation de l’Office municipal d’habitation de Montréal.

 

Répertoire des habitations

 

Nous allons plus précisément nous attarder aux données de l’arrondissement Ahunstic-Cartierville, mais nous aurions pu utiliser n’importe quel autre arrondissement ou même l’ensemble de ces arrondissements.

 

Page 1 PDF

 

Chacun des fichiers PDF par arrondissement, montre d’abord une carte géographique, suivie de 3 tableaux. Les données qui nous intéressent sont dans le premier tableau.

 

Page 2 PDF

 

Importer un PDF dans Power Query

Lorsqu’on importe un fichier PDF dans Power Query, que ce soit dans Excel ou Power BI Desktop, on se retrouve avec une structure de pages et de tables comme la suivante.

 

Aperçu contenu PDF

 

Il faut tenter de repérer où se trouve les données que l’on souhaite importer. Dans notre cas, on sait que les données sont à la page 2 et en cliquant sur le lien Table de la ligne 22, on obtient un aperçu, dans le bas, de la table que l’on recherche. C’est donc sur ce lien que l’on va cliquer. Pour la balance des transformations, on va procéder comme à l’habitude.

 

Aperçu PDF plus précis

Vous avez des sources de données volumineuses à rassembler et analyser dans Excel ? Apprenez à automatiser tout le processus d’importation, de transformation et de modélisation  des données avec nos formations sur Power Query et Power Pivot dans Excel.

Procéder aux transformations dans Power Query

 

Première série de transformations

Tout d’abord, après avoir cliqué sur la table recherchée, on va modifier les types de données et supprimer les colonnes superflues, afin d’obtenir ce qui suit.

 

Power Query importation PDF

 

Par la suite, on va remplir les données de la première colonne vers le bas, pour s’assurer d’avoir un identifiant unique par quartier (ou regroupement d’adresses si vous préférez).

 

Power Query Remplir vers le bas

 

On pourra aussi supprimer les premières lignes, qui sont vides.

 

Premières lignes supprimées

 

Pour fusionner les expressions recherchées (comme Famille Pers. seule par exemple), on va d’abord transposer la table.

 

Table transposée

 

Une fois la table transposée, on va fusionner les deux premières colonnes.

 

Colonnes fusionnées

 

Une fois les colonnes fusionnées, on va revenir au mode de présentation original en transposant à nouveau la table et en faisant la promotion de la première ligne dans les en-têtes de colonnes.

 

Table transposée et en-tetes promus

 

Il ne restera plus qu’à modifier les types de données, supprimer les colonnes superflues, renommer les colonnes au besoin et remplacer les X de la colonne Organ Com par des 1.

 

Résultat intermédiaire

 

Deuxième série de transformations

Pour s’assurer d’avoir toutes les informations de quartier (ou regroupement d’adresses) sur une même ligne, on va ensuite faire une référence à la table obtenue à l’étape précédente, supprimer toutes les colonnes sauf la colonne Regroupement et la colonne Habitation, tel qu’illustré ci-dessous.

 

Transformations Power Query

 

On va ensuite effectuer un regroupement par “regroupement” et on va demander à voir toutes les lignes.

 

Lignes groupées arrondissement

 

On va ainsi obtenir le résultat suivant.

 

Regroupement toutes les lignes

 

Pour obtenir la liste de toutes les informations d’une même adresse sur une même ligne, on va ensuite ajouter une colonne personnalisée avec la fonction M suivante, qui permettra de récupérer toute l’information de la colonne Habitation, pour chaque regroupement.

 

Personnalisée ajoutée

 

On va ensuite choisir l’option Extraire les valeurs.

 

Extraire les valeurs

 

Ceci va permettre d’obtenir ce qui suit.

 

Power Query

 

On pourra ensuite fusionner notre requête avec la première et faisant une agrégation, plus précisément une somme, sur tous les autres champs. Il suffira ensuite de supprimer les colonnes superflues, renommer les colonnes restantes et s’assurer de présenter le bon type de données.

 

Résultat final Power Query

 


Fichier d’accompagnement VIP à télécharger

Pour télécharger le fichier utilisé dans ce tutoriel, devenez membre VIP du CFO masqué.

 

Formation complémentaire

Afin d’approfondir vos connaissances avec Excel, dont celles touchant à Power Query, nous vous recommandons notre formation Excel – Introduction à Power Query et au langage M.

Voici quelques commentaires d’apprenants ayant suivi cette formation :

Voici quelques commentaires d’apprenants ayant suivi la formation - Excel Introduction à Power Query et au langage M
CFO-Masque_Formations-en-ligne_FBLa mission du CFO masqué est de développer les compétences techniques des analystes et des contrôleurs de gestion en informatique décisionnelle avec Excel et Power BI et favoriser l’atteinte de leur plein potentiel, en stimulant leur autonomie, leur curiosité, leur raisonnement logique, leur esprit critique et leur créativité.

3 réflexions sur “Importez et analysez vos fichiers PDF dans Excel”

  1. Bonjour Sophie,

    Merci beaucoup. Il semble néanmoins y avoir un problème avec le lien de téléchargement du fichier d’accompagnement.

    Merci
    Raphaël

  2. Bonjour Sophie,
    Même problème de mon côté: je ne parviens pas à télécharger le fichier (malgré mon inscription en tant que membre VIP). Le lien de téléchargement génère un message de type “Not found”.
    Merci de votre retour et bonne journée
    Fabienne

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut