3 façons d’analyser les données de fichiers PDF dans Excel

Publié le 24 janvier 2022
par Sophie Marchand M.Sc.
APCIQ

Le 15 février dernier, je vous ai offert un webinaire sur l’analyse de fichiers PDF dans Excel, plus particulièrement via Power Query. L’approche démontrée pourra donc être répliquée également dans Power BI. Cet article vise à vous partager 3 façons de travailler avec les fichiers PDF dans Excel et sert d’introduction à ce webinaire, qui s’est déroulé sous forme de démonstration pratico-pratique. Pour écouter l’enregistrement de ce webinaire, devenez simplement membre VIP.

 

3 solutions pour importer et analyser des fichiers PDF dans Excel

Si vous devez importer et analyser des fichiers PDF dans Excel, vous avez la possibilité de choisir entre diverses solutions. Toutefois, toutes ces solutions ne sont pas équivalentes. Voyons ici les avantages et les inconvénients de chacune de ces solutions.

 

Données sous analyse

Pour les fins de cet article et surtout, de notre webinaire, nous utiliserons des données en provenance de l’Association professionnelle des courtiers immobiliers du Québec. Plus précisément, nous tenterons d’analyser des statistiques immobilières, présentées dans des tableaux, à l’intérieur de fichiers PDF.

 

L’Association publie un tel fichier PDF par mois.

APCIQ

 

Chaque fichier PDF comprend plusieurs tableaux de statistiques, dont le suivant, par région.

APCIQ

 

Et à première vue, tous ces tableaux semblent identiques.

 

Solution 1 : Outils de conversion de fichiers PDF en fichiers Excel (ou autres formats)

Vous trouverez de nombreuses solutions de conversion de fichiers PDF en format .xlsx sur le web, certaines gratuites, d’autres payants. Certaines vous permettront de faire la conversion directement en ligne, d’autres vous demanderont de télécharger d’abord une application sur votre ordinateur. Si vous tapez “Convert PDF to Excel” dans Google, vous trouverez aisément de nombreuses solutions de ce genre.

 

Par exemple, SmallPDF permet de faire à peu près n’importe quoi avec un fichier PDF (la liste ci-dessous n’est pas exhaustive) , incluant le convertir en fichier Excel.

Convertir PDF en Excel

 

Vous pouvez directement utiliser l’application en ligne. Si vous faites confiance au site (!), vous pouvez ainsi téléverser vos fichiers PDF et en récupérer une copie dans Excel.

Small PDF

 

Chaque solution est plus ou moins performante et propose des résultats différents. Dans ce cas-ci, Small PDF a converti le fichier PDF de 10 pages en 44 onglets dans Excel.

Convertir des fichiers PDF

 

Certains de ces onglets comprennent les données des tableaux. Par contre, si vous jetez un oeil dans la barre de formules, vous verrez que les données d’une même ligne sont toutes réunies dans la même cellule… pas facile de travailler avec de telles données…

Fichiers PDF dans Excel

 

En plus de l’inconvénient du format des données, l’autre inconvénient majeur, c’est que si on souhaite analyser l’ensemble des données de TOUS les fichiers PDF dans Excel, il faudra d’abord convertir chaque fichier un à un. Pas très pratique…

 

Solution 2 : Application mobile d’Excel

Une solution alternative serait d’utiliser l’application mobile d’Excel pour importer les données des fichiers PDF dans un fichier Excel. Pour cela, il faudrait par contre, prendre une photo de chacun des tableaux de chacun des fichiers PDF. Croyez-moi, ça en fait beaucoup! Si toutefois la solution vous intéresse, je vous invite à lire cet article, publié sur notre blogue en 2019 “Comment extraire des données provenant d’une image ?“. Il explique comment procéder.

 

Cela dit, dans le cas des fichiers PDF spécifiques de l’APCIQ, le résultat fut plutôt surprenant (et inutile).

Convertir image en Excel

 

Solution 3 : Power Query dans Excel (ou dans Power BI)

La meilleure solution demeure de loin l’utilisation de Power Query, qui donne un résultat parfait, pour autant que l’on sache bien paramétrer le tout ! Vous pouvez utiliser Power Query à l’intérieur d’Excel ou de Power BI.

 

Résultat obtenu avec Power Query dans Excel

Consolidation de fichiers PDF

 

Importation et automatisation de la solution

L’utilisation de Power Query permet de convertir les données des fichiers PDF en tableaux Excel bien structurés. De plus, grâce à des techniques de WebScraping, il sera possible d’automatiser la requête d’importation de données depuis le site web de l’Association. Autrement dit, avec la bonne approche, nous pourrons nous connecter directement aux fichiers PDF en ligne, sans avoir à les enregistrer d’abord localement. Nous enseignons les techniques de WebScraping en détails dans notre formation Recettes magiques pour transformer vos données.

 

Difficultés rencontrées

Bien évidemment, pour parvenir à un résultat satisfaisant, il faut bien connaître tous les secrets de Power Query ! Par exemple, dans le cas qui nous concerne, bien que les données des tableaux semblaient identiques, il s’est avéré qu’il y avait de nombreux espaces à des endroits imprévus dans certaines tables. Il a donc fallu user d’imagination pour contourner ces exceptions. C’est ce qui sera vu notamment dans notre webinaire.


Fichier d’accompagnement VIP à télécharger

Pour télécharger le fichier utilisé dans ce tutoriel, devenez membre VIP du CFO masqué.

 

Écoutez notre webinaire en différé

Pour écouter ce webinaire en différé devenez membre VIP du CFO masqué.

 

Formation complémentaire

Pour découvrir d’autres trucs et astuces similaires, nous vous recommandons fortement notre formation Recettes magiques pour transformer vos données.

 

Voici quelques commentaires d’apprenants ayant suivi cette formation :


CFO-Masque_Formations-en-ligne_FBLa mission du CFO masqué est de développer les compétences techniques des analystes et des contrôleurs de gestion en informatique décisionnelle avec Excel et Power BI et favoriser l’atteinte de leur plein potentiel, en stimulant leur autonomie, leur curiosité, leur raisonnement logique, leur esprit critique et leur créativité.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut