Le 15 février dernier, je vous ai offert un webinaire sur l’analyse de fichiers PDF dans Excel, plus particulièrement via Power Query. L’approche démontrée pourra donc être répliquée également dans Power BI. Cet article vise à vous partager 3 façons de travailler avec les fichiers PDF dans Excel et sert d’introduction à ce webinaire, qui s’est déroulé sous forme de démonstration pratico-pratique. Pour écouter l’enregistrement de ce webinaire, devenez simplement membre VIP.
3 solutions pour importer et analyser des fichiers PDF dans Excel
Si vous devez importer et analyser des fichiers PDF dans Excel, vous avez la possibilité de choisir entre diverses solutions. Toutefois, toutes ces solutions ne sont pas équivalentes. Voyons ici les avantages et les inconvénients de chacune de ces solutions.
Données sous analyse
Pour les fins de cet article et surtout, de notre webinaire, nous utiliserons des données en provenance de l’Association professionnelle des courtiers immobiliers du Québec. Plus précisément, nous tenterons d’analyser des statistiques immobilières, présentées dans des tableaux, à l’intérieur de fichiers PDF.
L’Association publie un tel fichier PDF par mois.
Chaque fichier PDF comprend plusieurs tableaux de statistiques, dont le suivant, par région.
Et à première vue, tous ces tableaux semblent identiques.
Solution 1 : Outils de conversion de fichiers PDF en fichiers Excel (ou autres formats)
Vous trouverez de nombreuses solutions de conversion de fichiers PDF en format .xlsx sur le web, certaines gratuites, d’autres payants. Certaines vous permettront de faire la conversion directement en ligne, d’autres vous demanderont de télécharger d’abord une application sur votre ordinateur. Si vous tapez “Convert PDF to Excel” dans Google, vous trouverez aisément de nombreuses solutions de ce genre.
Par exemple, SmallPDF permet de faire à peu près n’importe quoi avec un fichier PDF (la liste ci-dessous n’est pas exhaustive) , incluant le convertir en fichier Excel.
Vous pouvez directement utiliser l’application en ligne. Si vous faites confiance au site (!), vous pouvez ainsi téléverser vos fichiers PDF et en récupérer une copie dans Excel.
Chaque solution est plus ou moins performante et propose des résultats différents. Dans ce cas-ci, Small PDF a converti le fichier PDF de 10 pages en 44 onglets dans Excel.
Certains de ces onglets comprennent les données des tableaux. Par contre, si vous jetez un oeil dans la barre de formules, vous verrez que les données d’une même ligne sont toutes réunies dans la même cellule… pas facile de travailler avec de telles données…
En plus de l’inconvénient du format des données, l’autre inconvénient majeur, c’est que si on souhaite analyser l’ensemble des données de TOUS les fichiers PDF dans Excel, il faudra d’abord convertir chaque fichier un à un. Pas très pratique…
Solution 2 : Application mobile d’Excel
Une solution alternative serait d’utiliser l’application mobile d’Excel pour importer les données des fichiers PDF dans un fichier Excel. Pour cela, il faudrait par contre, prendre une photo de chacun des tableaux de chacun des fichiers PDF. Croyez-moi, ça en fait beaucoup! Si toutefois la solution vous intéresse, je vous invite à lire cet article, publié sur notre blogue en 2019 “Comment extraire des données provenant d’une image ?“. Il explique comment procéder.
Cela dit, dans le cas des fichiers PDF spécifiques de l’APCIQ, le résultat fut plutôt surprenant (et inutile).
Solution 3 : Power Query dans Excel (ou dans Power BI)
La meilleure solution demeure de loin l’utilisation de Power Query, qui donne un résultat parfait, pour autant que l’on sache bien paramétrer le tout ! Vous pouvez utiliser Power Query à l’intérieur d’Excel ou de Power BI.
Résultat obtenu avec Power Query dans Excel
Importation et automatisation de la solution
L’utilisation de Power Query permet de convertir les données des fichiers PDF en tableaux Excel bien structurés. De plus, grâce à des techniques de WebScraping, il sera possible d’automatiser la requête d’importation de données depuis le site web de l’Association. Autrement dit, avec la bonne approche, nous pourrons nous connecter directement aux fichiers PDF en ligne, sans avoir à les enregistrer d’abord localement. Nous enseignons les techniques de WebScraping en détails dans notre formation Recettes magiques pour transformer vos données.
Difficultés rencontrées
Bien évidemment, pour parvenir à un résultat satisfaisant, il faut bien connaître tous les secrets de Power Query ! Par exemple, dans le cas qui nous concerne, bien que les données des tableaux semblaient identiques, il s’est avéré qu’il y avait de nombreux espaces à des endroits imprévus dans certaines tables. Il a donc fallu user d’imagination pour contourner ces exceptions. C’est ce qui sera vu notamment dans notre webinaire.
Fichier d’accompagnement VIP à télécharger
Pour télécharger le fichier utilisé dans ce tutoriel, devenez membre VIP du CFO masqué.
Écoutez notre webinaire en différé
Pour écouter ce webinaire en différé devenez membre VIP du CFO masqué.
Formation complémentaire
Pour découvrir d’autres trucs et astuces similaires, nous vous recommandons fortement notre formation Recettes magiques pour transformer vos données.
Voici quelques commentaires d’apprenants ayant suivi cette formation :