Contact: 514-605-7112 / info@lecfomasque.com

COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (1 de 2)

Publié le : 17 mars 2020

Si vous êtes isolé à la maison pour les prochains jours, je vous recommande fortement de vous amuser à découvrir Power BI ou à parfaire vos connaissances avec les solutions modernes d’Excel. Et pour vous donner envie d’apprendre, vous pourrez utiliser le code promotionnel suivant 25-COVID-ELEARNING jusqu’au 20 mars 2020, afin d’obtenir 25% de rabais sur toutes nos formations en ligne à prix régulier. Et maintenant, je partage avec vous une petite technique de Web Scraping avec Power BI afin d’analyser ces fameuses données sur le COVID-19, qui ont réussi à paralyser le monde entier.

 

Objectif visé: Visualiser la progression du virus

Dans l’article suivant, on va explorer comment on peut arriver à créer une visualisation de données dynamique permettant d’étudier la progression du virus COVID-19. Dans la vidéo ci-dessous, vous noterez quelques incohérences, car car je n’ai pas encore tout à fait terminé mes transformations de données et parce que les données fournies ont changé de structure au fil du temps, surtout concernant l’Asie, qui était au départ comptabilisé séparément et maintenant, intégrée dans les données mondiales. Mais comme on ne travaille pas pour le World Health Organization, on va s’en tenir au résultat ci-dessous pour le moment ;). Je vous promets toutefois de les ajuster pour la prochaine capsule, si je trouve el temps d’étudier plus en profondeur la structure des données sources. Malgré tout, vous voyez déjà le genre de visualisation que l’on peut créer avec ce type de données.

 

 

Données de départ

Le World Health Organization publie sur son site web, un rapport quotidien, depuis le début de la crise du coronavirus COVID-19. Le site ressemble à ceci:

COVID-19 documentation

 

Pour chaque journée, on retrouve donc un lien cliquable, qui mène à un PDF en ligne. Et chaque PDF comprend un tableau détaillé des cas sur la Chine et un autre sur les autres pays. Comme la crise a débuté en Chine, les premiers rapports ne concernent que la Chine et ont une structure un peu différente. Ils ont par la suite évolué pour tenir compte de la situation mondiale. Toutefois, les données publiées ailleurs dans le monde sont à l’échelle du pays. On ne retrouve donc pas de données spécifiques pour le Québec, par exemple, mais seulement pour le Canada. Il est évidemment possible de retrouver des données plus détaillées par pays ailleurs sur le web mais ici, notre objectif est d’utiliser les rapports présentées ci-dessus.

 

Les statistiques portant sur la Chine ressemblent donc à ceci:

Données Chine

 

Et les statistiques portant sur les autres pays ressemblent à ceci:

Données monde

 

Technique de Web Scraping

 

Étape 1 : Se connecter au site web

La première étape est d’obtenir les données du site web via l’éditeur de requêtes Power Query:

Connexion à un site web

 

En ne conservant que la source, on se retrouve donc avec le genre de résultat suivant:

Importation données site web

 

Étape 2: Récupérer les liens URL des différents rapports

La deuxième étape consiste à récupérer la liste des liens URL menant aux différents PDF. On veut que la liste soit actualisée à chaque jour, en fonction du nouveau rapport qui sera publié. En Web Scraping, ce n’est pas toujours simple de récupérer de telles informations. Ici, j’ai réussi assez simplement, parce que je connais bien les différents scénarios possibles ;).

 

En étudiant les liens URL des différents pdf, on constate qu’ils débutent tous par : https://www.who.int/docs/default-source/coronaviruse/situation-reports/2020… Il est possible que d’autres informations débutent par https mais il est peu probable qu’une grande quantité d’information débute par situation-reports. On a donc décidé de fractionner le texte:

 

Fractionner le texte

 

À chaque expression situation-reports.

Power Query

 

Et on s’est retrouvé avec la liste complète des extensions d’URL désirée, ainsi que quelques lignes superflues:

Texte fractionné

 

On a converti le tout en table (puisqu’à cette étape, après le fractionnement, nos données se sont retrouvées sous forme de liste):

 

Vers la table

 

On n’a pas utilisé de séparateurs:

 

Power Query

 

Et on a filtré pour ne conserver que les lignes qui débutent par /20.

 

Extraction

 

Puis on a extrait la portion liée à l’URL et pour ce faire, on a utilisé l’option Extraire , Entre les délimiteurs:

 

Power Query

 

On s’est retrouvé avec la portion de la fin de chaque URL et pour obtenir l’URL complet, on a ajouté une colonne personnalisée:

 

Ajouter une colonne

 

Et on y a fusionné le début de l’URL, qui est le même pour chacun des rapports PDF en ligne:

 

Power Query

 

On s’est donc retrouvé avec la table suivante:

Liste URL PDF en ligne

 

Étapes suivantes

Maintenant qu’on a la liste de tous les PDF en ligne, il faut en extraire l’information. Poursuivez votre lecture avec la suite de l’article : COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (2 de 2)

 


Fichier d’accompagnement

Le fichier d’accompagnement se retrouve à la fin de la partie 2 de l’article.

Formation complémentaire

Pour obtenir la technique complète et apprendre comment effectuer du Web Scraping, je vous recommande fortement la nouvelle formation Recette magiques pour transformer vos données.


NOTRE OFFRE DE FORMATIONS


Microsoft Most Valuable Professional

Le CFO masqué vous offre un vaste choix de formations Excel et Power BI, réparties dans 8 catégories: Excel – Tableaux de bord, Excel – Modélisation financière, Excel – VBA, Excel – Power Tools, Excel – Ninja, Power BI, Finance corporative et Compléments avancés. Ces formations sont offertes en classe, en entreprise et en ligne. Nos formateurs sont des experts dans leur domaine et ils sont accrédités par Emploi-Québec et vous remettent un certificat, à la fin de chaque formation, que vous pouvez notamment utiliser pour faire reconnaître des heures de formation continue auprès de votre ordre professionnel.

 

Découvrez quelles formations vous conviennent

Pour info: 514-605-7112 ou info@lecfomasque.com

 

smarchand

Sophie Marchand, M.Sc., CPA, CGA, MVP, est détentrice d’une M.Sc. en finance corporative et d’un titre comptable CPA, CGA. Elle est également MVP Office Apps and Services (Excel) et MVP Data Platform (Power BI). Le titre de MVP est un titre honorifique remis par Microsoft et signifie « Most Valuable Professional ». Il est attribué à des experts de solutions Microsoft qui se distinguent non seulement par leurs compétences mais également par leur implication dans la communauté. Seuls 4 professionnels possèdent cette double-qualification dans le monde. Mme Marchand cumule de nombreuses années d’expérience dans le milieu des affaires et se spécialise en modélisation financière et en intelligence d’affaires avec Excel et Power BI. Après avoir longtemps offert ses services comme consultante, elle se consacre désormais à la formation, sous toutes ses formes (formations en classe, formations en ligne, formations en entreprise, webinaires, animation de groupe d'usagers, rédaction d'articles de blogue, animation de forum en ligne et plus encore). Vous pouvez d'ailleurs la retrouver à la tête du groupe d'usagers Montreal Modern Excel and Power BI.

  • réponse GRASSIN Valéry ,

    Bonjour,
    Merci de nous donnez quelques exercices à réaliser dans ces moments assez difficiles.
    Quand on regarde bien les structures des sources, une bonne analyse permet d’extraire « facilement » les données afin de les exploiter.
    En attente avec impatience de la la deuxième partie, j’ai hâte de voir comment extraire les données des tableaux en masse.
    Encore merci,
    Valéry, un français en confinement pour ………..jours.

    • réponse Patrick Laroche ,

      Vraiment bien ta présentation sur le Web Scrapping et d’actualité en plus, ça nous motive à faire l’exercice! Merci.

      Laisser un commentaire