COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (1 de 2)

Publié le 17 mars 2020
par Sophie Marchand M.Sc., CPA, CGA, MVP
Carte géographique COVID-19

COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (1 de 2)

Si vous êtes isolé à la maison pour les prochains jours, je vous recommande fortement de vous amuser à découvrir Power BI ou à parfaire vos connaissances avec les solutions modernes d’Excel. Et pour vous donner envie d’apprendre, vous pourrez utiliser le code promotionnel suivant 25-COVID-ELEARNING jusqu’au 20 mars 2020, afin d’obtenir 25% de rabais sur toutes nos formations en ligne à prix régulier. Et maintenant, je partage avec vous une petite technique de Web Scraping avec Power BI afin d’analyser ces fameuses données sur le COVID-19, qui ont réussi à paralyser le monde entier.

 

Objectif visé: Visualiser la progression du virus

Dans l’article suivant, on va explorer comment on peut arriver à créer une visualisation de données dynamique permettant d’étudier la progression du virus COVID-19. Dans la vidéo ci-dessous, vous noterez quelques incohérences, car car je n’ai pas encore tout à fait terminé mes transformations de données et parce que les données fournies ont changé de structure au fil du temps, surtout concernant l’Asie, qui était au départ comptabilisé séparément et maintenant, intégrée dans les données mondiales. Mais comme on ne travaille pas pour le World Health Organization, on va s’en tenir au résultat ci-dessous pour le moment ;). Je vous promets toutefois de les ajuster pour la prochaine capsule, si je trouve el temps d’étudier plus en profondeur la structure des données sources. Malgré tout, vous voyez déjà le genre de visualisation que l’on peut créer avec ce type de données.

 

 

Données de départ

Le World Health Organization publie sur son site web, un rapport quotidien, depuis le début de la crise du coronavirus COVID-19. Le site ressemble à ceci:

COVID-19 documentation

 

Pour chaque journée, on retrouve donc un lien cliquable, qui mène à un PDF en ligne. Et chaque PDF comprend un tableau détaillé des cas sur la Chine et un autre sur les autres pays. Comme la crise a débuté en Chine, les premiers rapports ne concernent que la Chine et ont une structure un peu différente. Ils ont par la suite évolué pour tenir compte de la situation mondiale. Toutefois, les données publiées ailleurs dans le monde sont à l’échelle du pays. On ne retrouve donc pas de données spécifiques pour le Québec, par exemple, mais seulement pour le Canada. Il est évidemment possible de retrouver des données plus détaillées par pays ailleurs sur le web mais ici, notre objectif est d’utiliser les rapports présentées ci-dessus.

 

Les statistiques portant sur la Chine ressemblent donc à ceci:

Données Chine

 

Et les statistiques portant sur les autres pays ressemblent à ceci:

Données monde

 

Technique de Web Scraping

 

Étape 1 : Se connecter au site web

La première étape est d’obtenir les données du site web via l’éditeur de requêtes Power Query:

Connexion à un site web

 

En ne conservant que la source, on se retrouve donc avec le genre de résultat suivant:

Importation données site web
 
 

Vous devez analyser de grandes quantités de données et les présenter dans des rapports et tableaux de bord, avec des indicateurs de performance pertinents ? Développez vos compétences avec nos formations en Power BI.

 

Étape 2: Récupérer les liens URL des différents rapports

La deuxième étape consiste à récupérer la liste des liens URL menant aux différents PDF. On veut que la liste soit actualisée à chaque jour, en fonction du nouveau rapport qui sera publié. En Web Scraping, ce n’est pas toujours simple de récupérer de telles informations. Ici, j’ai réussi assez simplement, parce que je connais bien les différents scénarios possibles ;).

 

En étudiant les liens URL des différents pdf, on constate qu’ils débutent tous par : https://www.who.int/docs/default-source/coronaviruse/situation-reports/2020… Il est possible que d’autres informations débutent par https mais il est peu probable qu’une grande quantité d’information débute par situation-reports. On a donc décidé de fractionner le texte:

 

Fractionner le texte

 

À chaque expression situation-reports.

Power Query

 

Et on s’est retrouvé avec la liste complète des extensions d’URL désirée, ainsi que quelques lignes superflues:

Texte fractionné

 

On a converti le tout en table (puisqu’à cette étape, après le fractionnement, nos données se sont retrouvées sous forme de liste):

 

Vers la table

 

On n’a pas utilisé de séparateurs:

 

Power Query

 

Et on a filtré pour ne conserver que les lignes qui débutent par /20.

 

Extraction

 

Puis on a extrait la portion liée à l’URL et pour ce faire, on a utilisé l’option Extraire , Entre les délimiteurs:

 

Power Query

 

On s’est retrouvé avec la portion de la fin de chaque URL et pour obtenir l’URL complet, on a ajouté une colonne personnalisée:

 

Ajouter une colonne

 

Et on y a fusionné le début de l’URL, qui est le même pour chacun des rapports PDF en ligne:

 

Power Query

 

On s’est donc retrouvé avec la table suivante:

Liste URL PDF en ligne

 

Étapes suivantes

Maintenant qu’on a la liste de tous les PDF en ligne, il faut en extraire l’information. Poursuivez votre lecture avec la suite de l’article : COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (2 de 2)

 


Fichier d’accompagnement VIP à télécharger

Le fichier d’accompagnement se retrouve à la fin de la partie 2 de l’article.

Formation complémentaire

Pour obtenir la technique complète et apprendre comment effectuer du Web Scraping, je vous recommande fortement la nouvelle formation Recette magiques pour transformer vos données.

Voici quelques commentaires d’apprenants ayant suivi cette formation :

Sylvain LEPRÊTRE
Écrit il y a 5 mois
Formation très intéressante

Formation très intéressante si on veut monter au niveau supérieur dans Power Query


CFO-Masque_Formations-en-ligne_FB Le CFO masqué offre un vaste choix de formations en informatique décisionnelle avec Excel et Power BI, via un portail en ligne et à distance en temps réel, selon un calendrier. Si vous désirez organiser des formations privées, faites nous simplement parvenir un courriel à info@lecfomasque.com . Des certificats convenant aux normes de formation continue des divers ordres professionnels du Québec sont offerts pour l'ensemble des formations.  

Découvrez quelles formations vous conviennent

 

2 réflexions sur “COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (1 de 2)”

  1. GRASSIN Valéry

    Bonjour,
    Merci de nous donnez quelques exercices à réaliser dans ces moments assez difficiles.
    Quand on regarde bien les structures des sources, une bonne analyse permet d’extraire « facilement » les données afin de les exploiter.
    En attente avec impatience de la la deuxième partie, j’ai hâte de voir comment extraire les données des tableaux en masse.
    Encore merci,
    Valéry, un français en confinement pour ………..jours.

  2. Patrick Laroche

    Vraiment bien ta présentation sur le Web Scrapping et d’actualité en plus, ça nous motive à faire l’exercice! Merci.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top