COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (1 de 2)

Publié le 17 mars 2020
par Sophie Marchand M.Sc.
Carte géographique COVID-19

Voici les étapes d’une analyse covid-19 dans Power BI

Si vous êtes isolé à la maison pour les prochains jours, je vous recommande fortement de vous amuser à découvrir Power BI ou à parfaire vos connaissances avec les solutions modernes d’Excel. Et maintenant, je partage avec vous une petite technique de Web Scraping avec Power BI afin d’analyser ces fameuses données sur le COVID-19, qui ont réussi à paralyser le monde entier.

 

Objectif visé: Visualiser la progression du virus

Dans l’article suivant, on va explorer comment on peut arriver à créer une visualisation de données dynamique permettant d’étudier la progression du virus COVID-19. Dans la vidéo ci-dessous, vous noterez quelques incohérences, car car je n’ai pas encore tout à fait terminé mes transformations de données et parce que les données fournies ont changé de structure au fil du temps, surtout concernant l’Asie, qui était au départ comptabilisé séparément et maintenant, intégrée dans les données mondiales. Mais comme on ne travaille pas pour le World Health Organization, on va s’en tenir au résultat ci-dessous pour le moment ;). Je vous promets toutefois de les ajuster pour la prochaine capsule, si je trouve el temps d’étudier plus en profondeur la structure des données sources. Malgré tout, vous voyez déjà le genre de visualisation que l’on peut créer avec ce type de données.

 

 

Données de départ

Le World Health Organization publie sur son site web, un rapport quotidien, depuis le début de la crise du coronavirus COVID-19. Le site ressemble à ceci:

Analyse covid-19 dans Power BI

 

Pour chaque journée, on retrouve donc un lien cliquable, qui mène à un PDF en ligne. Et chaque PDF comprend un tableau détaillé des cas sur la Chine et un autre sur les autres pays. Comme la crise a débuté en Chine, les premiers rapports ne concernent que la Chine et ont une structure un peu différente. Ils ont par la suite évolué pour tenir compte de la situation mondiale. Toutefois, les données publiées ailleurs dans le monde sont à l’échelle du pays. On ne retrouve donc pas de données spécifiques pour le Québec, par exemple, mais seulement pour le Canada. Il est évidemment possible de retrouver des données plus détaillées par pays ailleurs sur le web mais ici, notre objectif est d’utiliser les rapports présentées ci-dessus.

 

Les statistiques portant sur la Chine ressemblent donc à ceci:

Données Chine

 

Et les statistiques portant sur les autres pays ressemblent à ceci:

Données monde

 

Technique de Web Scraping

 

Étape 1 : Se connecter au site web

La première étape est d’obtenir les données du site web via l’éditeur de requêtes Power Query:

Connexion à un site web

 

En ne conservant que la source, on se retrouve donc avec le genre de résultat suivant:

Analyse covid-19 dans Power BI, Importation données site web

Vous devez analyser de grandes quantités de données et les présenter dans des rapports et tableaux de bord, avec des indicateurs de performance pertinents ? Développez vos compétences avec nos formations en Power BI.

Formations Power BI disponibles en anglais

Étape 2: Récupérer les liens URL des différents rapports

La deuxième étape consiste à récupérer la liste des liens URL menant aux différents PDF. On veut que la liste soit actualisée à chaque jour, en fonction du nouveau rapport qui sera publié. En Web Scraping, ce n’est pas toujours simple de récupérer de telles informations. Ici, j’ai réussi assez simplement, parce que je connais bien les différents scénarios possibles ;).

 

En étudiant les liens URL des différents pdf, on constate qu’ils débutent tous par : https://www.who.int/docs/default-source/coronaviruse/situation-reports/2020… Il est possible que d’autres informations débutent par https mais il est peu probable qu’une grande quantité d’information débute par situation-reports. On a donc décidé de fractionner le texte:

 

Fractionner le texte

 

À chaque expression situation-reports.

Power Query

 

Et on s’est retrouvé avec la liste complète des extensions d’URL désirée, ainsi que quelques lignes superflues:

Analyse Covid-19 dans Power BI: Carte dynamique, Texte fractionné

 

On a converti le tout en table (puisqu’à cette étape, après le fractionnement, nos données se sont retrouvées sous forme de liste):

 

Vers la table

 

On n’a pas utilisé de séparateurs:

 

Power Query

 

Et on a filtré pour ne conserver que les lignes qui débutent par /20.

 

Extraction

 

Puis on a extrait la portion liée à l’URL et pour ce faire, on a utilisé l’option Extraire , Entre les délimiteurs:

 

Analyse Covid-19 dans Power BI: Carte dynamique

 

On s’est retrouvé avec la portion de la fin de chaque URL et pour obtenir l’URL complet, on a ajouté une colonne personnalisée:

 

Ajouter une colonne

 

Et on y a fusionné le début de l’URL, qui est le même pour chacun des rapports PDF en ligne:

 

Power Query

 

On s’est donc retrouvé avec la table suivante:

Analyse Covid-19 dans Power BI: Carte dynamique, Liste URL PDF en ligne

 

Étapes suivantes de l’analyse covid-19 dans Power BI

Maintenant qu’on a la liste de tous les PDF en ligne, il faut en extraire l’information. Poursuivez votre lecture avec la suite de l’article : COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (2 de 2)

 


Fichier d’accompagnement VIP à télécharger

Le fichier d’accompagnement se retrouve à la fin de la partie 2 de l’article.

Formation complémentaire

Pour obtenir la technique complète et apprendre comment effectuer du Web Scraping, je vous recommande fortement la nouvelle formation Recette magiques pour transformer vos données.

Voici quelques commentaires d’apprenants ayant suivi cette formation :


CFO-Masque_Formations-en-ligne_FBLa mission du CFO masqué est de développer les compétences techniques des analystes et des contrôleurs de gestion en informatique décisionnelle avec Excel et Power BI et favoriser l’atteinte de leur plein potentiel, en stimulant leur autonomie, leur curiosité, leur raisonnement logique, leur esprit critique et leur créativité.

2 réflexions sur “COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (1 de 2)”

  1. Bonjour,
    Merci de nous donnez quelques exercices à réaliser dans ces moments assez difficiles.
    Quand on regarde bien les structures des sources, une bonne analyse permet d’extraire “facilement” les données afin de les exploiter.
    En attente avec impatience de la la deuxième partie, j’ai hâte de voir comment extraire les données des tableaux en masse.
    Encore merci,
    Valéry, un français en confinement pour ………..jours.

  2. Vraiment bien ta présentation sur le Web Scrapping et d’actualité en plus, ça nous motive à faire l’exercice! Merci.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut