Voici les étapes d’une analyse covid-19 dans Power BI
Si vous êtes isolé à la maison pour les prochains jours, je vous recommande fortement de vous amuser à découvrir Power BI ou à parfaire vos connaissances avec les solutions modernes d’Excel. Et maintenant, je partage avec vous une petite technique de Web Scraping avec Power BI afin d’analyser ces fameuses données sur le COVID-19, qui ont réussi à paralyser le monde entier.
Objectif visé: Visualiser la progression du virus
Dans l’article suivant, on va explorer comment on peut arriver à créer une visualisation de données dynamique permettant d’étudier la progression du virus COVID-19. Dans la vidéo ci-dessous, vous noterez quelques incohérences, car car je n’ai pas encore tout à fait terminé mes transformations de données et parce que les données fournies ont changé de structure au fil du temps, surtout concernant l’Asie, qui était au départ comptabilisé séparément et maintenant, intégrée dans les données mondiales. Mais comme on ne travaille pas pour le World Health Organization, on va s’en tenir au résultat ci-dessous pour le moment ;). Je vous promets toutefois de les ajuster pour la prochaine capsule, si je trouve el temps d’étudier plus en profondeur la structure des données sources. Malgré tout, vous voyez déjà le genre de visualisation que l’on peut créer avec ce type de données.
Données de départ
Le World Health Organization publie sur son site web, un rapport quotidien, depuis le début de la crise du coronavirus COVID-19. Le site ressemble à ceci:
Pour chaque journée, on retrouve donc un lien cliquable, qui mène à un PDF en ligne. Et chaque PDF comprend un tableau détaillé des cas sur la Chine et un autre sur les autres pays. Comme la crise a débuté en Chine, les premiers rapports ne concernent que la Chine et ont une structure un peu différente. Ils ont par la suite évolué pour tenir compte de la situation mondiale. Toutefois, les données publiées ailleurs dans le monde sont à l’échelle du pays. On ne retrouve donc pas de données spécifiques pour le Québec, par exemple, mais seulement pour le Canada. Il est évidemment possible de retrouver des données plus détaillées par pays ailleurs sur le web mais ici, notre objectif est d’utiliser les rapports présentées ci-dessus.
Les statistiques portant sur la Chine ressemblent donc à ceci:
Et les statistiques portant sur les autres pays ressemblent à ceci:
Technique de Web Scraping
Étape 1 : Se connecter au site web
La première étape est d’obtenir les données du site web via l’éditeur de requêtes Power Query:
En ne conservant que la source, on se retrouve donc avec le genre de résultat suivant:
Vous devez analyser de grandes quantités de données et les présenter dans des rapports et tableaux de bord, avec des indicateurs de performance pertinents ? Développez vos compétences avec nos formations en Power BI en français ou en anglais. |
---|
Étape 2: Récupérer les liens URL des différents rapports
La deuxième étape consiste à récupérer la liste des liens URL menant aux différents PDF. On veut que la liste soit actualisée à chaque jour, en fonction du nouveau rapport qui sera publié. En Web Scraping, ce n’est pas toujours simple de récupérer de telles informations. Ici, j’ai réussi assez simplement, parce que je connais bien les différents scénarios possibles ;).
En étudiant les liens URL des différents pdf, on constate qu’ils débutent tous par : https://www.who.int/docs/default-source/coronaviruse/situation-reports/2020… Il est possible que d’autres informations débutent par https mais il est peu probable qu’une grande quantité d’information débute par situation-reports. On a donc décidé de fractionner le texte:
À chaque expression situation-reports.
Et on s’est retrouvé avec la liste complète des extensions d’URL désirée, ainsi que quelques lignes superflues:
On a converti le tout en table (puisqu’à cette étape, après le fractionnement, nos données se sont retrouvées sous forme de liste):
On n’a pas utilisé de séparateurs:
Et on a filtré pour ne conserver que les lignes qui débutent par /20.
Puis on a extrait la portion liée à l’URL et pour ce faire, on a utilisé l’option Extraire , Entre les délimiteurs:
On s’est retrouvé avec la portion de la fin de chaque URL et pour obtenir l’URL complet, on a ajouté une colonne personnalisée:
Et on y a fusionné le début de l’URL, qui est le même pour chacun des rapports PDF en ligne:
On s’est donc retrouvé avec la table suivante:
Étapes suivantes de l’analyse covid-19 dans Power BI
Maintenant qu’on a la liste de tous les PDF en ligne, il faut en extraire l’information. Poursuivez votre lecture avec la suite de l’article : COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (2 de 2)
Fichier d’accompagnement VIP à télécharger
Le fichier d’accompagnement se retrouve à la fin de la partie 2 de l’article.
Formation complémentaire
Pour obtenir la technique complète et apprendre comment effectuer du Web Scraping, je vous recommande fortement la nouvelle formation Recette magiques pour transformer vos données.
Voici quelques commentaires d’apprenants ayant suivi cette formation :
Bonjour,
Merci de nous donnez quelques exercices à réaliser dans ces moments assez difficiles.
Quand on regarde bien les structures des sources, une bonne analyse permet d’extraire “facilement” les données afin de les exploiter.
En attente avec impatience de la la deuxième partie, j’ai hâte de voir comment extraire les données des tableaux en masse.
Encore merci,
Valéry, un français en confinement pour ………..jours.
Vraiment bien ta présentation sur le Web Scrapping et d’actualité en plus, ça nous motive à faire l’exercice! Merci.