Une difficile conversion de données avec Excel – Un exemple de Modeloff 2014 (1 de 3)

Publié le 30 mars 2015
par Francis Paquet M.Sc., EEE

Cette série de 3 articles vise à réousdre un cas proposé par Modeloff, un concours de modélisation financière international. Le cas comme tel n’est pas complètement théorique… En effet, il arrive souvent, en entreprise, d’avoir à manipuler des données qui sont dans un format peu orthodoxe, comme ce sera le cas ici. Voici donc la démarche complète entreprise afin de convertir des données en format texte vers des données utiles afin de faire de l’analyse avec Excel. Cet exemple vient de la première ronde de Modeloff 2014.

 

Données d’origine du cas sous analyse du concours ModelOff

Les données source fournies par l’équipe de ModelOff avaient un format texte très particulier et une certaine absence de continuité, tel que corroboré par l’extrait ci-bas. Il convient de mentionner que les données source comptaient près de 9 000 lignes.

Capture_Excel_Energie

 

Selon les questions posées et les indications de la compétition Modeloff 2014, il fallait donc récupérer la consommation d’énergie, la date précise et la période horaire pour chaque enregistrement. Donc, ce premier billet documente les étapes requises afin de transformer les lignes d’information fournies en lignes uniformisées qui permettront l’extraction des 3 données requises (consommation, date et heure). Évidemment, chaque utilisateur d’Excel pourra utiliser un chemin différent, tous les chemins mènent à Rome, après tout… Également, il convient de mentionner qu’une telle extraction pourrait sans doute se faire assez aisément avec Power Query. Mais, pour le moment, concentrons-nous sur les fonctions de base d’Excel.

 

Première étape pour résoudre le cas ModelOff: Se débarrasser des _

 

J’ai d’abord décidé de me débarrasser des _ qui se retrouvent un peu partout dans les enregistrements de ModelOff en les remplaçant par des espaces. Afin de remplacer ces caractères, on utilise la fonctionnalité Cherche et Remplace d’Excel qu’on retrouve dans le menu d’accueil d’Excel :

Excel Cherche Remplace

 

Par la suite, j’ai utilisé la fonction TRIM (SUPPRESPACE en français). Cette fonction enlève tous les espaces au début et à la fin en plus de remplacer les chaînes d’espace en milieu de mots par un seul espace. Après ces manipulations, le fichier ressemble plutôt à ceci:

Excel Texte Trim Suppespace

 

À cette étape, une certaine uniformité est obtenue. Il nous faut encore uniformiser les heures et les dates.

 

Deuxième étape pour résoudre le cas ModelOff: Uniformiser les heures et les dates

 

Pour ce faire, je remplace les <ESPACE>AM et <ESPACE>PM par AM ou PM. Par la suite, je remplace les th, nd, rd et st par rien. Donc, j’obtiens alors:

Excel Texte Date Heure TRIM

 

Vous aimeriez être un Ninja Excel et devenir la référence ultime de votre bureau, ou tout le moins ne plus avoir l’impression de stagner ? Développez des solutions innovatrices en explorant des fonctions et fonctionnalités souvent méconnues mais fort utiles avec nos formations pour devenir Ninja d’Excel.

 

Troisième étape pour résoudre le cas ModelOff: Uniformiser les consommations

 

Finalement, par inspection, on voit que le terme kwh n’est pas utile. En effet, il y a, ou non, un espace entre la consommation et kwh. Cela ne peut que rendre difficile l’extraction de la consommation. Donc, j’ai décidé de remplacer kwh par un espace et de faire appel, encore une fois, à la fonction TRIM (SUPPRESPACE en français). J’obtiens donc, finalement, la base de données suivante:

Excel Texte Date Heure Consommation

 

Il est à noter que le concours Modeloff n’accordait que 35 minutes à ce problème. En 35 minutes, vous devez comprendre la situation, effectuez les manipulations et répondre aux questions. À ce point-ci, après plusieurs minutes, nous n’avons obtenu qu’une base de données relativement uniforme. Dans les prochains billets, on va finaliser la transformation des données et répondre aux questions de Modeloff.

 

Lire la suite:

Une difficile conversion de données avec Excel – Un exemple de Modeloff 2014 (2 de 3)


Formation complémentaire

Pour en savoir plus sur les fonctions d’Excel, qui permettent de manipuler, gérer et transformer des données qui proviennent de diverses sources et différents formats, sans faire intervenir Power Query ou le VBA, suivez la formation Excel – Traitement, manipulation et analyse de données.

 

Voici quelques commentaires d’apprenants ayant suivi cette formation :

Excel – Traitement, manipulation et analyse de données
CFO-Masque_Formations-en-ligne_FBLa mission du CFO masqué est de développer les compétences techniques des analystes et des contrôleurs de gestion en informatique décisionnelle avec Excel et Power BI et favoriser l’atteinte de leur plein potentiel, en stimulant leur autonomie, leur curiosité, leur raisonnement logique, leur esprit critique et leur créativité.

6 réflexions sur “Une difficile conversion de données avec Excel – Un exemple de Modeloff 2014 (1 de 3)”

    1. Francis Paquet, M.Sc., ing., EEE

      Bonjour,

      Il s’agit d’un concours international en modélisation financière. Je vous invite à visiter le site modeloff.com pour plus d’informations. Le concours se tient en octobre de chaque année.

      Merci,

      Francis

  1. Stéphane Parent

    Dans l’extrait présenté ci-haut, on ne voit pas de date avec un st, nd ou rd, mais je suppose qu’il y en a plus loin dans les données. Par contre, il y a des jeudi (ThuRDsday), des dimanches (SuNDay) ou autres qui sont amochés par le remplacement. Des problèmes a prévoir par la suite?

    1. Francis Paquet, M.Sc., ing., EEE

      Stéphane,

      Effectivement, dans le fichier de Modeloff (que vous pouvez télécharger) qui contient presque 9 000 lignes, on voit que toutes ces possibilités existent.

      Et effectivement, dans le deuxième billet, on va voir que les noms de jours qui sont amochés n’auront pas d’impact puisque nous allons nous en débarrasser.

      Merci,

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut