Accueil – Le CFO masqué › Forums › Power BI › Webscrapping – plusieurs pages
- This topic has 10 réponses, 2 participants, and was last updated il y a 4 years et 8 months by cedric74.
-
AuteurArticles
-
22 mars 2020 à 15 h 44 min #62402cedric74Participant
Bonjour,
Alors en fait j’aimerai récupérer des données avec Powerbi depuis un site web.
Seulement je n’arrive pas à récuperer les pages qui suivent la première (il n’y pas le numéro de page en paramètre dans l’url).
Au survol de la souris sur la deuxième page celà donne quelque chose comme ça:
javascript:__doPostBack(‘ctl00$MainContent$List’,’Page$2′)
J’ai essayé d’utiliser FIDDLER pour retrouver l’url de la page 2 mais impossible.
Auriez-vous une solution, car je bloque vraiment depuis longtemps ?
Par avance je vous remercie de m’avoir lu.Cordialement Cédric,
22 mars 2020 à 21 h 41 min #62407Sophie MarchandParticipantBonjour,
Quel est le site web en question?
Sophie
23 mars 2020 à 3 h 56 min #62408cedric74ParticipantJe vous remercie pour votre réponse,
Je ne peux pas publier le site internet ici car il s’agit d’un site interne à mon entreprise.
En revanche j’ai trouvé un site internet qui pose exactement la même problématique:
https://eproperty.wyndham.vic.gov.au/ePropertyPROD/P1/eTrack/eTrackApplicationSearchResults.aspx?Field=S&Period=L28&r=P1.WEBGUEST&f=%24P1.ETR.SEARCH.SL28Cédric,
23 mars 2020 à 16 h 36 min #62437Sophie MarchandParticipantBonjour,
Sur le site que vous fournissez en exemple, tous les URL ont une structure semblable. Il faut simplement remplacer les valeurs avant et après le back slash.
Quelle est votre problématique au juste? Avec ce site-là car autrement, on ne pourra pas vous venir en aide avec un site auquel on n’a pas accès…
Merci.
Sophie
23 mars 2020 à 18 h 30 min #62441cedric74ParticipantBonjour,
En d’autres termes ma question c’est comment télécharger la page 2 avec powerbi sachant que l’url est un javascript (cf screen). Quel lien doit-je indiquer à powerbi ?Attachments:
You must be logged in to view attached files.23 mars 2020 à 19 h 01 min #62445Sophie MarchandParticipantBonjour,
Je ne comprends toujours pas votre question mais je vais vous renvoyer aux deux articles suivants qui montrent comment faire du WebScraping dans PowerBI.
COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (1 de 2)
COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (2 de 2)
Pour le site web que vous indiquez, il faudrait créer deux paramètres, un pour les valeurs avant le back slash et l’autre pour les valeurs après. Il suffirait ensuite d’utililiser les deux paramètres dans le lien URL recomposé.
Un peu comme dans l’article suivant:
Au plaisir,
Sophie
24 mars 2020 à 18 h 19 min #62474cedric74ParticipantBonjour,
Sur vos exemples je comprends le fonctionnement des paramètres car chaque lien est bien défini par url unique. Pour le covid Situation-63 / 64 ….
D’ailleurs dans mon cas j’ai bien compris qu’il était possible de récupérer chaque fiche individuel avec un paramètre sur l’Application Id. Mais ce qui m’intéresse ce n’est pas chaque fiche mais les données de la page 2. Et quand je clique sur la page 2 j’ai cette url :C’est à dire le même URL que sur la page 1. Je ne voit pas comment faire la distinction entre la page 1 et la page 2, à travers l’utilisation d’un paramètre si l’URL est complètement identique.
24 mars 2020 à 18 h 40 min #62476Sophie MarchandParticipantBonjour,
Quand je regarde les données sur le site en question, chaque APPLIATION ID a son propre URL:
WYP12124/20
WYP12122/20
WYP12119/20
https://eproperty.wyndham.vic.gov.au/ePropertyPROD/P1/eTrack/eTrackApplicationDetails.aspx?r=P1.WEBGUEST&f=$P1.ETR.APPDET.VIW&ApplicationId=WYP12119%2f20Ceux qui réfèrent aux mêmes URL semblent être des amendements, qui se dirigent tous vers la même page.
Je ne sais pas en quoi cela vous pose un problème mais au final de votre requête, vous n’aurez qu’à supprimer les doublons. C’est tout.
Sophie
25 mars 2020 à 2 h 55 min #62479cedric74ParticipantBonjour,
Oui j’ai compris mais comment je fais pour accéder à la page 2 ?Attachments:
You must be logged in to view attached files.25 mars 2020 à 7 h 58 min #62491Sophie MarchandParticipantBonjour,
Il faut vous connecter à la table principale et retirer toutes les étapes pour ne conserver que l’étape Source. Vous aurez ainsi accès à tout le code html des deux pages. Comme il s’agit d’un seul URL, il s’agit d’un seul contenu html. Le fait qu’il soit sur deux pages est simplement une fonctionnalité de présentation.
De là donc, vous pourrez rechercher du texte et trouver une règle pour extraire le contenu qui vous intéresse (notamment avec la fonctionnalité Fractionner du texte). Ici, c’est un forum. On ne fera pas le travail pour vous mais on va vous dire comment le faire 😉
En espérant que vous puissiez trouver cette règle à présent.
Merci.
Sophie
25 mars 2020 à 14 h 03 min #62512cedric74ParticipantJe vous remercie beaucoup pour votre éclairage, c’est exactement la réponse que j’attendais.
Je n’avais pas du tout compris que le javascript fonctionnait de cette façon.
Merci.Cédric,
-
AuteurArticles
- Vous devez être connecté pour répondre à ce sujet.