Webscrapping – plusieurs pages

Accueil – Le CFO masqué Forums Power BI Webscrapping – plusieurs pages

  • Ce sujet contient 10 réponses, 2 participants et a été mis à jour pour la dernière fois par cedric74, le il y a 4 années et 1 mois.
11 sujets de 1 à 11 (sur un total de 11)
  • Auteur
    Articles
  • #62402
    cedric74
    Participant

    Bonjour,
    Alors en fait j’aimerai récupérer des données avec Powerbi depuis un site web.
    Seulement je n’arrive pas à récuperer les pages qui suivent la première (il n’y pas le numéro de page en paramètre dans l’url).
    Au survol de la souris sur la deuxième page celà donne quelque chose comme ça:
    javascript:__doPostBack(‘ctl00$MainContent$List’,’Page$2′)
    J’ai essayé d’utiliser FIDDLER pour retrouver l’url de la page 2 mais impossible.
    Auriez-vous une solution, car je bloque vraiment depuis longtemps ?
    Par avance je vous remercie de m’avoir lu.

    Cordialement Cédric,

    • Ce sujet a été modifié le il y a 4 années et 1 mois par cedric74.
    • Ce sujet a été modifié le il y a 4 années et 1 mois par cedric74.
    #62407
    Sophie Marchand
    Participant

    Bonjour,

    Quel est le site web en question?

    Sophie

    #62408
    cedric74
    Participant

    Je vous remercie pour votre réponse,
    Je ne peux pas publier le site internet ici car il s’agit d’un site interne à mon entreprise.
    En revanche j’ai trouvé un site internet qui pose exactement la même problématique:
    https://eproperty.wyndham.vic.gov.au/ePropertyPROD/P1/eTrack/eTrackApplicationSearchResults.aspx?Field=S&Period=L28&r=P1.WEBGUEST&f=%24P1.ETR.SEARCH.SL28

    Cédric,

    #62437
    Sophie Marchand
    Participant

    Bonjour,

    Sur le site que vous fournissez en exemple, tous les URL ont une structure semblable. Il faut simplement remplacer les valeurs avant et après le back slash.

    Quelle est votre problématique au juste? Avec ce site-là car autrement, on ne pourra pas vous venir en aide avec un site auquel on n’a pas accès…

    Merci.

    Sophie

    #62441
    cedric74
    Participant

    Bonjour,
    En d’autres termes ma question c’est comment télécharger la page 2 avec powerbi sachant que l’url est un javascript (cf screen). Quel lien doit-je indiquer à powerbi ?

    Attachments:
    You must be logged in to view attached files.
    #62445
    Sophie Marchand
    Participant

    Bonjour,

    Je ne comprends toujours pas votre question mais je vais vous renvoyer aux deux articles suivants qui montrent comment faire du WebScraping dans PowerBI.

    COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (1 de 2)

    COVID-19: Construisez vos propres analyses sur cartes géographiques dynamiques (2 de 2)

    Pour le site web que vous indiquez, il faudrait créer deux paramètres, un pour les valeurs avant le back slash et l’autre pour les valeurs après. Il suffirait ensuite d’utililiser les deux paramètres dans le lien URL recomposé.

    Un peu comme dans l’article suivant:

    Leçon de Web Scraping avec Power BI

    Au plaisir,

    Sophie

    #62474
    cedric74
    Participant

    Bonjour,
    Sur vos exemples je comprends le fonctionnement des paramètres car chaque lien est bien défini par url unique. Pour le covid Situation-63 / 64 ….
    D’ailleurs dans mon cas j’ai bien compris qu’il était possible de récupérer chaque fiche individuel avec un paramètre sur l’Application Id. Mais ce qui m’intéresse ce n’est pas chaque fiche mais les données de la page 2. Et quand je clique sur la page 2 j’ai cette url :

    https://eproperty.wyndham.vic.gov.au/ePropertyPROD/P1/eTrack/eTrackApplicationSearchResults.aspx?Field=S&Period=L28&r=P1.WEBGUEST&f=%24P1.ETR.SEARCH.SL28

    C’est à dire le même URL que sur la page 1. Je ne voit pas comment faire la distinction entre la page 1 et la page 2, à travers l’utilisation d’un paramètre si l’URL est complètement identique.

    #62476
    Sophie Marchand
    Participant

    Bonjour,

    Quand je regarde les données sur le site en question, chaque APPLIATION ID a son propre URL:

    WYP12124/20

    https://eproperty.wyndham.vic.gov.au/ePropertyPROD/P1/eTrack/eTrackApplicationDetails.aspx?r=P1.WEBGUEST&f=$P1.ETR.APPDET.VIW&ApplicationId=WYP12124%2f20

    WYP12122/20

    https://eproperty.wyndham.vic.gov.au/ePropertyPROD/P1/eTrack/eTrackApplicationDetails.aspx?r=P1.WEBGUEST&f=$P1.ETR.APPDET.VIW&ApplicationId=WYP12122%2f20

    WYP12119/20
    https://eproperty.wyndham.vic.gov.au/ePropertyPROD/P1/eTrack/eTrackApplicationDetails.aspx?r=P1.WEBGUEST&f=$P1.ETR.APPDET.VIW&ApplicationId=WYP12119%2f20

    Ceux qui réfèrent aux mêmes URL semblent être des amendements, qui se dirigent tous vers la même page.

    Je ne sais pas en quoi cela vous pose un problème mais au final de votre requête, vous n’aurez qu’à supprimer les doublons. C’est tout.

    Sophie

    #62479
    cedric74
    Participant

    Bonjour,
    Oui j’ai compris mais comment je fais pour accéder à la page 2 ?

    Attachments:
    You must be logged in to view attached files.
    #62491
    Sophie Marchand
    Participant

    Bonjour,

    Il faut vous connecter à la table principale et retirer toutes les étapes pour ne conserver que l’étape Source. Vous aurez ainsi accès à tout le code html des deux pages. Comme il s’agit d’un seul URL, il s’agit d’un seul contenu html. Le fait qu’il soit sur deux pages est simplement une fonctionnalité de présentation.

    De là donc, vous pourrez rechercher du texte et trouver une règle pour extraire le contenu qui vous intéresse (notamment avec la fonctionnalité Fractionner du texte). Ici, c’est un forum. On ne fera pas le travail pour vous mais on va vous dire comment le faire 😉

    En espérant que vous puissiez trouver cette règle à présent.

    Merci.

    Sophie

    #62512
    cedric74
    Participant

    Je vous remercie beaucoup pour votre éclairage, c’est exactement la réponse que j’attendais.
    Je n’avais pas du tout compris que le javascript fonctionnait de cette façon.
    Merci.

    Cédric,

11 sujets de 1 à 11 (sur un total de 11)
  • Vous devez être connecté pour répondre à ce sujet.