Autor: Frédéric Data: A: guilde Assumpte: Re: Stocker de manière automatique des pages wbe
Le mardi 10 janvier 2012, marc.terrier@??? a écrit :
> Je pense que la première question à se poser, c'est de savoir quel usage
> tu souhaites faire des données, à terme, que tu auras récupérées. Si, par
> exemple, c'est pour en faire un historique, et suivre l'évolution sur une
> période longue, alors je te suggère d'éviter la sauvegarde sous forme
> d'images, qui ne sont compréhensibles que pour un humain, et
> difficilement exploitables de façon automatisée. Mais tu sembles sur la
> bonne voie : 'cron' pour lancer un script, qui récupère par 'wget' le
> contenu de la page, et 'awk' ou 'perl' (ou n'importe quel autre outil ou
> langage qui permet d'utiliser des expressions rationnelles) pour isoler
> les informations intéressantes au sein du code HTML (qui semble avoir été
> écrit avec les pieds, soit dit en passant). Tu mets le tout dans une base
> de données de ton choix, et après, tu en fais ce que tu veux : les infos
> susceptibles de t'intéresser me semblent être toutes sur la ligne 398,
> dans le cas présent. Le reste n'est que du bruit HTML.
>
> Est-ce que ça t'aide un peu ?
Yep, ça aide (ainsi que la réponse d'Yves).
Le but est effectivement de voir sur le long terme quelle est la précision
des prévisions, comment elles s'affinent, se trompent, etc...
Je ne suis pas certain que ce soit facile à exploiter de manière
automatique, donc est-ce qu'une base de données est vraiment utile ? Pas
sûr...
Je vais peut-être commencer par sauver ça sous forme d'image. C'est
faisable, avec wget ? Ou après ? L'idéal serait de récupérer le champ de
mise à jour (qui apparaît en haut), pour l'utiliser en tant que nom de
fichier. De cette manière, un simple browser d'images ferait le boulot
facilement.