Re: Parser du html en bash

Page principale

Répondre à ce message
Auteur: Hugues Levasseur
Date:  
À: guilde
Sujet: Re: Parser du html en bash
Nicolas,

Comme je le disait hier à Yves, j'ai pris le "très bourrin"
grep -oP '<div id="maCible">.[^\<]*</div>' fichier.html

Qui fonctionne parfaitement ...
Le fichier en entrée est un wget d'une requête Google (dont j’extrais uniquement
le nombre de résultats)

Hugues

Le 28/11/2013 23:13, nt.guilde@??? a écrit :
>> Mais dans mon cas, je ne veut pas réécrire Firefox en ligne de
>> commande, je voudrait juste extraire une chaine d'un fichier.  Une
>> chaine qui commence par <div id="maCible"> et qui se fini au
>> prochain </div> rencontré
>    Dans ce cas :

>
>    sed 'H; $!d; g; s/\n/ /g
>         s/.*<div id="maCible">/<div id="maCible">/; s|</div>.*|</div>|'

>
> (rassembler le document en une seule ligne, éliminer tout ce qui précede
> "<div id=...>", éliminer tout ce qui suit "</div>" ; pas testé).
>    Mais regarde les exemples dans cette page :
> http://xmlstar.sourceforge.net/doc/xmlstarlet.txt. Peut-être que cela
> marchera sur ton document. Je n'ai pas eu cette chance avec le site de
> Arte, et ai eu recours à sed.
>    Pourras-tu nous dire quelle solution tu as retenue ?
>    -Nicolas

>
>