Re: Parser du html en bash

Page principale

Répondre à ce message
Auteur: nt.guilde
Date:  
À: guilde
CC: guilde
Sujet: Re: Parser du html en bash
> Mais dans mon cas, je ne veut pas réécrire Firefox en ligne de
> commande, je voudrait juste extraire une chaine d'un fichier. Une
> chaine qui commence par <div id="maCible"> et qui se fini au
> prochain </div> rencontré


Dans ce cas :

  sed 'H; $!d; g; s/\n/ /g
       s/.*<div id="maCible">/<div id="maCible">/; s|</div>.*|</div>|'


(rassembler le document en une seule ligne, éliminer tout ce qui précede
"<div id=...>", éliminer tout ce qui suit "</div>" ; pas testé).
Mais regarde les exemples dans cette page :
http://xmlstar.sourceforge.net/doc/xmlstarlet.txt. Peut-être que cela
marchera sur ton document. Je n'ai pas eu cette chance avec le site de
Arte, et ai eu recours à sed.
Pourras-tu nous dire quelle solution tu as retenue ?
-Nicolas