Re: Parser du html en bash

Author: Hugues Levasseur
Date:
To: guilde
Subject: Re: Parser du html en bash

Nicolas,

Comme je le disait hier à Yves, j'ai pris le "très bourrin"
grep -oP '<div id="maCible">.[^\<]*</div>' fichier.html

Qui fonctionne parfaitement ...
Le fichier en entrée est un wget d'une requête Google (dont j’extrais uniquement
le nombre de résultats)

Hugues

Le 28/11/2013 23:13, nt.guilde@??? a écrit :
>> Mais dans mon cas, je ne veut pas réécrire Firefox en ligne de >> commande, je voudrait juste extraire une chaine d'un fichier. Une >> chaine qui commence par <div id="maCible"> et qui se fini au >> prochain </div> rencontré > Dans ce cas :

>
> sed 'H; $!d; g; s/\n/ /g > s/.*<div id="maCible">/<div id="maCible">/; s|</div>.*|</div>|'

>
> (rassembler le document en une seule ligne, éliminer tout ce qui précede > "<div id=...>", éliminer tout ce qui suit "</div>" ; pas testé). > Mais regarde les exemples dans cette page : > http://xmlstar.sourceforge.net/doc/xmlstarlet.txt. Peut-être que cela > marchera sur ton document. Je n'ai pas eu cette chance avec le site de > Arte, et ai eu recours à sed. > Pourras-tu nous dire quelle solution tu as retenue ? > -Nicolas

>
>

This message is part of the following thread:
	the complete thread tree sorted by date
	nt.guilde at
	Kristian Erik Hermansen at