Salut
C'est jamais une bonne idée de traiter des langages à balise avec des
regex, les balises sont susceptibles d'avoir des retour chariot entre
les attributs, ex :
<p class="info"
style='color:#F0F0F0'
title="c'est pas propre"
>coucou</p
>
en plus y'a d'excellents outils pour le faire :
pour du html :
xmllint --html
http://www.guilde.asso.fr/lurker/message/20090217.135736.75e8f7e9.en.html
| xmlstarlet sel -t -m "//text()[normalize-space(.)]" -v
'normalize-space(.)' -n
pour du xhtml :
xmllint
http://www.guilde.asso.fr/ | xmlstarlet sel -t -m
"//text()[normalize-space(.)]" -v 'normalize-space(.)' -n
Stéphane.
Marc TERRIER a écrit :
> Bonjour,
>
> Je suis en train d'écrire une "moulinette" en Perl pour supprimer toutes les
> balises d'un fichier HTML, afin d'en faire une version texte seul. J'arrive à
> faire presque tout ce que je veux avec les expressions rationnelles de Perl,
> sauf à supprimer les retours à la ligne multiples. Et Google ne m'aide pas
> beaucoup, sur ce coup-là. Pourtant, ce doit être un truc hyper classique.
> Auriez-vous une piste, SVP ?
>
>
--
Stéphane Bonhomme -- Exselt Services
Formations, Conseil et Réalisations en Ingénierie Documentaire,
Technologies Web et Logiciels Libres
stephane@??? - http://www.exselt.com
04 57 39 30 78 / 06 88 57 27 08