Re: Retours à la ligne multiples en Perl

Top Page

Reply to this message
Author: Stéphane Bonhomme
Date:  
To: Guilde
Subject: Re: Retours à la ligne multiples en Perl
Salut

C'est jamais une bonne idée de traiter des langages à balise avec des
regex, les balises sont susceptibles d'avoir des retour chariot entre
les attributs, ex :

<p class="info"
style='color:#F0F0F0'
title="c'est pas propre"
>coucou</p
>


en plus y'a d'excellents outils pour le faire :

pour du html :

xmllint --html
http://www.guilde.asso.fr/lurker/message/20090217.135736.75e8f7e9.en.html
| xmlstarlet sel -t -m "//text()[normalize-space(.)]" -v

'normalize-space(.)' -n

pour du xhtml :

xmllint http://www.guilde.asso.fr/ | xmlstarlet sel -t -m
"//text()[normalize-space(.)]" -v 'normalize-space(.)' -n

Stéphane.

Marc TERRIER a écrit :
> Bonjour,
>
> Je suis en train d'écrire une "moulinette" en Perl pour supprimer toutes les
> balises d'un fichier HTML, afin d'en faire une version texte seul. J'arrive à
> faire presque tout ce que je veux avec les expressions rationnelles de Perl,
> sauf à supprimer les retours à la ligne multiples. Et Google ne m'aide pas
> beaucoup, sur ce coup-là. Pourtant, ce doit être un truc hyper classique.
> Auriez-vous une piste, SVP ?
>
>



-- 
           Stéphane Bonhomme           --           Exselt Services


        Formations, Conseil et Réalisations en Ingénierie Documentaire,
                    Technologies Web et Logiciels Libres 
             stephane@???   -   http://www.exselt.com
                04 57 39 30 78        /      06 88 57 27 08