Des fois il suffit de poser la question pour trouver la réponse....
find ... -exec pdftotext "{}" "{}.txt" \;
Le mardi 19 juin 2007 à 11:05 +0200, Stephane Bonhomme a écrit :
> Bonjour à tous
>
> Je cherche à faire un script shell qui extrait le texte de fichiers pdf.
> Mes pdf sont dans une arborescence de répertoires, et je voudrait
> boucler dessus pour appeller la commande pdftotext
>
> Je fais donc
>
> for p in `find $basepath -name *\.pdf`; do
> pdftotext $p $p.txt
> done
>
> le probleme est que j'ai certains fichiers pdf dont le nom comporte des
> espaces, la boucle for fait une itération pour ces espaces contenus dans
> les noms de fichiers si j'ai :
>
> rep/mondoc important.pdf
>
> dans ma boucle j'ai une itération sur "rep/mondoc"
> et une itération sur "important.pdf"
>
> comment puis-je résoudre ce problème ?
>
> Merci.
>
--
Stéphane Bonhomme -- Exselt Services
Formations, Conseil et Réalisations en Ingénierie Documentaire,
Technologies Web et Logiciels Libres
stephane@??? - http://www.exselt.com
04 57 39 30 78 / 06 88 57 27 08