Re: acrobate reader

Top Page

Reply to this message
Author: Michel Karatchentzeff
Date:  
To: liste Guilde
Subject: Re: acrobate reader

Je fais le point sur mon problème d'édition de fichier pdf "tordu".

Le but est d'extraire d'un fichier fich.pdf tous les morceaux de texte
qui s'y trouvent.

La solution classique
    pdftotext fich.pdf


ne donne qu'un fichier vide et Christian a rappelé que tous les
visualiseur PDF utilisent libpoppler (Comme tout le monde utilise
cette bibliothèque, le fait de passer d'un programme à un autre ne va
rien changer).

Libre office ou Master pdf editor 4 (merci Alain) indiquent que le
fichier est constitué d'une suite d'images et j'ai pensé (à tort) que
je pourrais extraire les chaînes de caractères en utilisant acrobate
reader, mais Christian m'a appris que acroread n'avait pas d'OCR et
était donc inutilisable. Le titre que j'ai donné au fil est donc
inapproprié.

Dominique a proposé d'utiliser pdfsandswich :
       (http://www.tobias-elze.de/pdfsandwich/index.html)
qui s'est installé sans problème sur ma debian.


    pdfsandwich fich.pdf


crée alors un fichier fich_ocr.pdf (Attention, ça peut être long) que
l'on édite avec masterpdfeditor4
    masterpdfeditor4 fich_ocr.pdf
à partir duquel
    fichier > exporter vers > texte
on obtient le fichier fich_ocr.txt des chaînes de caractères cherché.


Merci à tous pour vos commentaires et vos suggestions qui m'ont permis
de trouver une solution à mon problème.

Michel

--
Michel Karatchentzeff
Michel.Karatchentzeff@???
Fondation Louis de Broglie, 23, rue Marsoulan, 75012 Paris, FRANCE
http://MichelKaratchentzeff.free.fr