Author: Gregory Mounie Date: To: Thomas BERNARD-PEYRE CC: guilde Subject: Re: Format de document PDF
Salut,
Tu n'as pas besoin d'OCR si le texte est deja dans le fichier, il
suffit juste de le lire.
pdf2ps toto.pdf pour le transformer en postscript (ou imprimer dans
un fichier dans acroread)
et ps2ascii toto.ps pour obtenir le texte dedans.
Si le fichier PDF est l'image d'un texte, tu as des choses comme gocr
(jamais teste) (NB: il faudra la convertir en autre chose)
Gregory
On 2002.04.23 13:35 Thomas BERNARD-PEYRE wrote: > Je cherche un moyen de faire de l'OCR sur des documents PDF. Je
> m'explique
> - Sous Win, lorsque je scan un document et le convertit au format
> PDF, pour pouvoir indexer ce document, il me faut absolument utiliser
> Paper Capture (Livré avec Adobe Acrobat).
>
> - Sous Linux, la première partie fonctionne correctement. Sauf que je
> n'arrive pas à trouver un outils qui me permette de reconnnaitre le
> texte de mes fichiers PDF. Une sorte d'OCR.
>
> Si qqun a une idéé ou un lien. Merci
>