Re: modification de pdf / comparaison de pdf

Top Page

Reply to this message
Author: anne.guilde@free.fr
Date:  
To: guilde
Subject: Re: modification de pdf / comparaison de pdf
Le 30/08/2017 à 22:22, Olivier Allard-Jacquin a écrit :
>     Bonsoir,

>
> Le 30/08/2017 à 16:57, ALD a écrit :
>>
>>
>> Le mercredi 30 août 2017, 16:41:06 anne.guilde@??? a écrit :
>>
>>>
>>> Pour Tesseract pas bien compris comment s'en servir avec un pdf
>>>
>>
>> Forcément puisque ces logiciels vont faire de l'OCR sur une image (c'est bien
>> ce que tu avais dit: le texte est sous forme d'image).
>>
>> Il faut donc leur donner une image à digérer, pas le pdf.
>>
>> Si je me souviens bien, les images dans les pdf sont au format jpeg.
>>
>> Je ne sais pas comment sont fait tes pdf, mais tu peux les ouvrir avec
>> libreoffice draw et n'extraire que les images. il y a peut etre des
>> utilitaires en ligne de commande aussi, mais je ne les connais pas.
>
>     Pour extraire les images d'un PDF, j'utilise "pdfimages" qui me les
> sort en "*.ppm", puis "convert" pour les convertit en pdf.

>
> - Soit "PDF_FILE" le fichier PDF à traiter
> - Et "IMAGES", le répertoire temporaire qui va contenir les images
> - Alors:
>
> mkdir IMAGES
> pdfimages -j ../PDF_FILE IMAGES/image
>
> A partir de là, plein de fichiers IMAGES/image* sont créés


effectivement des jpg et des pbm
>
> cd IMAGES
> for I in *.ppm; do convert "$I" "${I%%.ppm}.jpg" > /dev/null; done


pas de ppm dans le dossier IMAGES

>
>     Pour installer les programmes :
> aptitude install poppler-utils imagemagick

>


C'était déjà installé

J'ai juste eu à utiliser pdfimages que je ne connaissais pas

J'ai essayé d'utiliser tesseract-ocr et ocrfeeder
Pas réussi à utiliser

J'ai testé ocrmypdf qui lui-même utilise tesseract
ocrmypdf source-image.pdf sortie-texte.pdf

Cela a donné un résultat tout à fait acceptable.

Merci à tous

Anne