Le 30/08/2017 à 22:22, Olivier Allard-Jacquin a écrit :
> Bonsoir,
>
> Le 30/08/2017 à 16:57, ALD a écrit :
>>
>>
>> Le mercredi 30 août 2017, 16:41:06 anne.guilde@??? a écrit :
>>
>>>
>>> Pour Tesseract pas bien compris comment s'en servir avec un pdf
>>>
>>
>> Forcément puisque ces logiciels vont faire de l'OCR sur une image (c'est bien
>> ce que tu avais dit: le texte est sous forme d'image).
>>
>> Il faut donc leur donner une image à digérer, pas le pdf.
>>
>> Si je me souviens bien, les images dans les pdf sont au format jpeg.
>>
>> Je ne sais pas comment sont fait tes pdf, mais tu peux les ouvrir avec
>> libreoffice draw et n'extraire que les images. il y a peut etre des
>> utilitaires en ligne de commande aussi, mais je ne les connais pas.
>
> Pour extraire les images d'un PDF, j'utilise "pdfimages" qui me les
> sort en "*.ppm", puis "convert" pour les convertit en pdf.
>
> - Soit "PDF_FILE" le fichier PDF à traiter
> - Et "IMAGES", le répertoire temporaire qui va contenir les images
> - Alors:
>
> mkdir IMAGES
> pdfimages -j ../PDF_FILE IMAGES/image
>
> A partir de là, plein de fichiers IMAGES/image* sont créés
effectivement des jpg et des pbm
>
> cd IMAGES
> for I in *.ppm; do convert "$I" "${I%%.ppm}.jpg" > /dev/null; done
pas de ppm dans le dossier IMAGES
>
> Pour installer les programmes :
> aptitude install poppler-utils imagemagick
>
C'était déjà installé
J'ai juste eu à utiliser pdfimages que je ne connaissais pas
J'ai essayé d'utiliser tesseract-ocr et ocrfeeder
Pas réussi à utiliser
J'ai testé ocrmypdf qui lui-même utilise tesseract
ocrmypdf source-image.pdf sortie-texte.pdf
Cela a donné un résultat tout à fait acceptable.
Merci à tous
Anne