Re: modification de pdf / comparaison de pdf

Top Page

Reply to this message
Author: Olivier Allard-Jacquin
Date:  
To: guilde
Subject: Re: modification de pdf / comparaison de pdf
    Bonsoir,

Le 01/09/2017 à 05:37, anne.guilde@??? a écrit :
> Le 30/08/2017 à 22:22, Olivier Allard-Jacquin a écrit :
>>     Bonsoir,

>>
>> Le 30/08/2017 à 16:57, ALD a écrit :
>>>
>>>
>>> Le mercredi 30 août 2017, 16:41:06 anne.guilde@??? a écrit :
>>>
>>>>
>>>> Pour Tesseract pas bien compris comment s'en servir avec un pdf
>>>>
>>>
>>> Forcément puisque ces logiciels vont faire de l'OCR sur une image
>>> (c'est bien
>>> ce que tu avais dit: le texte est sous forme d'image).
>>>
>>> Il faut donc leur donner une image à digérer, pas le pdf.
>>>
>>> Si je me souviens bien, les images dans les pdf sont au format jpeg.
>>>
>>> Je ne sais pas comment sont fait tes pdf, mais tu peux les ouvrir avec
>>> libreoffice draw et n'extraire que les images. il y a peut etre des
>>> utilitaires en ligne de commande aussi, mais je ne les connais pas.
>>
>>     Pour extraire les images d'un PDF, j'utilise "pdfimages" qui me les
>> sort en "*.ppm", puis "convert" pour les convertit en pdf.

>>
>> - Soit "PDF_FILE" le fichier PDF à traiter
>> - Et "IMAGES", le répertoire temporaire qui va contenir les images
>> - Alors:
>>
>> mkdir IMAGES
>> pdfimages -j ../PDF_FILE IMAGES/image
>>
>> A partir de là, plein de fichiers IMAGES/image* sont créés
>
> effectivement des jpg et des pbm


    Google -> pbm -> https://fr.wikipedia.org/wiki/Portable_pixmap


$ identify -list format|grep -i pbm
      PBM* PNM       rw+   Portable bitmap format (black and white)


=> "convert" support le PBM ...
    

>> cd IMAGES
>> for I in *.ppm; do convert "$I" "${I%%.ppm}.jpg" > /dev/null; done
>
> pas de ppm dans le dossier IMAGES


    Remplace ppm par pbm dans la ligne ci-dessus.
Et voilà !



>>     Pour installer les programmes :
>> aptitude install poppler-utils imagemagick

>>
>
> C'était déjà installé
>
> J'ai juste eu à utiliser pdfimages que je ne connaissais pas
>
> J'ai essayé d'utiliser tesseract-ocr et ocrfeeder
> Pas réussi à utiliser
>
> J'ai testé ocrmypdf qui lui-même utilise tesseract
> ocrmypdf source-image.pdf sortie-texte.pdf
>
> Cela a donné un résultat tout à fait acceptable.
>
> Merci à tous
>
> Anne


                        Olivier


-- 
~~~~~~~  _____/\_____  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Phoenix /   _ \/ _   \    Olivier Allard-Jacquin
       /   / \  / \   \   Web:  http://olivieraj.free.fr/
      /___/  /  \  \___\  Mail: olivieraj@???
~~~~ /////  ///\\\  \\\\\ ~~~~~~~~~~~~~~~~~~~~~~~ Linux Powered !!