Re: modification de pdf / comparaison de pdf

Author: Olivier Allard-Jacquin
Date:
To: guilde
Subject: Re: modification de pdf / comparaison de pdf

Bonsoir,

Le 30/08/2017 à 16:57, ALD a écrit :
>
>
> Le mercredi 30 août 2017, 16:41:06 anne.guilde@??? a écrit :
>
>>
>> Pour Tesseract pas bien compris comment s'en servir avec un pdf
>>
>
> Forcément puisque ces logiciels vont faire de l'OCR sur une image (c'est bien
> ce que tu avais dit: le texte est sous forme d'image).
>
> Il faut donc leur donner une image à digérer, pas le pdf.
>
> Si je me souviens bien, les images dans les pdf sont au format jpeg.
>
> Je ne sais pas comment sont fait tes pdf, mais tu peux les ouvrir avec
> libreoffice draw et n'extraire que les images. il y a peut etre des
> utilitaires en ligne de commande aussi, mais je ne les connais pas.

    Pour extraire les images d'un PDF, j'utilise "pdfimages" qui me les
sort en "*.ppm", puis "convert" pour les convertit en pdf.

- Soit "PDF_FILE" le fichier PDF à traiter
- Et "IMAGES", le répertoire temporaire qui va contenir les images
- Alors:

mkdir IMAGES
pdfimages -j ../PDF_FILE IMAGES/image

A partir de là, plein de fichiers IMAGES/image* sont créés

cd IMAGES
for I in *.ppm; do convert "$I" "${I%%.ppm}.jpg" > /dev/null; done

    Pour installer les programmes :
aptitude install poppler-utils imagemagick

    Cordialement,

                    Olivier
-- 
~~~~~~~  _____/\_____  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Phoenix /   _ \/ _   \    Olivier Allard-Jacquin
       /   / \  / \   \   Web:  http://olivieraj.free.fr/
      /___/  /  \  \___\  Mail: olivieraj@???
~~~~ /////  ///\\\  \\\\\ ~~~~~~~~~~~~~~~~~~~~~~~ Linux Powered !!

This message is part of the following thread:
	the complete thread tree sorted by date
	anne.guilde@free.fr at
	anne.guilde@free.fr at