Bonsoir,
Le 30/08/2017 à 16:57, ALD a écrit :
>
>
> Le mercredi 30 août 2017, 16:41:06 anne.guilde@??? a écrit :
>
>>
>> Pour Tesseract pas bien compris comment s'en servir avec un pdf
>>
>
> Forcément puisque ces logiciels vont faire de l'OCR sur une image (c'est bien
> ce que tu avais dit: le texte est sous forme d'image).
>
> Il faut donc leur donner une image à digérer, pas le pdf.
>
> Si je me souviens bien, les images dans les pdf sont au format jpeg.
>
> Je ne sais pas comment sont fait tes pdf, mais tu peux les ouvrir avec
> libreoffice draw et n'extraire que les images. il y a peut etre des
> utilitaires en ligne de commande aussi, mais je ne les connais pas.
Pour extraire les images d'un PDF, j'utilise "pdfimages" qui me les
sort en "*.ppm", puis "convert" pour les convertit en pdf.
- Soit "PDF_FILE" le fichier PDF à traiter
- Et "IMAGES", le répertoire temporaire qui va contenir les images
- Alors:
mkdir IMAGES
pdfimages -j ../PDF_FILE IMAGES/image
A partir de là, plein de fichiers IMAGES/image* sont créés
cd IMAGES
for I in *.ppm; do convert "$I" "${I%%.ppm}.jpg" > /dev/null; done
Pour installer les programmes :
aptitude install poppler-utils imagemagick
Cordialement,
Olivier
--
~~~~~~~ _____/\_____ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Phoenix / _ \/ _ \ Olivier Allard-Jacquin
/ / \ / \ \ Web: http://olivieraj.free.fr/
/___/ / \ \___\ Mail: olivieraj@???
~~~~ ///// ///\\\ \\\\\ ~~~~~~~~~~~~~~~~~~~~~~~ Linux Powered !!