Re: acrobate reader

Pàgina inicial

Reply to this message
Autor: Haricophile
Data:  
A: guilde
Assumptes nous: définition d'éditer
Assumpte: Re: acrobate reader
Le Fri, 4 Oct 2019 18:12:36 +0200 (CEST),
Michel Karatchentzeff <michel.karatchentzeff@???> a écrit :

> Sous debian, quels sont les éditeurs qui peuvent remplacer acrobate
> reader ?


Acrobat Reader n'est pas un éditeur pour autant que je sache, mais un lecteur.

D'ailleurs un PDF n'est pas un format traitement de texte mais un format de
production, au même titre qu'une impression papier. Il y a moyen de le
modifier, mais ça atteint rapidement ses limites sur des documents complexes
(ie mal foutu).

Le «meilleur» lecteur (ie le plus complet et qui restitue le plus fidèlement les
documents) est a mon avis Okular (je sais ça installe plein de choses, mais
le truc d'Adobe n'est pas léger non plus).
J'oublie tous les très problématiques lecteurs dans «le cloud» (ie qui envoie
mes documents sur des ordinateurs qui ne m'appartiennent pas) dont fait
justement partie «Adobe Acrobat Reader DC».

Concernant un document scannés on rencontre plusieurs problèmes :
- Il peut s'agir d'une image, donc vide de texte. Il faut le passer a l'OCR.
- La reconnaissance de caractère est pourrie, il faut tenter de la refaire.
- La reconnaissance de texte a été saucissonnée en un gros bordel de multitude
de petits bouts placé dans le désordre. Idem, on gagne souvent du temps a
refaire l'OCR.
- On rencontre aussi des «générateurs de PDF» buggés de manière
particulièrement efficaces et qui génèrent des documents non conforme, au
point que même le lecteur d'Adobe peine a les décrypter.

Bref, le premier problème des documents tordus sous Linux c'est qu'il s'agit de
documents tordus tout court. Dans des cas extrêmes, il faut peut-être mieux
imprimer le document s'il veut bien s'imprimer correctement, et le re-scanner,
ou extraire l'image (pdfimage) et retravailler l'image (imagemagick...), ce qui
m'arrive non pas pour l'OCR mais pour améliorer des scan de partitions.

Pour passer en série des documents à l'OCR (Tesseract) en ligne de commande,
voir par exemple pdfsandwitch, en sachant qu'aucun OCR, commercial ou pas,
n'est parfait si la qualité du document scanné n'est pas suffisante ou la page
trop «tordue», par exemple mon OCR commercial rouspète un peu quand je lui
passe des partitions de musique, il me signale que les portées ne sont pas
scannées avec une qualité suffisante pour reconnaître les caractères (;^_^)
Dommage d'ailleurs, le seul «OCR» libre pour musique est Audiveris et il est
très limité.