Bonjour,
Je réponds tardivement, mais si ça peut aider. Le jour ou j'ai découvert
l'OCR, j'ai utilisé deux outils :
+ [pdfsandwich](
http://www.tobias-elze.de/pdfsandwich/index.html) CLI
mais simple à utiliser. Lit un pdf, fait l'OCR et écrit la sortie dans
le pdf, fonctionne super bien, basé sur tesseract. Utilisé pour mettre
de l'OCR sur mes vieux scans
+ [gscan2pdf](
https://sourceforge.net/projects/gscan2pdf/) outil
graphique pour scanner des fichiers, permet d'ajouter des posts
traitements (dont OCR), trés efficace je ne scan plus qu'avec ça.
David
On 9/23/19 1:43 PM, Michel Roche wrote:
> Bonjour,
> j'essaie de valider une solution d'OCR (reconnaissance optique des
> caractères) pour une dame pas très geek.
>
> J'ai testé YAGF qui constitue une bonne interface graphique à tesseract
> (un des moteurs d'ocr disponibles ). Il fait le job, pas de soucis,
> c'est même presque bluffant.
>
> Cependant, dans le texte produit il n'insère absolument aucun retour à
> la ligne.
>
> Si en revanche, je prends la même image d'origine et que je la mouline
> avec tesseract directement, genre :
> $tesseract image.jpg texte.txt
> Je récupère parfaitement les retours à la ligne, les sauts de ligne, etc.
>
> J'aimerais bien arriver à triturer Yagf pour qu'il fasse de même, parce
> que tapoter dans le terminal ne sera pas du tout vu comme une solution
> par la dame en question :-)
>
> Y'en a parmi vous qui ont déjà fait ?
>
> Michel
>
> PS: si vous tentez d'installer YAGF, allez dans ses préférences et
> décochez "recadrer automatiquement les images", sinon il ne fait rien
> qu'à planter.
>