Author: Michel Roche Date: To: ML Guilde Subject: OCR...
Bonjour,
j'essaie de valider une solution d'OCR (reconnaissance optique des
caractères) pour une dame pas très geek.
J'ai testé YAGF qui constitue une bonne interface graphique à tesseract
(un des moteurs d'ocr disponibles ). Il fait le job, pas de soucis,
c'est même presque bluffant.
Cependant, dans le texte produit il n'insère absolument aucun retour à
la ligne.
Si en revanche, je prends la même image d'origine et que je la mouline
avec tesseract directement, genre :
$tesseract image.jpg texte.txt
Je récupère parfaitement les retours à la ligne, les sauts de ligne, etc.
J'aimerais bien arriver à triturer Yagf pour qu'il fasse de même, parce
que tapoter dans le terminal ne sera pas du tout vu comme une solution
par la dame en question :-)
Y'en a parmi vous qui ont déjà fait ?
Michel
PS: si vous tentez d'installer YAGF, allez dans ses préférences et
décochez "recadrer automatiquement les images", sinon il ne fait rien
qu'à planter.