Le 06/12/2017 à 17:41, samuel veyre a écrit :
> Bonsoir Marc,
>
> L'extraction du contenu de pdf pour le transformer en contenu web est
> le coeur de métier de l'entreprise où je travaille.
> Malheureusement, je ne suis qu'un petit intégrateur donc je n'ai pas
> l'experience technique sur la question.
>
> Mais un de mes collègue me dit utiliser cette library Java :
> https://en.wikipedia.org/wiki/Apache_PDFBox
> https://pdfbox.apache.org/
> Bonne soirée
L'extraction des données pour analyse peut être faite par un pdf2txt,
c'est pas le plus compliqué à trouver
La partie qui m'intéresse, c'est plutôt le filtre bayesien capable de
détecter des mots-clefs, de faire une statistique pour pouvoir trier les
PDF en fonction de ces mots-clefs. Comme fait Thunderbird pour trier les
spams indésirables par exemple.
Mais visiblement l'outil tout fait n'existe pas, ou alors il est très
confidentiel, propriétaire, etc..
Côté recherche, c'est pas facile non plus parce que dès qu'il y a 'PDF'
dans une recherche, il y a pleins de PDF qui apparaissent dans la
réponse qui n'ont rien à voir avec la question
Merci quand même
--
Marc BERLIOUX
"On construit des maisons de fous pour faire croire à ceux
qui n'y sont pas enfermés qu'ils ont encore la raison" Montaigne