Le 06/12/2017 à 18:00, Marc a écrit :
> Le 06/12/2017 à 17:41, samuel veyre a écrit :
>> Bonsoir Marc,
>>
>> L'extraction du contenu de pdf pour le transformer en contenu web est
>> le coeur de métier de l'entreprise où je travaille.
>> Malheureusement, je ne suis qu'un petit intégrateur donc je n'ai pas
>> l'experience technique sur la question.
>>
>> Mais un de mes collègue me dit utiliser cette library Java :
>> https://en.wikipedia.org/wiki/Apache_PDFBox
>> https://pdfbox.apache.org/
>> Bonne soirée
> L'extraction des données pour analyse peut être faite par un pdf2txt,
> c'est pas le plus compliqué à trouver
>
> La partie qui m'intéresse, c'est plutôt le filtre bayesien capable de
> détecter des mots-clefs, de faire une statistique pour pouvoir trier les
> PDF en fonction de ces mots-clefs. Comme fait Thunderbird pour trier les
> spams indésirables par exemple.
>
> Mais visiblement l'outil tout fait n'existe pas, ou alors il est très
> confidentiel, propriétaire, etc..
>
> Côté recherche, c'est pas facile non plus parce que dès qu'il y a 'PDF'
> dans une recherche, il y a pleins de PDF qui apparaissent dans la
> réponse qui n'ont rien à voir avec la question
>
> Merci quand même
>
Salut,
Je dit peut être une bêtise, mais ce type de fonctionnalités existe
probablement quelque-part dans la stack d'elasticsearch ?