pdf2txt doc.pdf | perl -ane 'for (@F) { print lc $_, "\n"}' | sort | uniq -c
Le 29 novembre 2015 22:01, Patrick Dupre <pdupre@???> a écrit :
> Fantastique !!!
> Merci.
>
> Maintenant, j'ai juste besoin que le "upper" et "lower cases" ne soient pas
> distigues !
>
>
> ===========================================================================
> Patrick DUPRÉ | | email: pdupre@???
> Laboratoire de Physico-Chimie de l'Atmosphère | |
> Université du Littoral-Côte d'Opale | |
> Tel. (33)-(0)3 28 23 76 12 | | Fax: 03 28 65 82 44
> 189A, avenue Maurice Schumann | | 59140 Dunkerque, France
> ===========================================================================
>
>
>> Sent: Sunday, November 29, 2015 at 9:18 PM
>> From: "Patrice Karatchentzeff" <patrice.karatchentzeff@???>
>> To: "Patrick Dupre" <pdupre@???>
>> Cc: guilde <guilde@???>
>> Subject: Re: analyse de documents
>>
>> J'anticipe ta prochaine question :)
>>
>> pdf2txt mondoc.pdf | perl -ane 'for (@F) { print $_, "\n"}' | sort | uniq -c
>>
>> Le 29 novembre 2015 21:01, Patrice Karatchentzeff
>> <patrice.karatchentzeff@???> a écrit :
>> > pdf2txt mondoc.pdf | sort ?
>> >
>> > Le 29 novembre 2015 20:36, Patrick Dupre <pdupre@???> a écrit :
>> >> Non, quelque chose de simple.
>> >> J'ai un documents d'une 50taine de pages.
>> >> Il y a des mots qui apparaissent tres souvent. Je veux juste les
>> >> identifier et voir combien de fois ils sont utilises.
>> >>
>> >> ===========================================================================
>> >> Patrick DUPRÉ | | email: pdupre@???
>> >> Laboratoire de Physico-Chimie de l'Atmosphère | |
>> >> Université du Littoral-Côte d'Opale | |
>> >> Tel. (33)-(0)3 28 23 76 12 | | Fax: 03 28 65 82 44
>> >> 189A, avenue Maurice Schumann | | 59140 Dunkerque, France
>> >> ===========================================================================
>> >>
>> >>
>> >>> Sent: Sunday, November 29, 2015 at 8:20 PM
>> >>> From: "Patrice Karatchentzeff" <patrice.karatchentzeff@???>
>> >>> To: "Patrick Dupre" <pdupre@???>
>> >>> Cc: guilde <guilde@???>
>> >>> Subject: Re: analyse de documents
>> >>>
>> >>> Salut
>> >>>
>> >>> Que cherches-tu exactement ?
>> >>>
>> >>> Si c'est un truc de compétition, il y a solr mais c'est vraiment pour
>> >>> un usage pointu (= big data).
>> >>>
>> >>> Le 29 novembre 2015 19:58, Patrick Dupre <pdupre@???> a écrit :
>> >>> > Bonsoir,
>> >>> >
>> >>> > Estc-e qu'il y aurait un outil qui permettrait d'analyser un document pdf ?
>> >>> > Genre, le nombre fois qu'apparait un mot ou une occurence ?
>> >>> >
>> >>> > Merci.
>> >>> >
>> >>> > ===========================================================================
>> >>> > Patrick DUPRÉ | | email: pdupre@???
>> >>> > Laboratoire de Physico-Chimie de l'Atmosphère | |
>> >>> > Université du Littoral-Côte d'Opale | |
>> >>> > Tel. (33)-(0)3 28 23 76 12 | | Fax: 03 28 65 82 44
>> >>> > 189A, avenue Maurice Schumann | | 59140 Dunkerque, France
>> >>> > ===========================================================================
>> >>> >
>> >>>
>> >>>
>> >>>
>> >>> --
>> >>> |\ _,,,---,,_ Patrice KARATCHENTZEFF
>> >>> ZZZzz /,`.-'`' -. ;-;;,_ mailto:patrice.karatchentzeff@gmail.com
>> >>> |,4- ) )-,_. ,\ ( `'-' http://p.karatchentzeff.free.fr
>> >>> '---''(_/--' `-'\_)
>> >>>
>> >>>
>> >
>> >
>> >
>> > --
>> > |\ _,,,---,,_ Patrice KARATCHENTZEFF
>> > ZZZzz /,`.-'`' -. ;-;;,_ mailto:patrice.karatchentzeff@gmail.com
>> > |,4- ) )-,_. ,\ ( `'-' http://p.karatchentzeff.free.fr
>> > '---''(_/--' `-'\_)
>>
>>
>>
>> --
>> |\ _,,,---,,_ Patrice KARATCHENTZEFF
>> ZZZzz /,`.-'`' -. ;-;;,_ mailto:patrice.karatchentzeff@gmail.com
>> |,4- ) )-,_. ,\ ( `'-' http://p.karatchentzeff.free.fr
>> '---''(_/--' `-'\_)
>>
--
|\ _,,,---,,_ Patrice KARATCHENTZEFF
ZZZzz /,`.-'`' -. ;-;;,_ mailto:patrice.karatchentzeff@gmail.com
|,4- ) )-,_. ,\ ( `'-' http://p.karatchentzeff.free.fr
'---''(_/--' `-'\_)