sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] RE : Derniers commits


From: Pierrick Brihaye
Subject: Re: [sdx-developers] RE : Derniers commits
Date: Fri, 06 Sep 2002 11:31:55 +0200
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.1) Gecko/20020823 Netscape/7.0

Re,

Bon, je viens de me plonger dans ce @address@hidden de StandardTokenizer.jj...

Martin Sevigny a écrit:

>>Ensuite, c'est beaucoup plus pour mon apprentissage Lucene.
>>Comment se
>>fait-il que ces termes ne soient pas reconnus comme acronymes ?

Facile....

| <ACRONYM: <ALPHA> "." (<ALPHA> ".")+ >

Il faut donc un point à la fin pour que les termes soient considérés comme acronymes. On pourrait avoir un truc du genre :

<ALPHA> "." <ALPHA> "." (<ALPHA> "." | <ALPHA>)* qui matcherait aussi bien "S.N.C.F." que "culture.gouv.fr", mais ce modèle est peut-être un peu trop restrictif. A mon avis, il faudrait d'ailleurs peut-être utiliser LETTER pour les acronymes et définir un type DOMAIN (mais bon, il faudrait rentrer tous les suffixes et, à partir d'eux, matcher en arrière).

>>address@hidden

Facile aussi :

| <EMAIL: <ALPHANUM> ("."|"-"|"_" <ALPHANUM>)+ "@" <ALPHANUM> ("."|"-" <ALPHANUM>)+ >

"martin.sevigny" serait passé... à mon avis, la restriction sur "."|"-"|"_" est trop sévère... "<ALPHANUM> "@" <ALPHANUM> ("."|"-" <ALPHANUM>)+" devrait pouvoir suffire. Plus facile encore si on arrive à définir un type DOMAIN : "<ALPHANUM> "@" <DOMAIN>".

Pour "s1/bora" :

| <NUM: (<ALPHANUM> <P> <HAS_DIGIT>
       | <HAS_DIGIT> <P> <ALPHANUM>
       | <ALPHANUM> (<P> <HAS_DIGIT> <P> <ALPHANUM>)+
       | <HAS_DIGIT> (<P> <ALPHANUM> <P> <HAS_DIGIT>)+
       | <ALPHANUM> <P> <HAS_DIGIT> (<P> <ALPHANUM> <P> <HAS_DIGIT>)+
       | <HAS_DIGIT> <P> <ALPHANUM> (<P> <HAS_DIGIT> <P> <ALPHANUM>)+

Avec :

| <#P: ("_"|"-"|"/"|"."|",") >

et

| <#HAS_DIGIT:                                         // at least one digit
    (<LETTER>|<DIGIT>)*
    <DIGIT>
    (<LETTER>|<DIGIT>)*
  >

Or "s1/bora"

matche bien "<HAS_DIGIT> <P> <ALPHANUM>". Pour le slash de fin, je donne ma langue au chat... à moins qu'il matche aussi ALPHANUM ?

Bref, j'ai l'impression qu'il y a du boulot avec ce tokenizer. en particulier, leur modèle pour NUM me semble un peu foireux et heurte ma conscience sientifique :-)

Pendant que je suis là-dessus : le tokenizer se propose d'intercepter des aspects sémantiques. De quelle manière sertai-il possible de valoriser cela dans une appli basée sur Lucene ?

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden





reply via email to

[Prev in Thread] Current Thread [Next in Thread]