[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] RE : Derniers commits
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-developers] RE : Derniers commits |
Date: |
Fri, 06 Sep 2002 11:31:55 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.1) Gecko/20020823 Netscape/7.0 |
Re,
Bon, je viens de me plonger dans ce @address@hidden de StandardTokenizer.jj...
Martin Sevigny a écrit:
>>Ensuite, c'est beaucoup plus pour mon apprentissage Lucene.
>>Comment se
>>fait-il que ces termes ne soient pas reconnus comme acronymes ?
Facile....
| <ACRONYM: <ALPHA> "." (<ALPHA> ".")+ >
Il faut donc un point à la fin pour que les termes soient considérés
comme acronymes. On pourrait avoir un truc du genre :
<ALPHA> "." <ALPHA> "." (<ALPHA> "." | <ALPHA>)* qui matcherait aussi
bien "S.N.C.F." que "culture.gouv.fr", mais ce modèle est peut-être un
peu trop restrictif. A mon avis, il faudrait d'ailleurs peut-être
utiliser LETTER pour les acronymes et définir un type DOMAIN (mais bon,
il faudrait rentrer tous les suffixes et, à partir d'eux, matcher en
arrière).
>>address@hidden
Facile aussi :
| <EMAIL: <ALPHANUM> ("."|"-"|"_" <ALPHANUM>)+ "@" <ALPHANUM> ("."|"-"
<ALPHANUM>)+ >
"martin.sevigny" serait passé... à mon avis, la restriction sur
"."|"-"|"_" est trop sévère... "<ALPHANUM> "@" <ALPHANUM> ("."|"-"
<ALPHANUM>)+" devrait pouvoir suffire. Plus facile encore si on arrive à
définir un type DOMAIN : "<ALPHANUM> "@" <DOMAIN>".
Pour "s1/bora" :
| <NUM: (<ALPHANUM> <P> <HAS_DIGIT>
| <HAS_DIGIT> <P> <ALPHANUM>
| <ALPHANUM> (<P> <HAS_DIGIT> <P> <ALPHANUM>)+
| <HAS_DIGIT> (<P> <ALPHANUM> <P> <HAS_DIGIT>)+
| <ALPHANUM> <P> <HAS_DIGIT> (<P> <ALPHANUM> <P> <HAS_DIGIT>)+
| <HAS_DIGIT> <P> <ALPHANUM> (<P> <HAS_DIGIT> <P> <ALPHANUM>)+
Avec :
| <#P: ("_"|"-"|"/"|"."|",") >
et
| <#HAS_DIGIT: // at least one digit
(<LETTER>|<DIGIT>)*
<DIGIT>
(<LETTER>|<DIGIT>)*
>
Or "s1/bora"
matche bien "<HAS_DIGIT> <P> <ALPHANUM>". Pour le slash de fin, je donne
ma langue au chat... à moins qu'il matche aussi ALPHANUM ?
Bref, j'ai l'impression qu'il y a du boulot avec ce tokenizer. en
particulier, leur modèle pour NUM me semble un peu foireux et heurte ma
conscience sientifique :-)
Pendant que je suis là-dessus : le tokenizer se propose d'intercepter
des aspects sémantiques. De quelle manière sertai-il possible de
valoriser cela dans une appli basée sur Lucene ?
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden