[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] QueryParser... encore
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-developers] QueryParser... encore |
Date: |
Thu, 18 Sep 2003 21:32:17 +0200 |
Bonsoir,
>en parlant des fichier javaCC
>dans le fichier standardTokenizer.jj, la définition du type ACRONYM est pas
>tres souple .
>Example I.B.M est pour lui un HOST et non un ACRONYM car il manque le
point
>à la fois (en fait il faudrait faire I.B.M. )
>donc ce I.B.M n'est pas géré dans l'analyzer standard (et donc l'analyzer
>fr de SDX) (en sortie y'aura donc i.b.m et non ibm)
Oui : je crois que ce problème a été soulevé il y a bien longtemps.
>voilà ce que j'ai fait: <ACRONYM: <ALPHA> "." (<ALPHA> ".")+ (<ALPHA> |
>(<ALPHA> ".")) >
Mmmh... vos acronymes ont donc au moins 3 lettres ? Remplacer le "+" par un
"*" ?
>vous vous attaquer à la lemmatisation .. Génial !
Ne vous emballez pas : c'est en arabe :-) Le boulot est terminé : je suis en
train de tester l'intégration dans SDX et dans ce address@hidden de queryParser.
>votre idée c'est :
>le mot --> le lemme --> les 3 formes du lemme -> recherche dans index
>(lematisé) --> resultat
>c'est ca ?
En arabe, c'est à la fois plus simple et plus compliqué :
plus compliqué parce qu'un mot écrit (en gros un truc entouré par des
espaces) peut correspondre à plusieurs mots grammaticaux.
plus simple parce que la structure de la langue est assez rigide.
et très simple parce que je dispose :
de dictionnaires libres
d'un programme Perl (libre) que j'ai porté en Java en lui aportant quelques
petites améliorations.
>Comment comptez vous retrouvez le lemme a partir du mot ?
Le dictionnaire est organisé de cette façon. Il est à noter que je vais bien
au-delà du lemme : je garde les formes canoniques des différentes catégories
grammaticales. J'envisage en effet un jour d'aller au-delà du "mot à mot".
>(juste pour info: dans le lucene standbox , il y'a un french stemmer..)
Je contacte la liste Lucene dès que j'ai écrit le readme. Le reste (tests,
javadocs, licenes) est réglé.
[snip ~80 lignes : pas sympa pour mon espace disque ; j'archive tout]
A bientôt,
p.b.