[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[sdx-developers] Re: RE : [sdx-users] Analyseur arabe
From: |
Pierrick Brihaye |
Subject: |
[sdx-developers] Re: RE : [sdx-users] Analyseur arabe |
Date: |
Tue, 18 Nov 2003 09:47:51 +0100 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02 |
Salut,
Je n'ai pas encore mis au point un protocole de test sur cette affaire,
mais je pense avoir avancé sur la compréhension du problème.
On a :
startOffset = token.startOffset();
endOffset = token.endOffset();
Le problème, c'est qu'on n'est pas sûr que l'analyseur renvoie les
"bons" offsets. Je m'explique : si je dois analyser :
some plural words
1 6 13
dans un "MakeSingularAnalyzer", ça me donne :
a singular word
Quelle attitude adopter sur les offests de tokens ?
a singular word
1 3 12
ou bien, une copie du flux d'origine ?
a singular word
1 6(!) 13(!)
Notre highlighter semble préférer la copie :-)
Ca paraît être la solution facile, mais comment faire le jour où on aura
des analyseurs de phrase du style :
Lucene is nice
1 8 11
résultant de l'analyse de :
Is Lucene nice
1 4 11
???
Je pense donc que le highlighter ne devrait pas travailler avec les
offsets de *tokens* mais avec les offset du texte, la "String text" qui
est passée dans l'argument de la méthode, i.e.
endOffset = 0;
while ((token = stream.next()) != null) {
startOffset = endOffset++;
endOffset = endOffset + token.termText().length;
...
}
... ou similaire.
Est-ce que mon analyse est bonne ?
A+
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
- [sdx-developers] Re: RE : [sdx-users] Analyseur arabe,
Pierrick Brihaye <=