[sdx-developers] Re: RE : [sdx-users] Analyseur arabe

sdx-developers

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-developers] Re: RE : [sdx-users] Analyseur arabe

From:	Pierrick Brihaye
Subject:	[sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Date:	Tue, 18 Nov 2003 09:47:51 +0100
User-agent:	Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Salut,

Je n'ai pas encore mis au point un protocole de test sur cette affaire,mais je pense avoir avancé sur la compréhension du problème.


On a :

startOffset = token.startOffset();
endOffset = token.endOffset();

Le problème, c'est qu'on n'est pas sûr que l'analyseur renvoie les"bons" offsets. Je m'explique : si je dois analyser :


some plural words
1    6      13

dans un "MakeSingularAnalyzer", ça me donne :

a singular word

Quelle attitude adopter sur les offests de tokens ?

a singular word
1 3        12

ou bien, une copie du flux d'origine ?
a singular word
1 6(!)     13(!)

Notre highlighter semble préférer la copie :-)

Ca paraît être la solution facile, mais comment faire le jour où on aurades analyseurs de phrase du style :


Lucene is nice
1      8  11

résultant de l'analyse de :

Is Lucene nice
1  4      11

???

Je pense donc que le highlighter ne devrait pas travailler avec lesoffsets de *tokens* mais avec les offset du texte, la "String text" quiest passée dans l'argument de la méthode, i.e.


endOffset = 0;
while ((token = stream.next()) != null) {
  startOffset = endOffset++;
  endOffset = endOffset + token.termText().length;
  ...
}

... ou similaire.

Est-ce que mon analyse est bonne ?

A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden

[Prev in Thread]

Current Thread

[Next in Thread]

[sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Pierrick Brihaye <=
- RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Rasik Pandey, 2003/11/18
  - Re: RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Pierrick Brihaye, 2003/11/18
    - RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Rasik Pandey, 2003/11/18
    - Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Pierrick Brihaye, 2003/11/18
    - Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Pierrick Brihaye, 2003/11/19

Prev by Date: Re: [sdx-developers] Conformité OAI-PMH
Next by Date: RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Previous by thread: [sdx-developers] configureEarliestDatestamp
Next by thread: RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Index(es):
- Date
- Thread