Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe

sdx-developers

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe

From:	Pierrick Brihaye
Subject:	Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Date:	Tue, 18 Nov 2003 13:28:31 +0100
User-agent:	Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Re,

Rasik Pandey a écrit:

if (
Utilities.checkString(termText) &&!termText.equals(lastHilitedTermFromText) &&this.terms != null &&
(this.terms.contains(termText) ||
this.terms.contains(originalTextAtTokenPosition) )
----------------------------------^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
^^^^^^^^^^^

Si on l'ajoute qu'en penses-tu?


Euh... ça n'ira pas :

"word1" donne "analysis_of_word1"
"word2" donne "first_analysis_of_word2"
        *et* "second_analysis_of_word2"

En arabe, le cas où "word" est analysé comme "word" est assez rare (motsétrangers par exemple). Donc... l'analyse est souvent différente duterme d'origine. Ca sera pareil pour "UpperCase" analysé en "lowercase".

Ce qu'il faudrait c'est faire une espèce de pile d'évènements SAX (ou detrucs permettant d'en générer) :


lastStartOffset = 0;
lastendOffset = 0;
while ((token = stream.next()) != null) {
  startOffset = token.startOffset();
  endOffset = token.endOffset();

  //Is this a new token ?
  if (lastStartOffset != startOffset) || (lastEndOffset != endOffset)
 {

    //Process previous token's events
    PopAllEvents();

    //process the text between previous and current token

char[] chars = text.substring(lastEndOffset,startOffset).toCharArray();

    if (chars != null && chars.length > 0)
      this.xmlConsumer.characters(chars, 0, chars.length);

    //Mark the current token as beiing processed
    lastStartOffset = startOffset;
    lastEndOffset = endOffset;
  }
  //Process the current token
  PushOneEvent();
}
//Process last token's events
PopAllEvents();

Ensuite, sur la stack on met soit : le terme original (une fois au maximum)
soit : des hilites

Une des questions qui se posent est comment faire plusieurs hilites ?

<sdx:hilite no="1" term="first_analysis_of_word2">word2</sdx:hilite>
<sdx:hilite no="2" term="second_analysis_of_word2">word2</sdx:hilite>

ou bien :

<sdx:hilite no="1" terms ="first_analysis_of_word2second_analysis_of_word2">word2</sdx:hilite>


ou encore :

<sdx:hilite no="1">
  <sdx:term term="first_analysis_of_word2"/>
  <sdx:term term="second_analysis_of_word2"/>
  <sdx:originalText>word2</sdx:originalText>
</sdx:hilite>

A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden

[Prev in Thread]

Current Thread

[Next in Thread]

[sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Pierrick Brihaye, 2003/11/18
- RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Rasik Pandey, 2003/11/18
  - Re: RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Pierrick Brihaye, 2003/11/18
    - RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Rasik Pandey, 2003/11/18
    - Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Pierrick Brihaye <=
    - Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe, Pierrick Brihaye, 2003/11/19

Prev by Date: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Next by Date: Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Previous by thread: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Next by thread: Re: RE : RE : [sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Index(es):
- Date
- Thread