sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Conservation des nombres dans la recherche plein-te


From: Pierre Dittgen
Subject: Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte
Date: Tue, 30 Mar 2004 12:08:35 +0200
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20031007


Euh... plus compliqué : en "word", tout dépend de l'analyseur. Et le choix de l'analyseur *peut* dépendre de la langue.

Tout à fait. Le raccourci était un peu rapide :-)


Oui. Tu as peut-être plutôt intérêt à écrire ton propre CharTokenizer
http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/analysis/CharTokenizer.html ... ou à utiliser un WhiteCharAnalyzer qui, lui, laisse peut-être passer trop de choses :-)

En gros, il faudrait que je fasse un mixte entre LetterTokenizer (accepte uniquement les lettres) qui est trop restrictif et WhitespaceTokenizer qui est trop laxiste (accepte tous les caractères qui ne sont pas des espaces).
Je pourrai écrire un LetterOrDigitTokenizer avec une méthode :
protected boolean isTokenChar(char c)
{
        return Character.isLetterOrDigit(c);
}


Voir en tout cas :
http://cvs.apache.org/viewcvs.cgi/jakarta-lucene/src/java/org/apache/lucene/analysis/

Ok, j'avais en fait fouillé dans le jar de Lucene avec Jad pour décompiler les .class


Euh... ton standard tokenizer est normalement généré par un fichier .jj. Si tu t'en sens capable... n'hésite pas :-)

Je me laisse ça en exercice pour une autre fois :-)

Merci en tout cas pour la réponse rapide et détaillée
Pierre
--
Pierre Dittgen, address@hidden
PASS Technologie http://www.pass-tech.fr






reply via email to

[Prev in Thread] Current Thread [Next in Thread]