[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] Conservation des nombres dans la recherche plein-te
From: |
Pierre Dittgen |
Subject: |
Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte |
Date: |
Tue, 30 Mar 2004 12:08:35 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20031007 |
Euh... plus compliqué : en "word", tout dépend de l'analyseur. Et le
choix de l'analyseur *peut* dépendre de la langue.
Tout à fait. Le raccourci était un peu rapide :-)
Oui. Tu as peut-être plutôt intérêt à écrire ton propre CharTokenizer
http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/analysis/CharTokenizer.html
... ou à utiliser un WhiteCharAnalyzer qui, lui, laisse peut-être passer
trop de choses :-)
En gros, il faudrait que je fasse un mixte entre LetterTokenizer
(accepte uniquement les lettres) qui est trop restrictif et
WhitespaceTokenizer qui est trop laxiste (accepte tous les caractères
qui ne sont pas des espaces).
Je pourrai écrire un LetterOrDigitTokenizer avec une méthode :
protected boolean isTokenChar(char c)
{
return Character.isLetterOrDigit(c);
}
Voir en tout cas :
http://cvs.apache.org/viewcvs.cgi/jakarta-lucene/src/java/org/apache/lucene/analysis/
Ok, j'avais en fait fouillé dans le jar de Lucene avec Jad pour
décompiler les .class
Euh... ton standard tokenizer est normalement généré par un fichier .jj.
Si tu t'en sens capable... n'hésite pas :-)
Je me laisse ça en exercice pour une autre fois :-)
Merci en tout cas pour la réponse rapide et détaillée
Pierre
--
Pierre Dittgen, address@hidden
PASS Technologie http://www.pass-tech.fr