|
From: | Pierre Dittgen |
Subject: | [sdx-developers] Conservation des nombres dans la recherche plein-texte |
Date: | Tue, 30 Mar 2004 11:24:17 +0200 |
User-agent: | Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20031007 |
Bonjour,Je travaille actuellement sur une application SDX où la recherche des chiffres et des nombres dans le plein-texte est une fonctionnalité importante. Hors, chiffres et nombres ne sont par défaut pas indexés par SDX (en mode word), me trompe-je ? J'ai regardé un peu plus le code Java des analyseurs. Dans le DefaultAnalyser, on utilise comme analyseur lexical la classe LowerCaseTokenizer de Lucene. Hors celle-ci hérite de la classe LetterTokenizer qui ne prend en compte que les lexemes de type mots (composés de lettre), c'est cela ? Si je voulais prendre en compte les chiffres dans l'analyse, il faudrait que je remplace l'utilisation de la classe LowerCaseTokenizer par la classe StandardTokenizer dans DefaultAnalyser. Est-ce aussi simple que ça ?
Merci pour vos lumières Pierre -- Pierre Dittgen, address@hidden PASS Technologie http://www.pass-tech.fr
[Prev in Thread] | Current Thread | [Next in Thread] |