|
From: | Jos Snellings |
Subject: | [sdx-developers] lexical analyzers |
Date: | Wed, 5 Oct 2005 10:27:00 +0200 |
Bonjour,
En regardant et en testant certains résultats de
requêtes,
et toujours en train d'améliorer le comportement de
"HereinThesaurus",
me voilà avec peut-être une question trop
spécifique, ou un peu stupide...
Pour indexer les documents, SDX sélectionne un
"Analyzer", à la base d'informations qu'il reçoit du fichier de
configuration
("locale" du champ à indexer).
Néanmoins, pour une base de documents en plusieures
langues il nous en faut plusieurs.
Il serait beau quand SDX pourrait sélectionner un
analyser à la base de la langue du document, si cette information lui serait
fourni
d'une manière ou autre, par exemple si l'élément
racine d'un document portait un attribut "xml:lang".
Est-ce que ce genre de comportement est
planifié?
Quels Analyseurs sont en effet chargé dans SDX à
l'heure actuel? C'est fr, de, ru, br, ...?
Ceux dans sdx/search/lucene/analysis?
Quoi avec le Finnois et le Hongrois qui sont
notamment des langues qui sont morphologiquement parlé très riches?
Merci,
Jos Snellings
--
The road to hell is paved with good intentions; and littered with sloppy analysis. |
[Prev in Thread] | Current Thread | [Next in Thread] |