sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: [sdx-users] analyzerConf?


From: Emmanuel Bégué
Subject: RE: [sdx-users] analyzerConf?
Date: Mon, 20 Sep 2004 09:53:48 +0200

Bonjour,

> -----Message d'origine-----
>
> IMHO, on pourrait s'en tirer en faisant le postulat suivant :
> 1 champ = 1 analyseur. Aux développeurs d'appli de veiller à
> ce que ce postulat soit respecté.

En l'état actuel, il n'y a pas beaucoup de "veille" à faire,
puisqu'on ne peut pas ne pas le respecter...?

Mais aujourd'hui on a bien un analyseur par défaut par base,
et je pense que l'analyseur par défaut pour l'application est
celui de la base par défaut: ne peut-on pas continuer ainsi mais
en permettant, en plus, un analyseur par document?

(Et à la limite, on pourrait stocker dans un champ sdx spécifique
l'analyseur utilisé pour chaque document, ce qui permettrait, si
on le souhaite, de restreindre la recherche aux documents analysés
avec tel analyseur (par défaut, tous, ou par défaut celui de la
requête en cours...?)).

Cdt,
EB


(En fait dans le cas précis qui a motivé ma question, on a un corpus
en français avec moins de 1% des documents dans d'autres langues:
anglais, allemand, espagnol; créer des bases différentes pour
ces quelques cas particuliers semble très compliqué...)


Par ailleurs est-il vraiment logique d'utiliser le même analyseur
pour la requête que celui qui a été utilisé pour l'indexation? En
restant dans une même langue, on pourrait considérer le fait d'indexer
sans mots vides et de décider, au moment de la recherche, de prendre
les mots vides en compte ou non, selon ce que l'on cherche...?

J'ai le cas avec une application qui contient beaucoup de noms de lieux;
si on cherche un nom de lieu, la préposition "sur" est très importante:
mais si on cherche un autre document du même corpus, c'est bien un mot
vide qui peut amener du bruit... (À la rigueur; en fait je crois que
je n'aime pas tellement le concept des "mots vides", mais c'est un
autre débat ;-)





reply via email to

[Prev in Thread] Current Thread [Next in Thread]