sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-developers] SDX et les TermVectors de Lucene


From: Martin Sevigny
Subject: [sdx-developers] SDX et les TermVectors de Lucene
Date: Mon, 12 Jul 2004 05:01:26 +0200
User-agent: Mozilla Thunderbird 0.6 (Windows/20040502)

Salut,

Lucene permet de stocker, pour un champ, les "TermVector". Voir
http://www.mail-archive.com/address@hidden/msg06590.html
par exemple.

Pour l'instant, dans Lucene, il s'agit surtout d'un ajout à
l'indexation, qui n'est pas exploité directement. Mais ce potentiel
permet, par exemple, de construire des requêtes de similarité,
d'implémenter des algorithmes de tri (par pertinence) qui dépendent des
informations TermVector, etc.

C'est pourquoi nous proposons de permettre au concepteur d'une
application SDX d'exploiter les TermVector sans qu'il ait à bidouiller
dans l'indexation, seulement dans l'exploitation de cette indexation.

Pour ce faire, il faudrait ajouter un paramètre aux champs pour indiquer
qu'on veut les TermVector. Je propose:

<sdx:field name="toto" sotreTermVector="true|false"...>

La compatibilité est relativement assurée. Il n'y a pas toujours besoin
d'en avoir, pas sur tous les champs, etc. Les principaux inconvénients
sont bien sûr un index un peu plus gros et un temps d'indexation
légèrement supérieure.

Puisque nous ne proposons pas (pour l'instant) d'utilisation de ces
TermVector, et qu'il y a des inconvénients, la valeur par défaut de ce
nouveau paramètre devrait être "false".

Par ailleurs, on pourrait hériter cette propriété de <sdx:fieldList/> ou
<sdx:documentBase/>, qui fixeraient ainsi une valeur par défaut qui
pourrait ensuite être modifiée aux niveaus plus bas. Mais je me demande
si ça vaut vraiment la peine, je crois que c'est une réflexion à mener
au niveau du champ, ce n'est pas très global.

Nous pourrons l'implémenter au cours des prochains jours dans la version
CVS HEAD de SDX, qui deviendra la 2.3.

A bientôt,

Martin Sévigny







reply via email to

[Prev in Thread] Current Thread [Next in Thread]