sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Index hiérarchiques avec Lucene


From: Pierrick Brihaye
Subject: Re: [sdx-developers] Index hiérarchiques avec Lucene
Date: Mon, 08 Dec 2003 16:29:37 +0100
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Re,

Frédéric Glorieux a écrit:

Je ne suis pas sûr de tout comprendre.

En gros, on type le terme indexé. Au lieu d'*un* couple champ/valeur, on a *des* triplets type/champ/valeur. En pseudo-XML :

<term field="afield" value="avalue">
  <type type="type1"/>
  <type type="type2"/>
  <type type="type3"/>
  ...
</term>

(on peut transformer et prendre le problème par un autre bout, le champ ou la valeur).

Avec ce genre de hack on pourrait indexer en sections nativement dans Lucene ?

C'est ça.

Mais est-ce que ça ne fait pas très mal à nos sous-documents ?

Euh... quel rapport ? On parle d'une indexation. C'est donc à la logique applicative de fournir de la hiérarchie... si elle le désire.

Pierrick je suppose que tu vas te faire une joie d'implanter ça sur le coran ?

Euh... non. Pour plusieurs raisons :

1) on est sur une ancienne version de Lucene
2) l'implémentation proposée n'est pa faite
3) je tiens à ce que tout le texte soit cherchable

Le problème maintenant c'est d'aller informer l'analyseur sur ce qui est section ou paragraphe.

Ca, c'est encore assez simple. Ce qui m'intéresserait, à terme, c'est d'avoir des anlyseurs capables de détecter des groupes nominaux et d'associer le substantif à l'adjectif épithète par exemple. Ensuite, on pourrait booster, dans un sens ou dans l'autre, "le chat noir" par rapport à "le chat est noir" (adjectif attribut).

A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden





reply via email to

[Prev in Thread] Current Thread [Next in Thread]