sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] RE : SDX 2 : implantation des entrepots de document


From: Pierrick Brihaye
Subject: Re: [sdx-developers] RE : SDX 2 : implantation des entrepots de documents
Date: Thu, 28 Mar 2002 09:19:12 +0100
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:0.9.4) Gecko/20011128 Netscape6/6.2.1

Salut,

Martin Sévigny wrote:

Framework ( = installation SDX)
  Application (plusieurs par installation)
    Base de documents (plusieurs par application)
      Entrepôt (plusieurs par base de documents)


C'est clair.


En SDX 1, Application = Base de documents = Entrepôt.


C'est clair également.


Je pense que j'ai précisé : la base est responsable de l'indexation,


... Lucene. Si on prévoit d'autres types de query, le mécanisme pourrait éventuellement être différent ? En gros, c'est ça qui me gêne. Mais pas plus que ça !


Dans SDX 2, je voulais permettre un entrepôt qui ne duplique pas (sauf
pour cache éventuellement) les documents, et c'est (pour l'instant)
l'entrepôt URLRepository qui joue ce rôle. Les autres entrepôts prévus
(SGBD, XML:DB, système de fichiers) sont à mon sens équivalents car ils
dupliquent tous les documents. Le choix de l'un ou l'autre est une
question de préférence, et en fait il n'y a pas beaucoup d'intérêt
d'utiliser plus d'un entrepôt de ce type.


On est d'accord.


Pour l'instant, la seule chose certaine c'est qu'il y aura toujours des
requêtes Lucene en SDX 2. Mais c'est vrai que ça m'intéresse beaucoup
d'avoir des requêtes XML:DB aussi.


OK. Je me demande d'ailleurs si, cet été, je ne vais pas me faire une extension spatiale à Lucene : en gros, on stocke les données géométriques sous forme textuelle (format WKT de l'OGC), et, lors de la requête on recherche tout ce qui est dans la bounding box désirée (facile, c'est un test >= x0 and <= x1 and >= y0 and <= y1). Ensuite, on *filtre* en construisant les objets géométriques géométriques éligibles et en leur appliquant l'opérateur géométrique fourni dans la requête. On ne retourne que ce ce qui a passé l'épreuve de la bounding box et de l'opérateur... On est d'accord que Lucene n'est pas réellement fait pour ça, mais sa performance est si intéressante que je me demande si ça ne vaut pas le coup...

Petite précision : SDX (1 et 2) ne conserve pas les résultats en mémoire
_sauf_ si on demande un tri. Par exemple, si je fais une requête
sdxall:1 sur une base de 3 millions de documents, ça prend 20
millisecondes et je ne vois aucune augmentation de la mémoire requise.
Si je le trie c'est une autre histoire...


Oui, mais, hélas, tout résultat retourné au client se doit à mon avis d'être trié autrement que par pertinence : on est généralement dans de la documentation structurée. Un résultat intermédiaire, je ne dis pas.


En fait, tu veux avoir du WebDAV directement sur SDX? Voir
http://www.webdav.org/ et, peut-être encore mieux, voir le support
WebDAV dans Tomcat 4 et http://www.mucl.de/~jmetzner/xincon/ pour un
test de support WebDAV directement dans Xindice...


Je regarde ça...

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden




reply via email to

[Prev in Thread] Current Thread [Next in Thread]