[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[sdx-developers] Performance d'indexation
From: |
Pierrick Brihaye |
Subject: |
[sdx-developers] Performance d'indexation |
Date: |
Mon, 01 Jul 2002 10:15:03 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:0.9.4.1) Gecko/20020508 Netscape6/6.2.3 |
Salut,
J'ai toujours des problèmes d'indexation sous SDX 1 :
- problème de nombre de descripteurs de fichiers (qui semble résolu
depuis que j'ai repoussé les ulimit)
- offset dépassant apparement la taille d'un fichier
- documents "out of order" (très mystérieuse, celle-là)
et, accessoirement, un délai de traitement... assez long. Je dis
"accessoirement" car, pour moi, la performance d'indexation n'est pas
critique étant donné que je n'en fais pas tous les jours. Mais étant
donné que je ne sais pas si au bout du compte l'indexation va se
dérouler comme prévu, les deux heures d'attente deviennent intolérables.
Aussi, je me suis demandé si on ne pouvait pas utiliser une autre
technique d'indexation, a priori plus rapide et ne risquant pas de
dépasser le nombre de descripteurs de fichiers disponibles. Après avoir
cherché sur les listes de diffusion (je passe sur les restrictions de
mon proxy qui m'obligent à aller les chercher dans les endroits les plsu
reculés du cybermonde), je crois avoir trouvé :
http://marc.theaimsgroup.com/?l=lucene-user&m=100532543631393&w=2
L'idée est donc de travailler sur un RAMDirectory et, une fois les
opérations terminées, de copier ce RAMDirectory sur le FSDirectory.
Je crois que je vais faire un essai d'implémentation sur SDX 1 mais il
va falloir introduire un paramètre supplémentaire pour dire quand
flusher le RAMDirectory (car je doute que la RAM dont je dispose puisse
permettre l'indexation en une seule passe). Je m'oriente vers un
"coefficient multiplicateur" qui serait appliqué à nbDocumentsToIndex.
Voilà : idée à reprendre pour SDX 2 ?
A+
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
- [sdx-developers] Performance d'indexation,
Pierrick Brihaye <=