sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] sdx indexation


From: Martin Sevigny
Subject: Re: [sdx-developers] sdx indexation
Date: Mon, 17 May 2004 07:38:58 +0200
User-agent: Mozilla Thunderbird 0.6 (Windows/20040502)

Bonjour,

je réalise une petite étude sur l'indexation avec SDX et je trouve qu'il y a 
quelque chose de surprenant.

Pour une fois il y a une explication très simple ;-)

(1) je réalise l'indexation d'un lot de 2500 documents en environ 20 min. cela 
revient donc a 1 document toutes les 0.2 s
on peut donc penser que ce sont des temps d'indexation assez long ...

(2) je réalise la même indexation mais cette fois ci sur un seul document qui 
contient l'ensemble des autres documents (fragmentation des documents) 
bizarement, j'obtient l'indexation en environ 1 ou 2 min (surprenant la 
différence ...)

SDX indexe en mémoire un lot de documents puis ensuite écrit l'index, l'unifie avec le précédent et l'optimise l'index. Par défaut, ce lot est de 25 documents. Donc dans la situation 1, il fait cette manipulation 100 fois, alors que dans le situation 2, il le fait une seule fois car même s'il y a 2500 sous-documents, pour SDX il y a un seul document dans le lot, donc moins de 25.

Pour confirmer ce que j'écris, modifiez votre indexation pour ajouter dans la XSP batchMax="2500" à sdx:uploadDocuments. Vous devriez avoir des temps d'indexation très semblables entre les deux méthodes.

Vous pouvez monter batchMax aussi haut que vous voulez, mais ça prend plus de mémoire. Un compromis à trouver.

Sans m'engager, je signale que quelques petites optimisations touchant cet aspect devraient être apportés au cours de l'été.

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]