sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Doublons non détectés lors de l'indexation


From: Martin Sevigny
Subject: Re: [sdx-users] Doublons non détectés lors de l'indexation
Date: Tue, 04 Oct 2005 08:12:58 +0200
User-agent: Thunderbird 1.4 (Windows/20050908)

Salut,

Là c'est normal ;-)
Oui, ils ont le même sdxdocid, ce qui est moins normal c'est qu'il puisse cohabiter dans la même base sans poser de problème d'intégrité...

En fait cette équivalence n'est vérifiée qu'au moment de l'indexation,
par rapport à l'index existant. Dans un index Lucene, il n'y a pas de
notion d'identifiants uniques, donc c'est pour cela que ça peut être
"normal".

Si mon interprétation est bonne, je crois qu'il faudrait patcher SDX
pour cela... Ou faire des lots différents.
J'ai pour l'instant opté pour la deuxième solution, en appliquant un filtre (script Python de pré-traitement) sur les documents pour retirer ceux qui font doublons avant l'indexation mais si SDX pouvait faire le test lui-même, ce serait d'autant mieux, non ?

Oui, c'est ce que je dis, il faudrait modifier SDX. En fait il faudrait
non seulement vérifier si l'index courant contient le document, mais
aussi si l'index temporaire en cours de construction le contient...

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]