sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE : RE : [sdx-users] l'affectation d'un analyseur lucene dynamiquement


From: Nader Boutros
Subject: RE : RE : [sdx-users] l'affectation d'un analyseur lucene dynamiquement
Date: Mon, 25 Aug 2003 18:43:41 +0200

Bonjour,

> > Est-il possible d'affecter un analyseur lucene dynamiquement 
> > au momemt de 
> > l'indexation d'un champ d'un document? 
> 
> Non.

Dommage ;-)

> Supposons que l'on puisse faire ce que tu demandes, et qu'un 
> utilisateur
> tape la requête suivante :
> 
> comment:(Français qsdljk Métro)
> 
> Quel analyseur utiliser pour analyser la chaîne "Français 
> qsdljk Métro"
> ? Aujourd'hui, SDX (et c'est une amélioration par rapport à du Lucene
> "brut") sera assez fin pour l'analyser avec l'analyseur 
> déclaré dans le
> xconf pour ce champs, mais si les analyseurs étaient choisis
> dynamiquement au moment de l'indexation...

Ce que je voulais dire par dynamiquement, c'est la possibilité de
détecter la langue d'un attribut du champ et pas uniquement de xconf ce
qui permettrai d'imaginer des documents ayant des champs répétés
multilingues... Pour la recherche c'est une autre affaire, SDX devrait
avoir le moyen d'associer la langue d'interface au contenu demandé en
recherche ou un moyen d'ajouter le code de la langue de la recherche à
la requête?! Concernant l'interface, ceci peut se résoudre par une combo
de langue associée aux champs "multi-lingues" dans la recherche avancée.

> Personnellement, je n'ai jamais trouvé de réponse à cette facette du
> multilinguisme, et je pense que je l'avais déjà écrit sur cette liste
> jadis. Et en l'écrivant, ou en y réfléchissant, j'avais fini par me
> poser cette question fondamentale : quelle est la signficiation
> "documentaire" d'un champ où le contenu est analysé différemment?

Je cale, je ne suis pas documentaliste ;-) pour donner une signification
"documentaire" mais je pense qu'il y a encore du chemin à faire pour
avoir une idée limpide du multilinguisme dans SDX.

> On peut aussi procéder autrement. On pourrait se dire que SDX va créer
> des champs différents (de manière transparent), de nom comment_fr-FR ;
> comment_en-GB ; etc. Soit, on y avait pensé. Ca multiple les champs,
> mais ce n'est pas très grave.

C'est déjà un bon contournement, j'essayerai d'une manière explicite. Si
tu as une idée sur "la manière transparente" de créer des champs
différents par SDX, je suis preneur.

> Mais que fait-on après? Si un utilisateur, dans une page où la langue
> est "fr", effectue la requête ci-dessus, que devrait-il se passer?

L'analyseur fr devrait être choisi sauf précision particulière par
l'utilisateur (combo de langue). Ce serait trop beau que SDX puisse
détecter la langue du texte libre dans une requête.

> On ne peut pas décider de chercher uniquement dans le champ
> comment_fr-FR, car on perdrait des documents. La seule solution serait
> de créer des critères (reliés par un OU) qui font la requête 
> dans chaque
> champ fictif correspondant à une langue. Soit, mais cette liste de
> champs fictifs doit être maintenue à part par SDX, car Lucene ne peut
> pas nous retourner les champs utilisés directement. Mais on peut
> toujours y arriver.

Oui dans le cas de ton exemple de requête, je suis d'accord mais que
fait SDX dans le cas d'une requête libre encore plus large d'un simple
champ qui interrogerait plusieurs bases de documents?

> Mais est-ce que cela donne des résultats intéressants et réalistes?
> C'est là que je bloque, je ne suis pas arrivé à trouver des "use case"
> où cette méthode donnerait des résultats intéressants.
> 
> Quelqu'un en voit? Nader, comment vois-tu l'usage de tes champs
> multilingues? Comment trier les <sdx:terms> par exemple?
> 
Si je cherche en fr comment:(français patrimoine architecture),
j'attends deux niveaux de résultats :
- Les documents qui répondent à ma requête dans la langue choisie par
ordre de pertinence
- Les documents qui répondent à ma requête dans d'autres langues par
ordre de pertinence! Avec l'usage pertinent des fonctionnalités
thésaurus, on devrait y arriver, non ? , c'est un terrain encore non
découvert.

> Pour conclure, rien n'est impossible, mais il faut y songer un peu, et
> les contributions (au moins à la réflexion) sont bienvenues.

Faut-il identifier des "use cases" du multilingue au niveau des :
- champs (même champ répété ayant des valeurs dans n langues),
- documents (même document répété et interprété ainsi dans n différentes
langues = "traductions"),
- ou bases de documents (même structure de base de document mais avec
des documents de langue différente respectivement dans chaque base = Je
pense à parcours d'images)?


A bientôt,
Nader Boutros






reply via email to

[Prev in Thread] Current Thread [Next in Thread]