sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] analyzerConf?


From: Michel Bottin
Subject: Re: [sdx-users] analyzerConf?
Date: Mon, 20 Sep 2004 18:18:27 +0200
User-agent: Mozilla/5.0 (Macintosh; U; PPC Mac OS X Mach-O; en-US; rv:1.7.3) Gecko/20040910

Bonjour,

Martin Sevigny wrote:

Bonjour,

Certes, c'est peut-être beaucoup pour un cas de figure qui devrait être assez rare...



Pas si rare pour tout le monde: nous mélangeons joyeusement les langues à l'intérieur d'une collection, d'un document, d'un champ, voire d'une balise
particulière.


Je précise. Ce qui est rare c'est qu'on fasse évoluer une application pour modifier l'analyseur d'un champ sans qu'on réindexe les documents, donc les documents ne seront pas tous indexés de la même manière pour un même champ.

Bien entendu, des corpus/documents/champs multilingues, c'est loin d'être rare!

A bientôt,

Martin Sévigny

Pour mettre mon grain de sel dans la discussion je constate que dans beaucoup de structures XML une balise donnée peut être qualifiée au moyen d'un couple attribut-valeur du type xml:lang pour préciser la langue du contenu de la dite balise.

Par exemple dans l'information bibliographique il existe toujours une balise titre - éventuellement répétable - pour décrire le(s) titre(s) propre(s) d'un ouvrage. Et ce ou ces titres peuvent être dans n'importe quelle langue. En revanche la langue de catalogage - la langue utilisée par le catalogueur pour décrire les autres éléments de la référence bibliographique - est en principe unique dans un centre de documentation donné. La seule exception pourrait être un centre de doc. s'adressant à une population bilingue.

Donc nous avons la situation suivante:
- le document est dans une langue X (la langue de catalogage)
- certains champs - le champ titre en particulier - a très fréquemment un contenu multilingue. Il faut donc, si l'on veut indexer en toute rigueur les mots significatifs du titre, pouvoir choisir l'analyseur selon la langue. Naturellement cela implique que lors de la formulation de la requête de recherche l'on précise la langue utilisée. Tout autre méthode ne peut que conduire à des résultats purement aléatoires.

Michel Bottin




reply via email to

[Prev in Thread] Current Thread [Next in Thread]