sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: RE : [sdx-developers] Intégration à SDX2. 2 de la recherche des chif


From: Pierrick Brihaye
Subject: Re: RE : [sdx-developers] Intégration à SDX2. 2 de la recherche des chiffres/nombres dans le texte ?
Date: Thu, 22 Apr 2004 17:09:28 +0200
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Salut,

Rasik Pandey a écrit:


Je crois qu'il faut soit attendre que les analyseurs dans le "sandbox" de 
Lucene soit factoriser

Tu y crois ;-) ?

> soit on propose de commencer cette factorisation en ajoutant du 'plugability' pour les composants de ces analyseurs comme les Tokenizers de Pierre et même pour du 'plugability' pour les Tokenizers comme Pierrick a précédemment décrit....

Moi, je suis près à m'investir sur le Tokenizer "universel" dont j'ai parlé". Je suis même près à la mettre en licence Apache :-)

Et pour les interfaces Analyzer, Tokenizer, etc?????

Ici encore, je pense qu'on devrait avoir un analyzeur "universel" auquel on brancherait les différents composants :

UniversalAnalyzer.setTokenizer(MySpecificTokenizer);
UniversalAnalyzer.addFilter(MYFilterNumber1);
UniversalAnalyzer.addFilter(MYFilterNumber2);
UniversalAnalyzer.addFilter(MYFilterNumber3);

Note : pluôt qu'un Filter, je préfèrerais parler d'un TokenStreamTransformer (~ Transformer Cocoon), mais bon...

Pour parler franchement, je trouve les classes Lucene bien peu génériques à ce niveau.

A+


--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78





reply via email to

[Prev in Thread] Current Thread [Next in Thread]