[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: RE : [sdx-developers] Intégration à SDX2. 2 de la recherche des chif
From: |
Pierrick Brihaye |
Subject: |
Re: RE : [sdx-developers] Intégration à SDX2. 2 de la recherche des chiffres/nombres dans le texte ? |
Date: |
Thu, 22 Apr 2004 17:09:28 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02 |
Salut,
Rasik Pandey a écrit:
Je crois qu'il faut soit attendre que les analyseurs dans le "sandbox" de
Lucene soit factoriser
Tu y crois ;-) ?
> soit on propose de commencer cette factorisation en ajoutant du
'plugability' pour les composants de ces analyseurs comme les Tokenizers
de Pierre et même pour du 'plugability' pour les Tokenizers comme
Pierrick a précédemment décrit....
Moi, je suis près à m'investir sur le Tokenizer "universel" dont j'ai
parlé". Je suis même près à la mettre en licence Apache :-)
Et pour les interfaces Analyzer, Tokenizer, etc?????
Ici encore, je pense qu'on devrait avoir un analyzeur "universel" auquel
on brancherait les différents composants :
UniversalAnalyzer.setTokenizer(MySpecificTokenizer);
UniversalAnalyzer.addFilter(MYFilterNumber1);
UniversalAnalyzer.addFilter(MYFilterNumber2);
UniversalAnalyzer.addFilter(MYFilterNumber3);
Note : pluôt qu'un Filter, je préfèrerais parler d'un
TokenStreamTransformer (~ Transformer Cocoon), mais bon...
Pour parler franchement, je trouve les classes Lucene bien peu
génériques à ce niveau.
A+
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78