sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Index hiérarchiques avec Lucene


From: Frédéric Glorieux
Subject: Re: [sdx-developers] Index hiérarchiques avec Lucene
Date: Tue, 09 Dec 2003 13:50:02 +0100
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916

En attendant sache que tu as désormais des admirateurs en Egypte et en
Tunisie pour l'analyse de l'arabe.


J'attends toujours les commentaires : il y a des points de design que
j'aimerais bien discuter. Je comptais passer le WE dans la documentation de
l'analyseur arabe pour scuciter ces discussions mais avec le CVS mort...

Là ce sera plus dur. On m'a parlé de quelqu'un au Maroc sans avoir pu m'en donner le nom.

Si tu avais le temps, beaucoup seraient intéressés d'avoir
une version plus légère (getty ?).
Comment peut-on faire "plus léger" que cette appli ?

L'appli est très lègère, c'est simplement de voir comment faire le SDX le plus light possible. Mais il restera toujours JAVA.

  Plusieurs attendent aussi que d'autres dictionnaires que l'anglais
soit attaché à l'arabe.
Ici, c'est plus compliqué... sauf à se contenter des FreeDict
(http://www.freedict.de/).
Le jour où l'on aura une table de correspondances entre "terminologie" et
"concepts" pour toutes les langues du monde n'est pas encore arrivé :-(

C'est un rêve aussi ancien que la langue parfaite ou la caractéristique universelle (et la philosophie...)

En attendant est-ce qu'on ne peut pas tirer parti des dictionnaires Open Office ? (il y a aussi des synonymes, peut-être est-ce un filtre pour organiser les entrées).

Avec un bon dictionnaire étymologique, (ex: le Partridge pour l'anglais, le Picoche en français) on aurait de quoi organiser mieux l'arbre (il y a entre les 2 une étape qui est soit fastidieuse, soit un abus de propriété intellectuelle).



Je me demande ensuite, est-ce qu'il est possible
de chercher de l'arabe dans de l'anglais ?


A priori, pas depb : il suffit de revoir le tokenizer : j'ai fait simple.
Idéalement, il faudrait choper ce qui est dans le plan Unicode arabe/ASCII
et... dispatcher vers l'analyseur ad hoc.



Contribution bienvenue :-)

Pas ces semaines ci, mais vraiment ce sujet me passionne. Si des décideurs entendent et peuvent payer le temps de chercher là-dessus, il y aurait de quoi monter un indexeur sémantique et multilingue. Il me semble que cette étape est un préalable à l'analyse syntaxique.






reply via email to

[Prev in Thread] Current Thread [Next in Thread]