|
From: | Frédéric Glorieux |
Subject: | Re: [sdx-developers] test indexTransformer SearchTransformer : besoinde documents xml |
Date: | Sun, 05 Oct 2003 12:30:00 +0200 |
User-agent: | Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916 |
Nicolas Maisonneuve wrote:
hmm.. le schema .. je ne sais pas trop disons pas des documents trop gros , une dizaine de champs me suffiront amplement , style auteurs, date de creation , titre..un truc vraiment bateau en somme.. le top serait des documents avec : un id et des champs dédiés à des mots clés .. voilà.. c'est vous avez ce style de documents.. je suis preneur..!
vous pouvez essayer cela http://citebase.eprints.org/cgi-bin/oai2?verb=ListRecords&metadataPrefix=oai_dc Vous trouverez d'autres entrepôts OAI ici http://www.openarchives.org/Register/BrowseSites.plPour tester le plein texte, le mieux, je pense que ce serait de pomper du HTML, et de le passer au tidy avant d'indexer (il y a un exemple d'implantation dans sdxtest)
[Prev in Thread] | Current Thread | [Next in Thread] |