Merci pour les tests. En effet, désormais, je peux moissonner l'IRD ! Je ne comprends pas bien cette différence de résultat, à moins d'une erreur au niveau du dépôt lors de nos précédentes tentatives. La feuille de style xsl n'est donc pas en cause.
Pour ce qui est de revues.org, si je comprends bien, je ne peux pas moissonner tant que le dépôt présente cette arborescence ?
Bien cordialement
Stéphane Loret
MSH - Tours
Crevilles.org
Le 27/01/11 15:02, Yohan Colmant a écrit :
Bonjour,
Je viens bien de moissonner l'IRD en oai_dc.
J'ai sélectionné le set "Documentation" sans problème. J'ai moissonné 94 fiches et je n'ai pas eu de soucis avec la XSL. Pouvez-vous nous envoyer des logs si ça ne fonctionne pas chez vous ?
Pour le site Revues.org je pense savoir où est le soucis.
Si je vais ici http://oai.revues.org/?verb=ListSets j'ai la liste de tous les sets proposés.
Ils sont tous de la forme setSpec = oai:revues.org:XXXXXX
Si on regarde les spécifications du protocole OAI-PMH, il me semble que l'utilisation des ":" est claire. Cf. http://www.openarchives.org/OAI/openarchivesprotocol.html#Set
Le problème ici est donc qu'ils utilisent une arborescence de sets avec des setSpec oai:revues.org:XXXXX sans avoir de setSpec "oai" et "oai:revues.org".
oai:revues.org:journal indique que l'on moissonne le set "journal" qui est enfant de "revues.org" lui-même enfant de "oai". Le soucis est que "oai" et "revues.org" n'existent pas.
On devrait donc avoir les sets :
oai
oai:revues.org
oai:revues.org:journal
oai:revues.org:recherchestravaux
oai:revues.org:recherchestravaux:58
etc.
ou plus simplement car les niveaux oai et oai:revues.org sont inutiles à mon sens :
journal
recherchestravaux
recherchestravaux:58
etc.
Cordialement,
Yohan COLMANT
Direction des Systèmes d'Information
UVHC - Université de Valenciennes et du Hainaut Cambrésis
Coordinateur Technique du projet ORI-OAI
Le 20/01/2011 14:22, sdjloret@free.fr a écrit :Bonjour, Je viens de procéder à une moisson sur l'archive de l'IRD, à cette adresse http://www.documentation.ird.fr/fdi/oai.php Le problème est que cette base url présente une feuille de style xslt qui fait planter la moisson. Voici l'erreur retournée dans catalina.out [Fatal Error] :399:2475: An invalid XML character (Unicode: 0xc) was found in the element content of the document. J'ai vérifié les différentes bases url que nous devons moissonner. Toutes celles qui présentent une feuille de style posent le même problème. Un autre exemple avec cette adresse : http://oai.revues.org/ qui, si elle ne présente pas de feuille xslt à la base, dès qu'une requête (Identify, etc...) est envoyée une feuille de style est bien présente qui, elle, fait planter la recherche de la liste des sets. Je me posais donc la question de savoir si je pouvais "squizzer" cette feuille à partir du harvester qui n'a pas grand intérêt sur le plan d'une moisson. Bien à vous Stéphane LORET MSH - Tours Crévilles.org