j'ai une question à propos du module de moissonnage.
D'abord j'expose mon problème :
Quand je moissonne l'entrepôt de l'INSA de Lyon à la fin de la récolte
si je regarde le nombre de documents moissonnée j'obtiens un total de 687.
Pourtant quand je regarde le rapport de moisson il m'indique avoir
moissonné 688 documents.
J'ai donc regardé à la source pour savoir ce qu'il en était.
J'ai donc fait un calcul rapide du nombre de fiches disponibles sur leur
site :
$ wget
"http://docinsa.insa-lyon.fr/oai/oai2.php?verb=ListIdentifiers&metadataPrefix=oai_dc"
-O - 2> /dev/null|grep "
688
Il y en a donc bien 688.
Par contre si je regarde d'un peu plus près en ne gardant que les fiches
ayant un identifier distinct :
$ wget
"http://docinsa.insa-lyon.fr/oai/oai2.php?verb=ListIdentifiers&metadataPrefix=oai_dc"
-O - 2> /dev/null|grep "
687
J'en obtiens 687, donc cela veut dire qu'il y a un identifier en double.
Je le trouve facilement :
$ wget
"http://docinsa.insa-lyon.fr/oai/oai2.php?verb=ListIdentifiers&metadataPrefix=oai_dc"
-O - 2> /dev/null|grep "
J'en arrive donc à ma question : l'identifier d'une fiche de métadonnées
n'est-il pas sensé être unique? Du coup il y aurait un problème dans
l'index de l'INSA de Lyon?.
À+
--
Ce message a