attribut xml:lang indexation DC

  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:9a186dfa782a66b950a7fa9b9cfb7327' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\n<html>\n <head>\n <meta content=\"text/html; charset=UTF-8\" http-equiv=\"Content-Type\">\n </head>\n <body text=\"#000000\" bgcolor=\"#ffffff\">\n <font size=\"-1\"><font face=\"Helvetica, Arial, sans-serif\">Re,<br>\n <br>\n Je ne suis pas sur le trunk, j\'ai fait les modifs que tu m\'as\n indiqué et ça marche.<br>\n <br>\n Merci !<br>\n A+<br>\n Nolwen<br>\n </font></font><br>\n Le 06/05/2011 14:16, Grégoire Neuville a écrit :\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>Re,\n <br>\n <br>\n Ok, ça vient de la jar crimson.jar (un vieux parser xml) qui\n implémente des spécifications xml obsolètes. Sur quelle version de\n l\'indexing es-tu ? Si tu es sur le trunk, je peux commiter\n rapidement les modifs nécessaires. Sinon, je te propose la\n démarche suivante :\n <br>\n <br>\n - effacer les jar crimson.jar et xerces.jar de tes sources\n <br>\n - télécharger\n <a class=\"moz-txt-link-freetext\" href=\"http://apache.cict.fr//xerces/j/Xerces-J-bin.2.11.0.tar.gz\">http://apache.cict.fr//xerces/j/Xerces-J-bin.2.11.0.tar.gz</a>\n <br>\n - dézipper et copier dans webapp/WEB-INF/lib les jar :\n serializer.jar, xercesImpl.jar et xml-apis.jar\n <br>\n - recompiler et redéployer\n <br>\n <br>\n Grégoire.\n <br>\n <br>\n On 06/05/2011 12:51, Nolwen Clément-Huet wrote:\n <br>\n <div class=\"emailFilter_Author_1\"><blockquote type=\"cite\">Salut Grégoire,\n <br>\n <br>\n Je t\'avoue que je comprend pas tout non plus à ce problème...\n <br>\n <br>\n Dans l\'indexing j\'ai les logs suivant :\n <br>\n              ERROR [http-8182-9] - Error on line 12: Illegal\n xml:lang\n <br>\n value \"fre\".\n <br>\n <br>\n Pour info, j\'ai fait la manip avec un entrepôt local et, sur le\n même\n <br>\n fichier, en ne modifiant que les éléments xml:lang : si ils ont\n les\n <br>\n valeurs \'fr\'/\'en\' l\'indexation marche, si les valeurs sont\n \'fre\'/\'eng\'\n <br>\n ça ne fonctionne plus.\n <br>\n <br>\n Le namespace est bien déclaré et je viens de vérifier dans le\n BCP_47, et\n <br>\n les codes sont bien corrects puisque présents dans la norme ISO\n 639-2.\n <br>\n <br>\n Merci pour ton aide\n <br>\n Nolwen\n <br>\n <br>\n <br>\n Le 06/05/2011 12:32, Grégoire Neuville a écrit :\n <br>\n <div class=\"emailFilter_Author_2\"><blockquote type=\"cite\">Salut Nolwen,\n <br>\n <br>\n J\'avoue ne pas comprendre. Il n\'y a pas de validation contre\n schéma au\n <br>\n niveau de l\'indexing, si ? Et l\'attribut xml:lang n\'est\n d\'ailleurs pas\n <br>\n spécifique au dc. Ce que je vois comme problème potentiel lié\n à cet\n <br>\n attribut :\n <br>\n <br>\n - le préfixe xml n\'est pas déclaré dans le document (i.e\n associé à\n <br>\n aucun espace de nom)\n <br>\n - les valeurs stockées dans ne sont pas conformes à\n <br>\n <a class=\"moz-txt-link-freetext\" href=\"http://en.wikipedia.org/wiki/BCP_47\">http://en.wikipedia.org/wiki/BCP_47</a>\n <br>\n <br>\n Dans le deuxième cas, cela signifierait que le parseur jdom\n utilisé\n <br>\n dans l\'indexing serait capable de détecter ces valeurs non\n conformes,\n <br>\n ce qui m\'étonnerait un peu...\n <br>\n <br>\n Que disent les logs exactement ?\n <br>\n <br>\n À plus,\n <br>\n <br>\n Grégoire.\n <br>\n <br>\n On 06/05/2011 11:05, Nolwen Clément-Huet wrote:\n <br>\n <div class=\"emailFilter_Author_3\"><blockquote type=\"cite\">Bonjour,\n <br>\n <br>\n Je cherche à indexer les fiches Dublin Core moissonées de\n l\'entrepôt\n <br>\n Gallica (<a class=\"moz-txt-link-freetext\" href=\"http://oai.bnf.fr/oai2/OAIHandler\">http://oai.bnf.fr/oai2/OAIHandler</a>). Aucun des\n champs //dc:XXX\n <br>\n n\'est indexé. Après quelques recherches, il semblerait que\n cela\n <br>\n provienne de l\'attribut xml:lang qui précise certains\n éléments (dc:type,\n <br>\n dc:rights) dont la valeur est sur 3 caractères au lieu des 2\n plus\n <br>\n habituels. Je n\'ai pas trouvé de contrindication à cet usage\n dans les\n <br>\n spécifications du DC.\n <br>\n Peut-on configurer l\'indexing pour qu\'il prenne en compte ce\n cas ?\n <br>\n <br>\n Merci\n <br>\n Bonne journée\n <br>\n Nolwen\n <br>\n </blockquote></div>\n </blockquote></div>\n <br>\n --\n <br>\n Nolwen CLEMENT-HUET\n <br>\n Université de Poitiers\n <br>\n Chargée de système d\'information documentaire\n <br>\n <br>\n <br>\n [i-médias] Service Commun Informatique et Multimédia\n <br>\n Bâtiment B21 - 7 rue Shirin Ebadi - 86022 POITIERS Cedex\n <br>\n Tél : 05 49 36 64 06 - Fax : 05 49 45 35 99\n <br>\n <a class=\"moz-txt-link-freetext\" href=\"http://www.univ-poitiers.fr\">http://www.univ-poitiers.fr</a>  -http://imedias.univ-poitiers.fr\n <br>\n <br>\n Service Commun de la Documentation\n <br>\n 1, allée Jeanne Chauvin - BP 605 86022 POITIERS Cedex\n <br>\n Tel : 05 49 4544 02 - Fax : 05 49 45 33 56\n <br>\n <a class=\"moz-txt-link-freetext\" href=\"http://www.univ-poitiers.fr\">http://www.univ-poitiers.fr</a>  -http://scd.univ-poitiers.fr/\n <br>\n <br>\n </blockquote></div>\n </blockquote></div></div>\n <br>\n <pre class=\"moz-signature\" cols=\"72\">-- \nNolwen CLEMENT-HUET\nUniversité de Poitiers\nChargée de système d\'information documentaire\n\n\n[i-médias] Service Commun Informatique et Multimédia\nBâtiment B21 - 7 rue Shirin Ebadi - 86022 POITIERS Cedex\nTél : 05 49 36 64 06 - Fax : 05 49 45 35 99\n<a class=\"moz-txt-link-freetext\" href=\"http://www.univ-poitiers.fr\">http://www.univ-poitiers.fr</a> - <a class=\"moz-txt-link-freetext\" href=\"http://imedias.univ-poitiers.fr\">http://imedias.univ-poitiers.fr</a> \n\nService Commun de la Documentation\n1, allée Jeanne Chauvin - BP 605 86022 POITIERS Cedex \nTel : 05 49 4544 02 - Fax : 05 49 45 33 56 \n<a class=\"moz-txt-link-freetext\" href=\"http://www.univ-poitiers.fr\">http://www.univ-poitiers.fr</a> - <a class=\"moz-txt-link-freetext\" href=\"http://scd.univ-poitiers.fr/\">http://scd.univ-poitiers.fr/</a></pre>\n </body>\n</html>\n</div>', created = 1507750613, expire = 1507837013, headers = '', serialized = 0 WHERE cid = '4:9a186dfa782a66b950a7fa9b9cfb7327' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:26bb2299393d7fc2fd1b8107e92d7a10' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Re,</p>\n<p>Ok, ça vient de la jar crimson.jar (un vieux parser xml) qui implémente<br />\ndes spécifications xml obsolètes. Sur quelle version de l\'indexing es-tu<br />\n? Si tu es sur le trunk, je peux commiter rapidement les modifs<br />\nnécessaires. Sinon, je te propose la démarche suivante :</p>\n<p>- effacer les jar crimson.jar et xerces.jar de tes sources<br />\n- télécharger <a href=\"http://apache.cict.fr//xerces/j/Xerces-J-bin.2.11.0.tar.gz\" title=\"http://apache.cict.fr//xerces/j/Xerces-J-bin.2.11.0.tar.gz\">http://apache.cict.fr//xerces/j/Xerces-J-bin.2.11.0.tar.gz</a><br />\n- dézipper et copier dans webapp/WEB-INF/lib les jar : serializer.jar,<br />\nxercesImpl.jar et xml-apis.jar<br />\n- recompiler et redéployer</p>\n<p>Grégoire.</p>\n<p>On 06/05/2011 12:51, Nolwen Clément-Huet wrote:<br />\n<div class=\"emailFilter_Toggle\">\n<blockquote class=\"emailFilter_Author_0\"><p>> Salut Grégoire,<br />\n><br />\n> Je t\'avoue que je comprend pas tout non plus à ce problème...<br />\n><br />\n> Dans l\'indexing j\'ai les logs suivant :<br />\n> ERROR [http-8182-9] - Error on line 12: Illegal xml:lang<br />\n> value \"fre\".<br />\n><br />\n> Pour info, j\'ai fait la manip avec un entrepôt local et, sur le même<br />\n> fichier, en ne modifiant que les éléments xml:lang : si ils ont les<br />\n> valeurs \'fr\'/\'en\' l\'indexation marche, si les valeurs sont \'fre\'/\'eng\'<br />\n> ça ne fonctionne plus.<br />\n><br />\n> Le namespace est bien déclaré et je viens de vérifier dans le BCP_47, et<br />\n> les codes sont bien corrects puisque présents dans la norme ISO 639-2.<br />\n><br />\n> Merci pour ton aide<br />\n> Nolwen<br />\n><br />\n><br />\n> Le 06/05/2011 12:32, Grégoire Neuville a écrit :</p></blockquote>\n<blockquote class=\"emailFilter_Author_1\"><p>>> Salut Nolwen,<br />\n>><br />\n>> J\'avoue ne pas comprendre. Il n\'y a pas de validation contre schéma au<br />\n>> niveau de l\'indexing, si ? Et l\'attribut xml:lang n\'est d\'ailleurs pas<br />\n>> spécifique au dc. Ce que je vois comme problème potentiel lié à cet<br />\n>> attribut :<br />\n>><br />\n>> - le préfixe xml n\'est pas déclaré dans le document (i.e associé à<br />\n>> aucun espace de nom)<br />\n>> - les valeurs stockées dans ne sont pas conformes à<br />\n>> <a href=\"http://en.wikipedia.org/wiki/BCP_47\" title=\"http://en.wikipedia.org/wiki/BCP_47\">http://en.wikipedia.org/wiki/BCP_47</a><br />\n>><br />\n>> Dans le deuxième cas, cela signifierait que le parseur jdom utilisé<br />\n>> dans l\'indexing serait capable de détecter ces valeurs non conformes,<br />\n>> ce qui m\'étonnerait un peu...<br />\n>><br />\n>> Que disent les logs exactement ?<br />\n>><br />\n>> À plus,<br />\n>><br />\n>> Grégoire.<br />\n>><br />\n>> On 06/05/2011 11:05, Nolwen Clément-Huet wrote:</p></blockquote>\n<blockquote class=\"emailFilter_Author_2\"><p>>>> Bonjour,<br />\n>>><br />\n>>> Je cherche à indexer les fiches Dublin Core moissonées de l\'entrepôt<br />\n>>> Gallica (<a href=\"http://oai.bnf.fr/oai2/OAIHandler\" title=\"http://oai.bnf.fr/oai2/OAIHandler\">http://oai.bnf.fr/oai2/OAIHandler</a>). Aucun des champs //dc:XXX<br />\n>>> n\'est indexé. Après quelques recherches, il semblerait que cela<br />\n>>> provienne de l\'attribut xml:lang qui précise certains éléments (dc:type,<br />\n>>> dc:rights) dont la valeur est sur 3 caractères au lieu des 2 plus<br />\n>>> habituels. Je n\'ai pas trouvé de contrindication à cet usage dans les<br />\n>>> spécifications du DC.<br />\n>>> Peut-on configurer l\'indexing pour qu\'il prenne en compte ce cas ?<br />\n>>><br />\n>>> Merci<br />\n>>> Bonne journée<br />\n>>> Nolwen</p></blockquote>\n<blockquote class=\"emailFilter_Author_0\"><p>><br />\n> --<br />\n> Nolwen CLEMENT-HUET<br />\n> Université de Poitiers<br />\n> Chargée de système d\'information documentaire<br />\n><br />\n><br />\n> [i-médias] Service Commun Informatique et Multimédia<br />\n> Bâtiment B21 - 7 rue Shirin Ebadi - 86022 POITIERS Cedex<br />\n> Tél : 05 49 36 64 06 - Fax : 05 49 45 35 99<br />\n> <a href=\"http://www.univ-poitiers.fr\" title=\"http://www.univ-poitiers.fr\">http://www.univ-poitiers.fr</a> -http://imedias.univ-poitiers.fr<br />\n><br />\n> Service Commun de la Documentation<br />\n> 1, allée Jeanne Chauvin - BP 605 86022 POITIERS Cedex<br />\n> Tel : 05 49 4544 02 - Fax : 05 49 45 33 56<br />\n> <a href=\"http://www.univ-poitiers.fr\" title=\"http://www.univ-poitiers.fr\">http://www.univ-poitiers.fr</a> -http://scd.univ-poitiers.fr/<br />\n></div>\n</blockquote>\n</div>\n', created = 1507750615, expire = 1507837015, headers = '', serialized = 0 WHERE cid = '4:26bb2299393d7fc2fd1b8107e92d7a10' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:42c775b0c1c4cbd613e6f963da45587e' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\n<html>\n <head>\n <meta content=\"text/html; charset=UTF-8\" http-equiv=\"Content-Type\">\n </head>\n <body text=\"#000000\" bgcolor=\"#ffffff\">\n <font size=\"-1\"><font face=\"Helvetica, Arial, sans-serif\">Salut\n Grégoire,<br>\n <br>\n Je t\'avoue que je comprend pas tout non plus à ce problème... <br>\n <br>\n Dans l\'indexing j\'ai les logs suivant : <br>\n             ERROR [http-8182-9] - Error on line 12: Illegal\n xml:lang value \"fre\".<br>\n <br>\n Pour info, j\'ai fait la manip avec un entrepôt local et, sur le\n même fichier, en ne modifiant que les éléments xml:lang : si ils\n ont les valeurs \'fr\'/\'en\' l\'indexation marche, si les valeurs\n sont \'fre\'/\'eng\' ça ne fonctionne plus. <br>\n <br>\n Le namespace est bien déclaré et je viens de vérifier dans le\n BCP_47, et les codes sont bien corrects puisque présents dans la\n norme ISO 639-2.<br>\n <br>\n Merci pour ton aide<br>\n Nolwen<br>\n <br>\n </font></font><br>\n Le 06/05/2011 12:32, Grégoire Neuville a écrit :\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>Salut\n Nolwen,\n <br>\n <br>\n J\'avoue ne pas comprendre. Il n\'y a pas de validation contre\n schéma au niveau de l\'indexing, si ? Et l\'attribut xml:lang n\'est\n d\'ailleurs pas spécifique au dc. Ce que je vois comme problème\n potentiel lié à cet attribut :\n <br>\n <br>\n - le préfixe xml n\'est pas déclaré dans le document (i.e associé à\n aucun espace de nom)\n <br>\n - les valeurs stockées dans ne sont pas conformes à\n <a class=\"moz-txt-link-freetext\" href=\"http://en.wikipedia.org/wiki/BCP_47\">http://en.wikipedia.org/wiki/BCP_47</a>\n <br>\n <br>\n Dans le deuxième cas, cela signifierait que le parseur jdom\n utilisé dans l\'indexing serait capable de détecter ces valeurs non\n conformes, ce qui m\'étonnerait un peu...\n <br>\n <br>\n Que disent les logs exactement ?\n <br>\n <br>\n À plus,\n <br>\n <br>\n Grégoire.\n <br>\n <br>\n On 06/05/2011 11:05, Nolwen Clément-Huet wrote:\n <br>\n <div class=\"emailFilter_Author_1\"><blockquote type=\"cite\">Bonjour,\n <br>\n <br>\n Je cherche à indexer les fiches Dublin Core moissonées de\n l\'entrepôt\n <br>\n Gallica (<a class=\"moz-txt-link-freetext\" href=\"http://oai.bnf.fr/oai2/OAIHandler\">http://oai.bnf.fr/oai2/OAIHandler</a>). Aucun des champs\n //dc:XXX\n <br>\n n\'est indexé. Après quelques recherches, il semblerait que cela\n <br>\n provienne de l\'attribut xml:lang qui précise certains éléments\n (dc:type,\n <br>\n dc:rights) dont la valeur est sur 3 caractères au lieu des 2\n plus\n <br>\n habituels. Je n\'ai pas trouvé de contrindication à cet usage\n dans les\n <br>\n spécifications du DC.\n <br>\n Peut-on configurer l\'indexing pour qu\'il prenne en compte ce cas\n ?\n <br>\n <br>\n Merci\n <br>\n Bonne journée\n <br>\n Nolwen\n <br>\n </blockquote></div>\n </blockquote></div></div>\n <br>\n <pre class=\"moz-signature\" cols=\"72\">-- \nNolwen CLEMENT-HUET\nUniversité de Poitiers\nChargée de système d\'information documentaire\n\n\n[i-médias] Service Commun Informatique et Multimédia\nBâtiment B21 - 7 rue Shirin Ebadi - 86022 POITIERS Cedex\nTél : 05 49 36 64 06 - Fax : 05 49 45 35 99\n<a class=\"moz-txt-link-freetext\" href=\"http://www.univ-poitiers.fr\">http://www.univ-poitiers.fr</a> - <a class=\"moz-txt-link-freetext\" href=\"http://imedias.univ-poitiers.fr\">http://imedias.univ-poitiers.fr</a> \n\nService Commun de la Documentation\n1, allée Jeanne Chauvin - BP 605 86022 POITIERS Cedex \nTel : 05 49 4544 02 - Fax : 05 49 45 33 56 \n<a class=\"moz-txt-link-freetext\" href=\"http://www.univ-poitiers.fr\">http://www.univ-poitiers.fr</a> - <a class=\"moz-txt-link-freetext\" href=\"http://scd.univ-poitiers.fr/\">http://scd.univ-poitiers.fr/</a></pre>\n </body>\n</html>\n</div>', created = 1507750615, expire = 1507837015, headers = '', serialized = 0 WHERE cid = '4:42c775b0c1c4cbd613e6f963da45587e' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:7bfa4767f1451bc8a55e3ca271a56719' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Salut Nolwen,</p>\n<p>J\'avoue ne pas comprendre. Il n\'y a pas de validation contre schéma au<br />\nniveau de l\'indexing, si ? Et l\'attribut xml:lang n\'est d\'ailleurs pas<br />\nspécifique au dc. Ce que je vois comme problème potentiel lié à cet<br />\nattribut :</p>\n<p>- le préfixe xml n\'est pas déclaré dans le document (i.e associé à aucun<br />\nespace de nom)<br />\n- les valeurs stockées dans ne sont pas conformes à<br />\n<a href=\"http://en.wikipedia.org/wiki/BCP_47\" title=\"http://en.wikipedia.org/wiki/BCP_47\">http://en.wikipedia.org/wiki/BCP_47</a></p>\n<p>Dans le deuxième cas, cela signifierait que le parseur jdom utilisé dans<br />\nl\'indexing serait capable de détecter ces valeurs non conformes, ce qui<br />\nm\'étonnerait un peu...</p>\n<p>Que disent les logs exactement ?</p>\n<p>À plus,</p>\n<p>Grégoire.</p>\n<p>On 06/05/2011 11:05, Nolwen Clément-Huet wrote:<br />\n<div class=\"emailFilter_Toggle\">\n<blockquote class=\"emailFilter_Author_0\"><p>> Bonjour,<br />\n><br />\n> Je cherche à indexer les fiches Dublin Core moissonées de l\'entrepôt<br />\n> Gallica (<a href=\"http://oai.bnf.fr/oai2/OAIHandler\" title=\"http://oai.bnf.fr/oai2/OAIHandler\">http://oai.bnf.fr/oai2/OAIHandler</a>). Aucun des champs //dc:XXX<br />\n> n\'est indexé. Après quelques recherches, il semblerait que cela<br />\n> provienne de l\'attribut xml:lang qui précise certains éléments (dc:type,<br />\n> dc:rights) dont la valeur est sur 3 caractères au lieu des 2 plus<br />\n> habituels. Je n\'ai pas trouvé de contrindication à cet usage dans les<br />\n> spécifications du DC.<br />\n> Peut-on configurer l\'indexing pour qu\'il prenne en compte ce cas ?<br />\n><br />\n> Merci<br />\n> Bonne journée<br />\n> Nolwen</div>\n</blockquote>\n</div>\n', created = 1507750615, expire = 1507837015, headers = '', serialized = 0 WHERE cid = '4:7bfa4767f1451bc8a55e3ca271a56719' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:bd4d1880f82fb3054306dd76fa07cd84' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,</p>\n<p>Je cherche à indexer les fiches Dublin Core moissonées de l\'entrepôt<br />\nGallica (<a href=\"http://oai.bnf.fr/oai2/OAIHandler\" title=\"http://oai.bnf.fr/oai2/OAIHandler\">http://oai.bnf.fr/oai2/OAIHandler</a>). Aucun des champs //dc:XXX<br />\nn\'est indexé. Après quelques recherches, il semblerait que cela<br />\nprovienne de l\'attribut xml:lang qui précise certains éléments (dc:type,<br />\ndc:rights) dont la valeur est sur 3 caractères au lieu des 2 plus<br />\nhabituels. Je n\'ai pas trouvé de contrindication à cet usage dans les<br />\nspécifications du DC.<br />\nPeut-on configurer l\'indexing pour qu\'il prenne en compte ce cas ?</p>\n<p>Merci<br />\nBonne journée<br />\nNolwen</p>\n</div>\n', created = 1507750615, expire = 1507837015, headers = '', serialized = 0 WHERE cid = '4:bd4d1880f82fb3054306dd76fa07cd84' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
5 messages / 0 nouveaux
Dernière contribution
nolwenclement-huet
attribut xml:lang indexation DC
Re,

Je ne suis pas sur le trunk, j'ai fait les modifs que tu m'as indiqué et ça marche.

Merci !
A+
Nolwen

Le 06/05/2011 14:16, Grégoire Neuville a écrit :
Re,

Ok, ça vient de la jar crimson.jar (un vieux parser xml) qui implémente des spécifications xml obsolètes. Sur quelle version de l'indexing es-tu ? Si tu es sur le trunk, je peux commiter rapidement les modifs nécessaires. Sinon, je te propose la démarche suivante :

- effacer les jar crimson.jar et xerces.jar de tes sources
- télécharger http://apache.cict.fr//xerces/j/Xerces-J-bin.2.11.0.tar.gz
- dézipper et copier dans webapp/WEB-INF/lib les jar : serializer.jar, xercesImpl.jar et xml-apis.jar
- recompiler et redéployer

Grégoire.

On 06/05/2011 12:51, Nolwen Clément-Huet wrote:
Salut Grégoire,

Je t'avoue que je comprend pas tout non plus à ce problème...

Dans l'indexing j'ai les logs suivant :
             ERROR [http-8182-9] - Error on line 12: Illegal xml:lang
value "fre".

Pour info, j'ai fait la manip avec un entrepôt local et, sur le même
fichier, en ne modifiant que les éléments xml:lang : si ils ont les
valeurs 'fr'/'en' l'indexation marche, si les valeurs sont 'fre'/'eng'
ça ne fonctionne plus.

Le namespace est bien déclaré et je viens de vérifier dans le BCP_47, et
les codes sont bien corrects puisque présents dans la norme ISO 639-2.

Merci pour ton aide
Nolwen


Le 06/05/2011 12:32, Grégoire Neuville a écrit :
Salut Nolwen,

J'avoue ne pas comprendre. Il n'y a pas de validation contre schéma au
niveau de l'indexing, si ? Et l'attribut xml:lang n'est d'ailleurs pas
spécifique au dc. Ce que je vois comme problème potentiel lié à cet
attribut :

- le préfixe xml n'est pas déclaré dans le document (i.e associé à
aucun espace de nom)
- les valeurs stockées dans ne sont pas conformes à
http://en.wikipedia.org/wiki/BCP_47

Dans le deuxième cas, cela signifierait que le parseur jdom utilisé
dans l'indexing serait capable de détecter ces valeurs non conformes,
ce qui m'étonnerait un peu...

Que disent les logs exactement ?

À plus,

Grégoire.

On 06/05/2011 11:05, Nolwen Clément-Huet wrote:
Bonjour,

Je cherche à indexer les fiches Dublin Core moissonées de l'entrepôt
Gallica (http://oai.bnf.fr/oai2/OAIHandler). Aucun des champs //dc:XXX
n'est indexé. Après quelques recherches, il semblerait que cela
provienne de l'attribut xml:lang qui précise certains éléments (dc:type,
dc:rights) dont la valeur est sur 3 caractères au lieu des 2 plus
habituels. Je n'ai pas trouvé de contrindication à cet usage dans les
spécifications du DC.
Peut-on configurer l'indexing pour qu'il prenne en compte ce cas ?

Merci
Bonne journée
Nolwen

--
Nolwen CLEMENT-HUET
Université de Poitiers
Chargée de système d'information documentaire


[i-médias] Service Commun Informatique et Multimédia
Bâtiment B21 - 7 rue Shirin Ebadi - 86022 POITIERS Cedex
Tél : 05 49 36 64 06 - Fax : 05 49 45 35 99
http://www.univ-poitiers.fr  -http://imedias.univ-poitiers.fr

Service Commun de la Documentation
1, allée Jeanne Chauvin - BP 605 86022 POITIERS Cedex
Tel : 05 49 4544 02 - Fax : 05 49 45 33 56
http://www.univ-poitiers.fr  -http://scd.univ-poitiers.fr/


-- 
Nolwen CLEMENT-HUET
Université de Poitiers
Chargée de système d'information documentaire


[i-médias] Service Commun Informatique et Multimédia
Bâtiment B21 - 7 rue Shirin Ebadi - 86022 POITIERS Cedex
Tél : 05 49 36 64 06 - Fax : 05 49 45 35 99
http://www.univ-poitiers.fr - http://imedias.univ-poitiers.fr 

Service Commun de la Documentation
1, allée Jeanne Chauvin - BP 605 86022 POITIERS Cedex 
Tel : 05 49 4544 02 - Fax : 05 49 45 33 56 
http://www.univ-poitiers.fr - http://scd.univ-poitiers.fr/
gregoireneuville
Re,

Ok, ça vient de la jar crimson.jar (un vieux parser xml) qui implémente
des spécifications xml obsolètes. Sur quelle version de l'indexing es-tu
? Si tu es sur le trunk, je peux commiter rapidement les modifs
nécessaires. Sinon, je te propose la démarche suivante :

- effacer les jar crimson.jar et xerces.jar de tes sources
- télécharger http://apache.cict.fr//xerces/j/Xerces-J-bin.2.11.0.tar.gz
- dézipper et copier dans webapp/WEB-INF/lib les jar : serializer.jar,
xercesImpl.jar et xml-apis.jar
- recompiler et redéployer

Grégoire.

On 06/05/2011 12:51, Nolwen Clément-Huet wrote:

> Salut Grégoire,
>
> Je t'avoue que je comprend pas tout non plus à ce problème...
>
> Dans l'indexing j'ai les logs suivant :
> ERROR [http-8182-9] - Error on line 12: Illegal xml:lang
> value "fre".
>
> Pour info, j'ai fait la manip avec un entrepôt local et, sur le même
> fichier, en ne modifiant que les éléments xml:lang : si ils ont les
> valeurs 'fr'/'en' l'indexation marche, si les valeurs sont 'fre'/'eng'
> ça ne fonctionne plus.
>
> Le namespace est bien déclaré et je viens de vérifier dans le BCP_47, et
> les codes sont bien corrects puisque présents dans la norme ISO 639-2.
>
> Merci pour ton aide
> Nolwen
>
>
> Le 06/05/2011 12:32, Grégoire Neuville a écrit :

>> Salut Nolwen,
>>
>> J'avoue ne pas comprendre. Il n'y a pas de validation contre schéma au
>> niveau de l'indexing, si ? Et l'attribut xml:lang n'est d'ailleurs pas
>> spécifique au dc. Ce que je vois comme problème potentiel lié à cet
>> attribut :
>>
>> - le préfixe xml n'est pas déclaré dans le document (i.e associé à
>> aucun espace de nom)
>> - les valeurs stockées dans ne sont pas conformes à
>> http://en.wikipedia.org/wiki/BCP_47
>>
>> Dans le deuxième cas, cela signifierait que le parseur jdom utilisé
>> dans l'indexing serait capable de détecter ces valeurs non conformes,
>> ce qui m'étonnerait un peu...
>>
>> Que disent les logs exactement ?
>>
>> À plus,
>>
>> Grégoire.
>>
>> On 06/05/2011 11:05, Nolwen Clément-Huet wrote:

>>> Bonjour,
>>>
>>> Je cherche à indexer les fiches Dublin Core moissonées de l'entrepôt
>>> Gallica (http://oai.bnf.fr/oai2/OAIHandler). Aucun des champs //dc:XXX
>>> n'est indexé. Après quelques recherches, il semblerait que cela
>>> provienne de l'attribut xml:lang qui précise certains éléments (dc:type,
>>> dc:rights) dont la valeur est sur 3 caractères au lieu des 2 plus
>>> habituels. Je n'ai pas trouvé de contrindication à cet usage dans les
>>> spécifications du DC.
>>> Peut-on configurer l'indexing pour qu'il prenne en compte ce cas ?
>>>
>>> Merci
>>> Bonne journée
>>> Nolwen

>
> --
> Nolwen CLEMENT-HUET
> Université de Poitiers
> Chargée de système d'information documentaire
>
>
> [i-médias] Service Commun Informatique et Multimédia
> Bâtiment B21 - 7 rue Shirin Ebadi - 86022 POITIERS Cedex
> Tél : 05 49 36 64 06 - Fax : 05 49 45 35 99
> http://www.univ-poitiers.fr -http://imedias.univ-poitiers.fr
>
> Service Commun de la Documentation
> 1, allée Jeanne Chauvin - BP 605 86022 POITIERS Cedex
> Tel : 05 49 4544 02 - Fax : 05 49 45 33 56
> http://www.univ-poitiers.fr -http://scd.univ-poitiers.fr/
>

nolwenclement-huet
Salut Grégoire,

Je t'avoue que je comprend pas tout non plus à ce problème...

Dans l'indexing j'ai les logs suivant :
            ERROR [http-8182-9] - Error on line 12: Illegal xml:lang value "fre".

Pour info, j'ai fait la manip avec un entrepôt local et, sur le même fichier, en ne modifiant que les éléments xml:lang : si ils ont les valeurs 'fr'/'en' l'indexation marche, si les valeurs sont 'fre'/'eng' ça ne fonctionne plus.

Le namespace est bien déclaré et je viens de vérifier dans le BCP_47, et les codes sont bien corrects puisque présents dans la norme ISO 639-2.

Merci pour ton aide
Nolwen


Le 06/05/2011 12:32, Grégoire Neuville a écrit :
Salut Nolwen,

J'avoue ne pas comprendre. Il n'y a pas de validation contre schéma au niveau de l'indexing, si ? Et l'attribut xml:lang n'est d'ailleurs pas spécifique au dc. Ce que je vois comme problème potentiel lié à cet attribut :

- le préfixe xml n'est pas déclaré dans le document (i.e associé à aucun espace de nom)
- les valeurs stockées dans ne sont pas conformes à http://en.wikipedia.org/wiki/BCP_47

Dans le deuxième cas, cela signifierait que le parseur jdom utilisé dans l'indexing serait capable de détecter ces valeurs non conformes, ce qui m'étonnerait un peu...

Que disent les logs exactement ?

À plus,

Grégoire.

On 06/05/2011 11:05, Nolwen Clément-Huet wrote:
Bonjour,

Je cherche à indexer les fiches Dublin Core moissonées de l'entrepôt
Gallica (http://oai.bnf.fr/oai2/OAIHandler). Aucun des champs //dc:XXX
n'est indexé. Après quelques recherches, il semblerait que cela
provienne de l'attribut xml:lang qui précise certains éléments (dc:type,
dc:rights) dont la valeur est sur 3 caractères au lieu des 2 plus
habituels. Je n'ai pas trouvé de contrindication à cet usage dans les
spécifications du DC.
Peut-on configurer l'indexing pour qu'il prenne en compte ce cas ?

Merci
Bonne journée
Nolwen

-- 
Nolwen CLEMENT-HUET
Université de Poitiers
Chargée de système d'information documentaire


[i-médias] Service Commun Informatique et Multimédia
Bâtiment B21 - 7 rue Shirin Ebadi - 86022 POITIERS Cedex
Tél : 05 49 36 64 06 - Fax : 05 49 45 35 99
http://www.univ-poitiers.fr - http://imedias.univ-poitiers.fr 

Service Commun de la Documentation
1, allée Jeanne Chauvin - BP 605 86022 POITIERS Cedex 
Tel : 05 49 4544 02 - Fax : 05 49 45 33 56 
http://www.univ-poitiers.fr - http://scd.univ-poitiers.fr/
gregoireneuville
Salut Nolwen,

J'avoue ne pas comprendre. Il n'y a pas de validation contre schéma au
niveau de l'indexing, si ? Et l'attribut xml:lang n'est d'ailleurs pas
spécifique au dc. Ce que je vois comme problème potentiel lié à cet
attribut :

- le préfixe xml n'est pas déclaré dans le document (i.e associé à aucun
espace de nom)
- les valeurs stockées dans ne sont pas conformes à
http://en.wikipedia.org/wiki/BCP_47

Dans le deuxième cas, cela signifierait que le parseur jdom utilisé dans
l'indexing serait capable de détecter ces valeurs non conformes, ce qui
m'étonnerait un peu...

Que disent les logs exactement ?

À plus,

Grégoire.

On 06/05/2011 11:05, Nolwen Clément-Huet wrote:

> Bonjour,
>
> Je cherche à indexer les fiches Dublin Core moissonées de l'entrepôt
> Gallica (http://oai.bnf.fr/oai2/OAIHandler). Aucun des champs //dc:XXX
> n'est indexé. Après quelques recherches, il semblerait que cela
> provienne de l'attribut xml:lang qui précise certains éléments (dc:type,
> dc:rights) dont la valeur est sur 3 caractères au lieu des 2 plus
> habituels. Je n'ai pas trouvé de contrindication à cet usage dans les
> spécifications du DC.
> Peut-on configurer l'indexing pour qu'il prenne en compte ce cas ?
>
> Merci
> Bonne journée
> Nolwen

nolwenclement-huet
Bonjour,

Je cherche à indexer les fiches Dublin Core moissonées de l'entrepôt
Gallica (http://oai.bnf.fr/oai2/OAIHandler). Aucun des champs //dc:XXX
n'est indexé. Après quelques recherches, il semblerait que cela
provienne de l'attribut xml:lang qui précise certains éléments (dc:type,
dc:rights) dont la valeur est sur 3 caractères au lieu des 2 plus
habituels. Je n'ai pas trouvé de contrindication à cet usage dans les
spécifications du DC.
Peut-on configurer l'indexing pour qu'il prenne en compte ce cas ?

Merci
Bonne journée
Nolwen

Options d'affichage des commentaires

Sélectionnez la méthode d'affichage des commentaires que vous préférez, puis cliquez sur « Enregistrer les paramètres » pour activer vos changements.