crawler web TEF

crawler web TEF

user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:11e0d1dc000ce3c67d3b8cdd6fb9d007' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour à tous,\nNous harvestons et indexons des records OAI dont le <dc:subject> se trouve \nêtre de la forme [A:B].\nDans le cadre du module search, nous souhaitons pouvoir utiliser un vocabulaire \npour classer nos records en fonction de la valeur du <dc:subject>. Les \ncaractères [ ] : étant réservés dans le cadre des requêtes Lucene, nous \nn\'arrivons malheureusement pas à nos fins.\n</div>\n', created = 1507753888, expire = 1507840288, headers = '', serialized = 0 WHERE cid = '4:11e0d1dc000ce3c67d3b8cdd6fb9d007' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:11e0d1dc000ce3c67d3b8cdd6fb9d007' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour à tous,\nNous harvestons et indexons des records OAI dont le <dc:subject> se trouve \nêtre de la forme [A:B].\nDans le cadre du module search, nous souhaitons pouvoir utiliser un vocabulaire \npour classer nos records en fonction de la valeur du <dc:subject>. Les \ncaractères [ ] : étant réservés dans le cadre des requêtes Lucene, nous \nn\'arrivons malheureusement pas à nos fins.\n</div>\n', created = 1507753888, expire = 1507840288, headers = '', serialized = 0 WHERE cid = '4:11e0d1dc000ce3c67d3b8cdd6fb9d007' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:e6365b821fad87bfef37ded7dab71d63' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\n<html>\n <head>\n\n <meta http-equiv=\"content-type\" content=\"text/html; charset=UTF-8\">\n </head>\n <body bgcolor=\"#ffffff\" text=\"#000000\">\n Bonjour, \n \n Je viens de remarquer que le crawler web affichait toujours empty\n pour mes thèses. \n D\'après la doc, cela signifie qu\'il ne trouve pas l\'url pour tester\n le fichier. Pourant l\'url y figure bien. \n \n En regardant de plus près le fichier configIndexing.xml, il n\'y fait\n aucune référence de xpathurl pour les thèses. \n \n J\'ai donc ajouté ceci : \n \n <repository name=\"ori-oai-workflow\"> \n <xpathToUrl format_id=\"dublin_core\"\n value=\"//dc:identifier\" /> \n <xpathToUrl format_id=\"pedagogique\"\n value=\"//lom:technical/lom:location\" /> \n <xpathToUrl format_id=\"tef\"\n value=\"//dc:identifier[@xsi:type=\'dcterms:URI\']\" /> \n <depth>1</depth> \n \n<allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes> \n </repository> \n \n <repository name=\"default\"> \n <xpathToUrl format_id=\"dublin_core\"\n value=\"//dc:identifier\" /> \n <xpathToUrl format_id=\"pedagogique\"\n value=\"//lom:technical/lom:location\" /> \n <xpathToUrl format_id=\"tef\"\n value=\"//dc:identifier[@xsi:type=\'dcterms:URI\']\" /> \n <depth>1</depth> \n <allowedMimeTypes>all</allowedMimeTypes> \n </repository> \n \n Cela reste toujours a empty. \n \n \n Vous avez une idée des autres modifications à apporter ? \n <pre class=\"moz-signature\" cols=\"72\">-- \nCordialement.\n\n\nFrançois Lefebvre\nBibliothèque Universitaire de Lille 1\nCité Scientifique - B.P. 30155\n59653 VILLENEUVE D\'ASCQ CEDEX\nTél.: 03.20.33.60.73</pre>\n </body>\n</html>\n</div>', created = 1507753888, expire = 1507840288, headers = '', serialized = 0 WHERE cid = '4:e6365b821fad87bfef37ded7dab71d63' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:d931f8d1915c296ae87eb7063ac24c36' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\n<html>\n <head>\n <meta content=\"text/html; charset=UTF-8\" http-equiv=\"Content-Type\">\n </head>\n <body text=\"#000000\" bgcolor=\"#ffffff\">\n François, \n \n Est-ce que la métadonnée //dc:identifier[@xsi:type=\'dcterms:URI\']\n est bien présente dans ton\n index ? \n \n Si oui, je me demande si le fait d\'être passé 1 première fois\n avec le crawler ne bloque pas aujourd\'hui. \n En effet, il a été inscrit \"empty\" dans l\'index la première\n fois, et je crois que le script ne regarde plus ces fiches après\n ... \n \n Donc si tu peux vider ton index et le reconstruire à partir du\n workflow pour repartir sur un index non crawlé. \n Ensuite, tu lance le crawling .... \n \n Ca donne quoi ... ? \n \n A +++ \n \n <div class=\"moz-signature\">\n <div class=\"moz-signature\">\n \n Yohan COLMANT \n Direction des Systèmes d\'Information \n UVHC - Université de Valenciennes et du Hainaut Cambrésis \n Coordinateur Technique du projet ORI-OAI\n \n \n </div>\n </div>\n \n Le 07/06/2011 13:06, François Lefebvre a écrit :\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>\n <meta http-equiv=\"content-type\" content=\"text/html; charset=UTF-8\">\n Bonjour, \n \n Je viens de remarquer que le crawler web affichait toujours empty\n pour mes thèses. \n D\'après la doc, cela signifie qu\'il ne trouve pas l\'url pour\n tester le fichier. Pourant l\'url y figure bien. \n \n En regardant de plus près le fichier configIndexing.xml, il n\'y\n fait aucune référence de xpathurl pour les thèses. \n \n J\'ai donc ajouté ceci : \n \n <repository name=\"ori-oai-workflow\"> \n <xpathToUrl format_id=\"dublin_core\"\n value=\"//dc:identifier\" /> \n <xpathToUrl format_id=\"pedagogique\"\n value=\"//lom:technical/lom:location\" /> \n <xpathToUrl format_id=\"tef\"\n value=\"//dc:identifier[@xsi:type=\'dcterms:URI\']\" /> \n <depth>1</depth> \n \n<allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes> \n </repository> \n \n <repository name=\"default\"> \n <xpathToUrl format_id=\"dublin_core\"\n value=\"//dc:identifier\" /> \n <xpathToUrl format_id=\"pedagogique\"\n value=\"//lom:technical/lom:location\" /> \n <xpathToUrl format_id=\"tef\"\n value=\"//dc:identifier[@xsi:type=\'dcterms:URI\']\" /> \n <depth>1</depth> \n \n <allowedMimeTypes>all</allowedMimeTypes> \n </repository> \n \n Cela reste toujours a empty. \n \n \n Vous avez une idée des autres modifications à apporter ? \n <pre class=\"moz-signature\" cols=\"72\">-- \nCordialement.\n\n\nFrançois Lefebvre\nBibliothèque Universitaire de Lille 1\nCité Scientifique - B.P. 30155\n59653 VILLENEUVE D\'ASCQ CEDEX\nTél.: 03.20.33.60.73</pre>\n </blockquote></div></div>\n </body>\n</html>\n</div>', created = 1507753889, expire = 1507840289, headers = '', serialized = 0 WHERE cid = '4:d931f8d1915c296ae87eb7063ac24c36' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.

2 messages / 0 nouveaux

Vous devez vous connecter pour poster des commentaires

7 juin 2011 - 1:06pm

francoislefebvre

crawler web TEF

Bonjour,

Je viens de remarquer que le crawler web affichait toujours empty pour mes thèses.
D'après la doc, cela signifie qu'il ne trouve pas l'url pour tester le fichier. Pourant l'url y figure bien.

En regardant de plus près le fichier configIndexing.xml, il n'y fait aucune référence de xpathurl pour les thèses.

J'ai donc ajouté ceci :

<repository name="ori-oai-workflow">
 <xpathToUrl format_id="dublin_core" value="//dc:identifier" />
 <xpathToUrl format_id="pedagogique" value="//lom:technical/lom:location" />
 <xpathToUrl format_id="tef" value="//dc:identifier[@xsi:type='dcterms:URI']" />
 <depth>1</depth>
 <allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes>
 </repository>

 <repository name="default">
 <xpathToUrl format_id="dublin_core" value="//dc:identifier" />
 <xpathToUrl format_id="pedagogique" value="//lom:technical/lom:location" />
 <xpathToUrl format_id="tef" value="//dc:identifier[@xsi:type='dcterms:URI']" />
 <depth>1</depth>
 <allowedMimeTypes>all</allowedMimeTypes>
 </repository>

Cela reste toujours a empty.

Vous avez une idée des autres modifications à apporter ?

-- 
Cordialement.


François Lefebvre
Bibliothèque Universitaire de Lille 1
Cité Scientifique - B.P. 30155
59653 VILLENEUVE D'ASCQ CEDEX
Tél.: 03.20.33.60.73

9 juin 2011 - 2:36pm

Yohan Colmant

François,

Est-ce que la métadonnée //dc:identifier[@xsi:type='dcterms:URI'] est bien présente dans ton index ?

Si oui, je me demande si le fait d'être passé 1 première fois avec le crawler ne bloque pas aujourd'hui.
En effet, il a été inscrit "empty" dans l'index la première fois, et je crois que le script ne regarde plus ces fiches après ...

Donc si tu peux vider ton index et le reconstruire à partir du workflow pour repartir sur un index non crawlé.
Ensuite, tu lance le crawling ....

Ca donne quoi ... ?

A +++

Yohan COLMANT
Direction des Systèmes d'Information
UVHC - Université de Valenciennes et du Hainaut Cambrésis
Coordinateur Technique du projet ORI-OAI

Le 07/06/2011 13:06, François Lefebvre a écrit :

Bonjour,

Je viens de remarquer que le crawler web affichait toujours empty pour mes thèses.
D'après la doc, cela signifie qu'il ne trouve pas l'url pour tester le fichier. Pourant l'url y figure bien.

En regardant de plus près le fichier configIndexing.xml, il n'y fait aucune référence de xpathurl pour les thèses.

J'ai donc ajouté ceci :

<repository name="ori-oai-workflow">
 <xpathToUrl format_id="dublin_core" value="//dc:identifier" />
 <xpathToUrl format_id="pedagogique" value="//lom:technical/lom:location" />
 <xpathToUrl format_id="tef" value="//dc:identifier[@xsi:type='dcterms:URI']" />
 <depth>1</depth>
 <allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes>
 </repository>

 <repository name="default">
 <xpathToUrl format_id="dublin_core" value="//dc:identifier" />
 <xpathToUrl format_id="pedagogique" value="//lom:technical/lom:location" />
 <xpathToUrl format_id="tef" value="//dc:identifier[@xsi:type='dcterms:URI']" />
 <depth>1</depth>
 <allowedMimeTypes>all</allowedMimeTypes>
 </repository>

Cela reste toujours a empty.

Vous avez une idée des autres modifications à apporter ?
-- 
Cordialement.


François Lefebvre
Bibliothèque Universitaire de Lille 1
Cité Scientifique - B.P. 30155
59653 VILLENEUVE D'ASCQ CEDEX
Tél.: 03.20.33.60.73

Valoriser le patrimoine numérique scientifique, pédagogique et documentaire des universités et le partager par un réseau de portails communicants en OAI

Traduction auto Google

Aide

Options d'affichage des commentaires