crawler web TEF

  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:11e0d1dc000ce3c67d3b8cdd6fb9d007' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour à tous,</p>\n<p>Nous harvestons et indexons des records OAI dont le <dc:subject> se trouve<br />\nêtre de la forme [A:B].</p>\n<p>Dans le cadre du module search, nous souhaitons pouvoir utiliser un vocabulaire<br />\npour classer nos records en fonction de la valeur du <dc:subject>. Les<br />\ncaractères [ ] : étant réservés dans le cadre des requêtes Lucene, nous<br />\nn\'arrivons malheureusement pas à nos fins.\n</div>\n', created = 1507753888, expire = 1507840288, headers = '', serialized = 0 WHERE cid = '4:11e0d1dc000ce3c67d3b8cdd6fb9d007' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:11e0d1dc000ce3c67d3b8cdd6fb9d007' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour à tous,</p>\n<p>Nous harvestons et indexons des records OAI dont le <dc:subject> se trouve<br />\nêtre de la forme [A:B].</p>\n<p>Dans le cadre du module search, nous souhaitons pouvoir utiliser un vocabulaire<br />\npour classer nos records en fonction de la valeur du <dc:subject>. Les<br />\ncaractères [ ] : étant réservés dans le cadre des requêtes Lucene, nous<br />\nn\'arrivons malheureusement pas à nos fins.\n</div>\n', created = 1507753888, expire = 1507840288, headers = '', serialized = 0 WHERE cid = '4:11e0d1dc000ce3c67d3b8cdd6fb9d007' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:e6365b821fad87bfef37ded7dab71d63' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\n<html>\n <head>\n\n <meta http-equiv=\"content-type\" content=\"text/html; charset=UTF-8\">\n </head>\n <body bgcolor=\"#ffffff\" text=\"#000000\">\n Bonjour,<br>\n <br>\n Je viens de remarquer que le crawler web affichait toujours empty\n pour mes thèses.<br>\n D\'après la doc, cela signifie qu\'il ne trouve pas l\'url pour tester\n le fichier. Pourant l\'url y figure bien.<br>\n <br>\n En regardant de plus près le fichier configIndexing.xml, il n\'y fait\n aucune référence de xpathurl pour les thèses.<br>\n <br>\n J\'ai donc ajouté ceci :<br>\n <br>\n &lt;repository name=\"ori-oai-workflow\"&gt;<br>\n                 &lt;xpathToUrl format_id=\"dublin_core\"\n value=\"//dc:identifier\" /&gt;<br>\n                 &lt;xpathToUrl format_id=\"pedagogique\"\n value=\"//lom:technical/lom:location\" /&gt;<br>\n                 <b>&lt;xpathToUrl format_id=\"tef\"\n value=\"//dc:identifier[@xsi:type=\'dcterms:URI\']\" /&gt;</b><br>\n                 &lt;depth&gt;1&lt;/depth&gt; <br>\n                \n&lt;allowedMimeTypes&gt;application/pdf,application/vnd.ms-powerpoint,application/msword&lt;/allowedMimeTypes&gt;<br>\n             &lt;/repository&gt;<br>\n             <br>\n             &lt;repository name=\"default\"&gt;<br>\n                 &lt;xpathToUrl format_id=\"dublin_core\"\n value=\"//dc:identifier\" /&gt;<br>\n                 &lt;xpathToUrl format_id=\"pedagogique\"\n value=\"//lom:technical/lom:location\" /&gt;<br>\n                 <b>&lt;xpathToUrl format_id=\"tef\"\n value=\"//dc:identifier[@xsi:type=\'dcterms:URI\']\" /&gt;</b><br>\n                 &lt;depth&gt;1&lt;/depth&gt;<br>\n                 &lt;allowedMimeTypes&gt;all&lt;/allowedMimeTypes&gt;<br>\n             &lt;/repository&gt;<br>\n <br>\n Cela reste toujours a empty.<br>\n <br>\n <br>\n Vous avez une idée des autres modifications à apporter ?<br>\n <pre class=\"moz-signature\" cols=\"72\">-- \nCordialement.\n\n\nFrançois Lefebvre\nBibliothèque Universitaire de Lille 1\nCité Scientifique - B.P. 30155\n59653 VILLENEUVE D\'ASCQ CEDEX\nTél.: 03.20.33.60.73</pre>\n </body>\n</html>\n</div>', created = 1507753888, expire = 1507840288, headers = '', serialized = 0 WHERE cid = '4:e6365b821fad87bfef37ded7dab71d63' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:d931f8d1915c296ae87eb7063ac24c36' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\n<html>\n <head>\n <meta content=\"text/html; charset=UTF-8\" http-equiv=\"Content-Type\">\n </head>\n <body text=\"#000000\" bgcolor=\"#ffffff\">\n <font size=\"-1\"><font face=\"Verdana\">François,<br>\n <br>\n Est-ce que la métadonnée </font></font><b>//dc:identifier[@xsi:type=\'dcterms:URI\']\n </b><font size=\"-1\"><font face=\"Verdana\">est bien présente dans ton\n index ?<br>\n <br>\n Si oui, je me demande si le fait d\'être passé 1 première fois\n avec le crawler ne bloque pas aujourd\'hui. <br>\n En effet, il a été inscrit \"empty\" dans l\'index la première\n fois, et je crois que le script ne regarde plus ces fiches après\n ...<br>\n <br>\n Donc si tu peux vider ton index et le reconstruire à partir du\n workflow pour repartir sur un index non crawlé.<br>\n Ensuite, tu lance le crawling ....<br>\n <br>\n Ca donne quoi ... ?<br>\n <br>\n A +++<br>\n </font></font>\n <div class=\"moz-signature\">\n <div class=\"moz-signature\">\n <font face=\"Verdana\"><small>\n Yohan COLMANT<br>\n Direction des Systèmes d\'Information<br>\n UVHC - Université de Valenciennes et du Hainaut Cambrésis<br>\n Coordinateur Technique du projet ORI-OAI\n </small>\n </font>\n </div>\n </div>\n <br>\n Le 07/06/2011 13:06, François Lefebvre a écrit :\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>\n <meta http-equiv=\"content-type\" content=\"text/html; charset=UTF-8\">\n Bonjour,<br>\n <br>\n Je viens de remarquer que le crawler web affichait toujours empty\n pour mes thèses.<br>\n D\'après la doc, cela signifie qu\'il ne trouve pas l\'url pour\n tester le fichier. Pourant l\'url y figure bien.<br>\n <br>\n En regardant de plus près le fichier configIndexing.xml, il n\'y\n fait aucune référence de xpathurl pour les thèses.<br>\n <br>\n J\'ai donc ajouté ceci :<br>\n <br>\n &lt;repository name=\"ori-oai-workflow\"&gt;<br>\n                 &lt;xpathToUrl format_id=\"dublin_core\"\n value=\"//dc:identifier\" /&gt;<br>\n                 &lt;xpathToUrl format_id=\"pedagogique\"\n value=\"//lom:technical/lom:location\" /&gt;<br>\n                 <b>&lt;xpathToUrl format_id=\"tef\"\n value=\"//dc:identifier[@xsi:type=\'dcterms:URI\']\" /&gt;</b><br>\n                 &lt;depth&gt;1&lt;/depth&gt; <br>\n                \n&lt;allowedMimeTypes&gt;application/pdf,application/vnd.ms-powerpoint,application/msword&lt;/allowedMimeTypes&gt;<br>\n             &lt;/repository&gt;<br>\n             <br>\n             &lt;repository name=\"default\"&gt;<br>\n                 &lt;xpathToUrl format_id=\"dublin_core\"\n value=\"//dc:identifier\" /&gt;<br>\n                 &lt;xpathToUrl format_id=\"pedagogique\"\n value=\"//lom:technical/lom:location\" /&gt;<br>\n                 <b>&lt;xpathToUrl format_id=\"tef\"\n value=\"//dc:identifier[@xsi:type=\'dcterms:URI\']\" /&gt;</b><br>\n                 &lt;depth&gt;1&lt;/depth&gt;<br>\n                \n &lt;allowedMimeTypes&gt;all&lt;/allowedMimeTypes&gt;<br>\n             &lt;/repository&gt;<br>\n <br>\n Cela reste toujours a empty.<br>\n <br>\n <br>\n Vous avez une idée des autres modifications à apporter ?<br>\n <pre class=\"moz-signature\" cols=\"72\">-- \nCordialement.\n\n\nFrançois Lefebvre\nBibliothèque Universitaire de Lille 1\nCité Scientifique - B.P. 30155\n59653 VILLENEUVE D\'ASCQ CEDEX\nTél.: 03.20.33.60.73</pre>\n </blockquote></div></div>\n </body>\n</html>\n</div>', created = 1507753889, expire = 1507840289, headers = '', serialized = 0 WHERE cid = '4:d931f8d1915c296ae87eb7063ac24c36' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
2 messages / 0 nouveaux
Dernière contribution
francoislefebvre
crawler web TEF
Bonjour,

Je viens de remarquer que le crawler web affichait toujours empty pour mes thèses.
D'après la doc, cela signifie qu'il ne trouve pas l'url pour tester le fichier. Pourant l'url y figure bien.

En regardant de plus près le fichier configIndexing.xml, il n'y fait aucune référence de xpathurl pour les thèses.

J'ai donc ajouté ceci :

<repository name="ori-oai-workflow">
                <xpathToUrl format_id="dublin_core" value="//dc:identifier" />
                <xpathToUrl format_id="pedagogique" value="//lom:technical/lom:location" />
                <xpathToUrl format_id="tef" value="//dc:identifier[@xsi:type='dcterms:URI']" />
                <depth>1</depth>
                <allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes>
            </repository>
           
            <repository name="default">
                <xpathToUrl format_id="dublin_core" value="//dc:identifier" />
                <xpathToUrl format_id="pedagogique" value="//lom:technical/lom:location" />
                <xpathToUrl format_id="tef" value="//dc:identifier[@xsi:type='dcterms:URI']" />
                <depth>1</depth>
                <allowedMimeTypes>all</allowedMimeTypes>
            </repository>

Cela reste toujours a empty.


Vous avez une idée des autres modifications à apporter ?
-- 
Cordialement.


François Lefebvre
Bibliothèque Universitaire de Lille 1
Cité Scientifique - B.P. 30155
59653 VILLENEUVE D'ASCQ CEDEX
Tél.: 03.20.33.60.73
Yohan Colmant
François,

Est-ce que la métadonnée
//dc:identifier[@xsi:type='dcterms:URI'] est bien présente dans ton index ?

Si oui, je me demande si le fait d'être passé 1 première fois avec le crawler ne bloque pas aujourd'hui.
En effet, il a été inscrit "empty" dans l'index la première fois, et je crois que le script ne regarde plus ces fiches après ...

Donc si tu peux vider ton index et le reconstruire à partir du workflow pour repartir sur un index non crawlé.
Ensuite, tu lance le crawling ....

Ca donne quoi ... ?

A +++
Yohan COLMANT
Direction des Systèmes d'Information
UVHC - Université de Valenciennes et du Hainaut Cambrésis
Coordinateur Technique du projet ORI-OAI

Le 07/06/2011 13:06, François Lefebvre a écrit :
Bonjour,

Je viens de remarquer que le crawler web affichait toujours empty pour mes thèses.
D'après la doc, cela signifie qu'il ne trouve pas l'url pour tester le fichier. Pourant l'url y figure bien.

En regardant de plus près le fichier configIndexing.xml, il n'y fait aucune référence de xpathurl pour les thèses.

J'ai donc ajouté ceci :

<repository name="ori-oai-workflow">
                <xpathToUrl format_id="dublin_core" value="//dc:identifier" />
                <xpathToUrl format_id="pedagogique" value="//lom:technical/lom:location" />
                <xpathToUrl format_id="tef" value="//dc:identifier[@xsi:type='dcterms:URI']" />
                <depth>1</depth>
                <allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes>
            </repository>
           
            <repository name="default">
                <xpathToUrl format_id="dublin_core" value="//dc:identifier" />
                <xpathToUrl format_id="pedagogique" value="//lom:technical/lom:location" />
                <xpathToUrl format_id="tef" value="//dc:identifier[@xsi:type='dcterms:URI']" />
                <depth>1</depth>
                <allowedMimeTypes>all</allowedMimeTypes>
            </repository>

Cela reste toujours a empty.


Vous avez une idée des autres modifications à apporter ?
-- 
Cordialement.


François Lefebvre
Bibliothèque Universitaire de Lille 1
Cité Scientifique - B.P. 30155
59653 VILLENEUVE D'ASCQ CEDEX
Tél.: 03.20.33.60.73

Options d'affichage des commentaires

Sélectionnez la méthode d'affichage des commentaires que vous préférez, puis cliquez sur « Enregistrer les paramètres » pour activer vos changements.