indexing - crawling de fichiers protégés

  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:2130da75850a680437b3102e5bd456f5' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,</p>\n<p>En partenariat avec UNIT, l\'Institut de la Montagne à mis en œuvre<br />\nl\'outil ORI-OAI sur son site internet depuis 2008, et suite à des tests<br />\nde requêtes effectués dans le moteur de recherche nous constatons des<br />\nimpertinences dans les pages de résultats renvoyées par le moteur de<br />\nrecherche.<br />\nY-a-t-il un groupe de travail chargé de développer le moteur de<br />\nrecherche du logiciel OR\n</div>\n', created = 1507746824, expire = 1507833224, headers = '', serialized = 0 WHERE cid = '4:2130da75850a680437b3102e5bd456f5' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:2130da75850a680437b3102e5bd456f5' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,</p>\n<p>En partenariat avec UNIT, l\'Institut de la Montagne à mis en œuvre<br />\nl\'outil ORI-OAI sur son site internet depuis 2008, et suite à des tests<br />\nde requêtes effectués dans le moteur de recherche nous constatons des<br />\nimpertinences dans les pages de résultats renvoyées par le moteur de<br />\nrecherche.<br />\nY-a-t-il un groupe de travail chargé de développer le moteur de<br />\nrecherche du logiciel OR\n</div>\n', created = 1507746824, expire = 1507833224, headers = '', serialized = 0 WHERE cid = '4:2130da75850a680437b3102e5bd456f5' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:08e6b754129c03a6d33669f4600ca3f4' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\n<html>\n<head>\n</head>\n<body bgcolor=\"#ffffff\" text=\"#000000\">\n<font size=\"-1\"><font face=\"Arial\">Bonjour,<br>\n<br>\nNous diffusons actuellement des ressources p&eacute;dagogiques et des th&egrave;ses\nau format PDF qui sont prot&eacute;g&eacute;es pour &eacute;viter les copier/coller par\nexemple. Nous avons &eacute;galement ces m&ecirc;mes fichiers sous forme non\nprot&eacute;g&eacute;e pour l\'indexation plein texte.<br>\n<br>\nEn migrant vers ORI-OAI, nous souhaiterions continuer &agrave; proposer la\nrecherche en texte int&eacute;grale sans remettre en question des fichiers\ndoubles dans un premier temps. Ce que nous souhaiterions faire : lors\nde l\'action de crawling, tester la pr&eacute;sence d\'une adresse de l\'INSA\ndans la localisation du fichier, et si c\'est le cas, remplacer un bout\nde l\'URL pour indiquer au crawler l\'adresse des fichiers non prot&eacute;g&eacute;s,\nauquel lui seul aurait acc&egrave;s. Il s\'agit d\'une premi&egrave;re solution, &agrave;\nd&eacute;velopper et &eacute;valuer pour le plus long terme.<br>\n<br>\nNous souhaiterions avoir un peu d\'aide pour localiser les fichiers &agrave;\nmodifier. <br>\nMerci<br>\nNolwen</font></font><br>\n<pre class=\"moz-signature\" cols=\"72\">-- \nNolwen CLEMENT-HUET\nCoordinateur Fonctionnel du projet ORI-OAI\nDoc\'INSA - INSA de Lyon\nM&egrave;l : <a class=\"moz-txt-link-abbreviated\" href=\"&#109;&#97;&#105;&#108;&#116;&#111;&#58;&#110;&#111;&#108;&#119;&#101;&#110;&#46;&#104;&#117;&#101;&#116;&#64;&#105;&#110;&#115;&#97;&#45;&#108;&#121;&#111;&#110;&#46;&#102;&#114;\">&#110;&#111;&#108;&#119;&#101;&#110;&#46;&#104;&#117;&#101;&#116;&#64;&#105;&#110;&#115;&#97;&#45;&#108;&#121;&#111;&#110;&#46;&#102;&#114;</a>\nTel : 04 72 43 70 32\nWeb : <a class=\"moz-txt-link-freetext\" href=\"http://docinsa.insa-lyon.fr\">http://docinsa.insa-lyon.fr</a> </pre>\n</body>\n</html>\n</div>', created = 1507746825, expire = 1507833225, headers = '', serialized = 0 WHERE cid = '4:08e6b754129c03a6d33669f4600ca3f4' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
1 message / 0 nouveaux
Dernière contribution
Nolwen Huet
indexing - crawling de fichiers protégés
Bonjour,

Nous diffusons actuellement des ressources pédagogiques et des thèses au format PDF qui sont protégées pour éviter les copier/coller par exemple. Nous avons également ces mêmes fichiers sous forme non protégée pour l'indexation plein texte.

En migrant vers ORI-OAI, nous souhaiterions continuer à proposer la recherche en texte intégrale sans remettre en question des fichiers doubles dans un premier temps. Ce que nous souhaiterions faire : lors de l'action de crawling, tester la présence d'une adresse de l'INSA dans la localisation du fichier, et si c'est le cas, remplacer un bout de l'URL pour indiquer au crawler l'adresse des fichiers non protégés, auquel lui seul aurait accès. Il s'agit d'une première solution, à développer et évaluer pour le plus long terme.

Nous souhaiterions avoir un peu d'aide pour localiser les fichiers à modifier.
Merci
Nolwen

-- 
Nolwen CLEMENT-HUET
Coordinateur Fonctionnel du projet ORI-OAI
Doc'INSA - INSA de Lyon
Mèl : nolwen.huet@insa-lyon.fr
Tel : 04 72 43 70 32
Web : http://docinsa.insa-lyon.fr