Lenteur module d'indexation

  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:b97fae464b79653d2f37a0400e45ad14' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,</p>\n<p>Nous avons toujours des soucis avec l\'indexation. Le problème se produit la<br />\nnuit. Mais nous n\'avons aucune information supplémentaire nous indiquant les<br />\ntaches bloquantes. Y a-t-il un moyen de modifier le niveau des logs ?</p>\n<div class=\"emailFilter_Toggle\">\n<blockquote class=\"emailFilter_Author_0\"><p>> les erreurs que vous obtenez dans le fichier catalina.out semblent indiquer</div>\n</blockquote>\n<p>un problème d\'exposition du webservice. </p>\n<p>Ce problème est toujours d\'actualité. S\'agit-il des WS du module d\'indexation<br />\nou d\'un autre module ?</p>\n<p>Merci pour votre aide</p>\n<p>Véronique PELLEAU\n</div>\n', created = 1507753906, expire = 1507840306, headers = '', serialized = 0 WHERE cid = '4:b97fae464b79653d2f37a0400e45ad14' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:a4b504031b0c14c21a20da3fb178a374' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"> Bonjour,</p>\n<p>le niveau de logs se modifie via le fichier log4j.properties. Ceci<br />\nnécessite également le redéploiement du module.</p>\n<p>Par ailleurs le crawler web est-il lancé toutes les nuits?</p>\n<p>Cordialement</p>\n<p>Yannick</p>\n<p>Le 22/07/2010 07:33, PELLEAU Véronique a écrit :<br />\n<div class=\"emailFilter_Toggle\">\n<blockquote class=\"emailFilter_Author_0\"><p>> Bonjour,<br />\n><br />\n> Nous avons toujours des soucis avec l\'indexation. Le problème se produit la<br />\n> nuit. Mais nous n\'avons aucune information supplémentaire nous indiquant les<br />\n> taches bloquantes. Y a-t-il un moyen de modifier le niveau des logs ?<br />\n></p></blockquote>\n<blockquote class=\"emailFilter_Author_1\"><p>>> les erreurs que vous obtenez dans le fichier catalina.out semblent indiquer</p></blockquote>\n<blockquote class=\"emailFilter_Author_0\"><p>> un problème d\'exposition du webservice.<br />\n><br />\n> Ce problème est toujours d\'actualité. S\'agit-il des WS du module d\'indexation<br />\n> ou d\'un autre module ?<br />\n><br />\n> Merci pour votre aide<br />\n><br />\n> Véronique PELLEAU</div>\n</blockquote>\n</div>\n', created = 1507753907, expire = 1507840307, headers = '', serialized = 0 WHERE cid = '4:a4b504031b0c14c21a20da3fb178a374' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:797fc4ffeae785dd30d4ce45c549ea31' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,</p>\n<p>les erreurs que vous obtenez dans le fichier catalina.out semblent<br />\nindiquer un problème d\'exposition du webservice.</p>\n<p>Aussi il faut bien différencier le gestionnaire de liens brisés et le<br />\ncrawler web.<br />\nLe crawler web ne peut être lancé que si le gestionnaire de liens<br />\nbrisés a été lancé précédemment.<br />\nDonc la valeur : \"INDEXING_SCHEDULE_CRAWLER= \" doit être remplie pour<br />\nlancer le gestionnaire car la valeur \"INDEXING_CRAWLER_FULL_TEXT=true\"<br />\nne sert pas si la valeur précédente n\'est pas remplie.</p>\n<p>Enfin concernant votre charge de CPU il faudrait déterminer à quel<br />\nmoment cela se produit (démarrage du tomcat, première utilisation du<br />\nmodule, lancement du gestionnaire de liens...)</p>\n<p>Cordialement</p>\n<p>Yannick</p>\n<p>veronique pelleau <<span id=\"919301b5c518c9ff00d1a59ebc883be5\"></span>\n <script type=\"text/javascript\" > <!--\n document.getElementById(\'919301b5c518c9ff00d1a59ebc883be5\')\n .innerHTML = \'<a href=\"&#109;&#97;&#105;&#108;&#116;&#111;&#58;\'+\'&#118;&#101;&#114;&#111;&#110;&#105;&#113;&#117;&#101;&#46;&#112;&#101;&#108;&#108;&#101;&#97;&#117;&#64;&#117;&#110;&#105;&#118;&#45;&#110;&#99;&#46;&#110;&#99;\'+\'\">\'+\'&#118;&#101;&#114;&#111;&#110;&#105;&#113;&#117;&#101;&#46;&#112;&#101;&#108;&#108;&#101;&#97;&#117;&#64;&#117;&#110;&#105;&#118;&#45;&#110;&#99;&#46;&#110;&#99;\' + \'</a>\';\n // --> </script>> a écrit :</p>\n<div class=\"emailFilter_Toggle\">\n<blockquote class=\"emailFilter_Author_0\"><p>> Bonjour,<br />\n><br />\n> Nous avons remarqué que le module d\'indexation utilisait quasiment<br />\n> 100% de la CPU allouée !!!<br />\n><br />\n> Il y a dans le fichier catalina.out (que je vous joins) un certain<br />\n> nombre d\'erreurs. Ces erreurs seraient-elles la cause de<br />\n> l\'utilisation excessive de la CPU ?<br />\n><br />\n> Les paramètres pour le module d\'indexation dans le fichier<br />\n> commons-properties sont les suivants :<br />\n> # Nom du contexte choisi pour le déploiement de ori-oai-indexing<br />\n> CONTEXT_INDEXING=ori-oai-indexing<br />\n><br />\n> # Planification du gestionnaire de liens. Ce gestionnaire permet de<br />\n> détecter les liens morts.<br />\n> # A NOTER : si le paramètre [INDEXING_CRAWLER_FULL_TEXT], plus bas,<br />\n> est à true, le crawler web<br />\n> # démarrera dans la foulée et indexera le plein texte des documents<br />\n> référencés.<br />\n> # Cet élément indique la date et l\'heure à laquelle le gestionnaire<br />\n> de liens se lancera.<br />\n> # L\'exemple suivant permet de lancer la tâche tous les soirs à 23h00<br />\n> et 0 secondes.<br />\n> # Pour plus d\'informations veuillez consulter le lien suivant :<br />\n> # <a href=\"http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html\" title=\"http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html\">http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html</a><br />\n> INDEXING_SCHEDULE_CRAWLER=<br />\n> # INDEXING_SCHEDULE_CRAWLER=0 00 23 * * ?<br />\n><br />\n> # Indique si le crawler doit indexer ou non le plein texte des<br />\n> documents référencés.<br />\n> # Les valeurs possibles sont true ou false.<br />\n> # ATTENTION : si la valeur est true, le crawler sera automatiquement<br />\n> démarré dans la foulée<br />\n> # du gestionnaire de liens.<br />\n> INDEXING_CRAWLER_FULL_TEXT=true<br />\n><br />\n> En parcourant la doc du module indexing, nous avons vu que nous<br />\n> pouvions configurer le système de crawling et indiquer les entrepôts<br />\n> et les url à ne pas crawler (paramètre doNotCrawl et urlsToNotCrawl<br />\n> dans le fichier configIndexing.xml). Est-il judicieux de crawler les<br />\n> fiches moissonnées ?<br />\n><br />\n> Merci pour l\'aide que vous pourrez m\'apporter<br />\n><br />\n> Véronique<br />\n><br />\n> --<br />\n> This message has been scanned for viruses and<br />\n> dangerous content by MailScanner, and is<br />\n> believed to be clean.<br />\n><br />\n><br />\n><br />\n></div>\n</blockquote>\n</div>\n', created = 1507753907, expire = 1507840307, headers = '', serialized = 0 WHERE cid = '4:797fc4ffeae785dd30d4ce45c549ea31' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:d57d408f399ad90aac5cd1c3b454b71e' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
  • user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,</p>\n<p>Nous avons remarqué que le module d\'indexation utilisait quasiment 100% de la CPU allouée !!!</p>\n<p>Il y a dans le fichier catalina.out (que je vous joins) un certain nombre d\'erreurs. Ces erreurs seraient-elles la cause de l\'utilisation excessive de la CPU ?</p>\n<p>Les paramètres pour le module d\'indexation dans le fichier commons-properties sont les suivants :<br />\n# Nom du contexte choisi pour le déploiement de ori-oai-indexing<br />\nCONTEXT_INDEXING=ori-oai-indexing</p>\n<p># Planification du gestionnaire de liens. Ce gestionnaire permet de détecter les liens morts.<br />\n# A NOTER : si le paramètre [INDEXING_CRAWLER_FULL_TEXT], plus bas, est à true, le crawler web<br />\n# démarrera dans la foulée et indexera le plein texte des documents référencés.<br />\n# Cet élément indique la date et l\'heure à laquelle le gestionnaire de liens se lancera.<br />\n# L\'exemple suivant permet de lancer la tâche tous les soirs à 23h00 et 0 secondes.<br />\n# Pour plus d\'informations veuillez consulter le lien suivant :<br />\n# <a href=\"http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html\" title=\"http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html\">http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html</a><br />\nINDEXING_SCHEDULE_CRAWLER=<br />\n# INDEXING_SCHEDULE_CRAWLER=0 00 23 * * ?</p>\n<p># Indique si le crawler doit indexer ou non le plein texte des documents référencés.<br />\n# Les valeurs possibles sont true ou false.<br />\n# ATTENTION : si la valeur est true, le crawler sera automatiquement démarré dans la foulée<br />\n# du gestionnaire de liens.<br />\nINDEXING_CRAWLER_FULL_TEXT=true</p>\n<p>En parcourant la doc du module indexing, nous avons vu que nous pouvions configurer le système de crawling et indiquer les entrepôts et les url à ne pas crawler (paramètre doNotCrawl et urlsToNotCrawl dans le fichier configIndexing.xml). Est-il judicieux de crawler les fiches moissonnées ?</p>\n<p>Merci pour l\'aide que vous pourrez m\'apporter</p>\n<p>Véronique</p>\n</div>\n', created = 1507753907, expire = 1507840307, headers = '', serialized = 0 WHERE cid = '4:d57d408f399ad90aac5cd1c3b454b71e' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
4 messages / 0 nouveaux
Dernière contribution
veroniquepelleau
Lenteur module d'indexation
Bonjour,

Nous avons toujours des soucis avec l'indexation. Le problème se produit la
nuit. Mais nous n'avons aucune information supplémentaire nous indiquant les
taches bloquantes. Y a-t-il un moyen de modifier le niveau des logs ?

> les erreurs que vous obtenez dans le fichier catalina.out semblent indiquer

un problème d'exposition du webservice.

Ce problème est toujours d'actualité. S'agit-il des WS du module d'indexation
ou d'un autre module ?

Merci pour votre aide

Véronique PELLEAU

yannickcaillaux
Bonjour,

le niveau de logs se modifie via le fichier log4j.properties. Ceci
nécessite également le redéploiement du module.

Par ailleurs le crawler web est-il lancé toutes les nuits?

Cordialement

Yannick

Le 22/07/2010 07:33, PELLEAU Véronique a écrit :

> Bonjour,
>
> Nous avons toujours des soucis avec l'indexation. Le problème se produit la
> nuit. Mais nous n'avons aucune information supplémentaire nous indiquant les
> taches bloquantes. Y a-t-il un moyen de modifier le niveau des logs ?
>

>> les erreurs que vous obtenez dans le fichier catalina.out semblent indiquer

> un problème d'exposition du webservice.
>
> Ce problème est toujours d'actualité. S'agit-il des WS du module d'indexation
> ou d'un autre module ?
>
> Merci pour votre aide
>
> Véronique PELLEAU

yannickcaillaux
Bonjour,

les erreurs que vous obtenez dans le fichier catalina.out semblent
indiquer un problème d'exposition du webservice.

Aussi il faut bien différencier le gestionnaire de liens brisés et le
crawler web.
Le crawler web ne peut être lancé que si le gestionnaire de liens
brisés a été lancé précédemment.
Donc la valeur : "INDEXING_SCHEDULE_CRAWLER= " doit être remplie pour
lancer le gestionnaire car la valeur "INDEXING_CRAWLER_FULL_TEXT=true"
ne sert pas si la valeur précédente n'est pas remplie.

Enfin concernant votre charge de CPU il faudrait déterminer à quel
moment cela se produit (démarrage du tomcat, première utilisation du
module, lancement du gestionnaire de liens...)

Cordialement

Yannick

veronique pelleau < > a écrit :

> Bonjour,
>
> Nous avons remarqué que le module d'indexation utilisait quasiment
> 100% de la CPU allouée !!!
>
> Il y a dans le fichier catalina.out (que je vous joins) un certain
> nombre d'erreurs. Ces erreurs seraient-elles la cause de
> l'utilisation excessive de la CPU ?
>
> Les paramètres pour le module d'indexation dans le fichier
> commons-properties sont les suivants :
> # Nom du contexte choisi pour le déploiement de ori-oai-indexing
> CONTEXT_INDEXING=ori-oai-indexing
>
> # Planification du gestionnaire de liens. Ce gestionnaire permet de
> détecter les liens morts.
> # A NOTER : si le paramètre [INDEXING_CRAWLER_FULL_TEXT], plus bas,
> est à true, le crawler web
> # démarrera dans la foulée et indexera le plein texte des documents
> référencés.
> # Cet élément indique la date et l'heure à laquelle le gestionnaire
> de liens se lancera.
> # L'exemple suivant permet de lancer la tâche tous les soirs à 23h00
> et 0 secondes.
> # Pour plus d'informations veuillez consulter le lien suivant :
> # http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html
> INDEXING_SCHEDULE_CRAWLER=
> # INDEXING_SCHEDULE_CRAWLER=0 00 23 * * ?
>
> # Indique si le crawler doit indexer ou non le plein texte des
> documents référencés.
> # Les valeurs possibles sont true ou false.
> # ATTENTION : si la valeur est true, le crawler sera automatiquement
> démarré dans la foulée
> # du gestionnaire de liens.
> INDEXING_CRAWLER_FULL_TEXT=true
>
> En parcourant la doc du module indexing, nous avons vu que nous
> pouvions configurer le système de crawling et indiquer les entrepôts
> et les url à ne pas crawler (paramètre doNotCrawl et urlsToNotCrawl
> dans le fichier configIndexing.xml). Est-il judicieux de crawler les
> fiches moissonnées ?
>
> Merci pour l'aide que vous pourrez m'apporter
>
> Véronique
>
> --
> This message has been scanned for viruses and
> dangerous content by MailScanner, and is
> believed to be clean.
>
>
>
>

veroniquepelleau
Bonjour,

Nous avons remarqué que le module d'indexation utilisait quasiment 100% de la CPU allouée !!!

Il y a dans le fichier catalina.out (que je vous joins) un certain nombre d'erreurs. Ces erreurs seraient-elles la cause de l'utilisation excessive de la CPU ?

Les paramètres pour le module d'indexation dans le fichier commons-properties sont les suivants :
# Nom du contexte choisi pour le déploiement de ori-oai-indexing
CONTEXT_INDEXING=ori-oai-indexing

# Planification du gestionnaire de liens. Ce gestionnaire permet de détecter les liens morts.
# A NOTER : si le paramètre [INDEXING_CRAWLER_FULL_TEXT], plus bas, est à true, le crawler web
# démarrera dans la foulée et indexera le plein texte des documents référencés.
# Cet élément indique la date et l'heure à laquelle le gestionnaire de liens se lancera.
# L'exemple suivant permet de lancer la tâche tous les soirs à 23h00 et 0 secondes.
# Pour plus d'informations veuillez consulter le lien suivant :
# http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html
INDEXING_SCHEDULE_CRAWLER=
# INDEXING_SCHEDULE_CRAWLER=0 00 23 * * ?

# Indique si le crawler doit indexer ou non le plein texte des documents référencés.
# Les valeurs possibles sont true ou false.
# ATTENTION : si la valeur est true, le crawler sera automatiquement démarré dans la foulée
# du gestionnaire de liens.
INDEXING_CRAWLER_FULL_TEXT=true

En parcourant la doc du module indexing, nous avons vu que nous pouvions configurer le système de crawling et indiquer les entrepôts et les url à ne pas crawler (paramètre doNotCrawl et urlsToNotCrawl dans le fichier configIndexing.xml). Est-il judicieux de crawler les fiches moissonnées ?

Merci pour l'aide que vous pourrez m'apporter

Véronique

Options d'affichage des commentaires

Sélectionnez la méthode d'affichage des commentaires que vous préférez, puis cliquez sur « Enregistrer les paramètres » pour activer vos changements.
Sujet clos