Lenteur module d'indexation

user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:b97fae464b79653d2f37a0400e45ad14' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,\nNous avons toujours des soucis avec l\'indexation. Le problème se produit la \nnuit. Mais nous n\'avons aucune information supplémentaire nous indiquant les \ntaches bloquantes. Y a-t-il un moyen de modifier le niveau des logs ?\n<div class=\"emailFilter_Toggle\">\n<blockquote class=\"emailFilter_Author_0\">> les erreurs que vous obtenez dans le fichier catalina.out semblent indiquer</div>\n</blockquote>\nun problème d\'exposition du webservice. \nCe problème est toujours d\'actualité. S\'agit-il des WS du module d\'indexation \nou d\'un autre module ?\nMerci pour votre aide\nVéronique PELLEAU\n</div>\n', created = 1507753906, expire = 1507840306, headers = '', serialized = 0 WHERE cid = '4:b97fae464b79653d2f37a0400e45ad14' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:a4b504031b0c14c21a20da3fb178a374' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"> Bonjour,\nle niveau de logs se modifie via le fichier log4j.properties. Ceci \nnécessite également le redéploiement du module.\nPar ailleurs le crawler web est-il lancé toutes les nuits?\nCordialement\nYannick\nLe 22/07/2010 07:33, PELLEAU Véronique a écrit : \n<div class=\"emailFilter_Toggle\">\n<blockquote class=\"emailFilter_Author_0\">> Bonjour, \n> \n> Nous avons toujours des soucis avec l\'indexation. Le problème se produit la \n> nuit. Mais nous n\'avons aucune information supplémentaire nous indiquant les \n> taches bloquantes. Y a-t-il un moyen de modifier le niveau des logs ? \n></blockquote>\n<blockquote class=\"emailFilter_Author_1\">>> les erreurs que vous obtenez dans le fichier catalina.out semblent indiquer</blockquote>\n<blockquote class=\"emailFilter_Author_0\">> un problème d\'exposition du webservice. \n> \n> Ce problème est toujours d\'actualité. S\'agit-il des WS du module d\'indexation \n> ou d\'un autre module ? \n> \n> Merci pour votre aide \n> \n> Véronique PELLEAU</div>\n</blockquote>\n</div>\n', created = 1507753907, expire = 1507840307, headers = '', serialized = 0 WHERE cid = '4:a4b504031b0c14c21a20da3fb178a374' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:797fc4ffeae785dd30d4ce45c549ea31' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,\nles erreurs que vous obtenez dans le fichier catalina.out semblent \nindiquer un problème d\'exposition du webservice.\nAussi il faut bien différencier le gestionnaire de liens brisés et le \ncrawler web. \nLe crawler web ne peut être lancé que si le gestionnaire de liens \nbrisés a été lancé précédemment. \nDonc la valeur : \"INDEXING_SCHEDULE_CRAWLER= \" doit être remplie pour \nlancer le gestionnaire car la valeur \"INDEXING_CRAWLER_FULL_TEXT=true\" \nne sert pas si la valeur précédente n\'est pas remplie.\nEnfin concernant votre charge de CPU il faudrait déterminer à quel \nmoment cela se produit (démarrage du tomcat, première utilisation du \nmodule, lancement du gestionnaire de liens...)\nCordialement\nYannick\nveronique pelleau <\n <script type=\"text/javascript\" >  </script>> a écrit :\n<div class=\"emailFilter_Toggle\">\n<blockquote class=\"emailFilter_Author_0\">> Bonjour, \n> \n> Nous avons remarqué que le module d\'indexation utilisait quasiment \n> 100% de la CPU allouée !!! \n> \n> Il y a dans le fichier catalina.out (que je vous joins) un certain \n> nombre d\'erreurs. Ces erreurs seraient-elles la cause de \n> l\'utilisation excessive de la CPU ? \n> \n> Les paramètres pour le module d\'indexation dans le fichier \n> commons-properties sont les suivants : \n> # Nom du contexte choisi pour le déploiement de ori-oai-indexing \n> CONTEXT_INDEXING=ori-oai-indexing \n> \n> # Planification du gestionnaire de liens. Ce gestionnaire permet de \n> détecter les liens morts. \n> # A NOTER : si le paramètre [INDEXING_CRAWLER_FULL_TEXT], plus bas, \n> est à true, le crawler web \n> # démarrera dans la foulée et indexera le plein texte des documents \n> référencés. \n> # Cet élément indique la date et l\'heure à laquelle le gestionnaire \n> de liens se lancera. \n> # L\'exemple suivant permet de lancer la tâche tous les soirs à 23h00 \n> et 0 secondes. \n> # Pour plus d\'informations veuillez consulter le lien suivant : \n> # <a href=\"http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html\" title=\"http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html\">http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html</a> \n> INDEXING_SCHEDULE_CRAWLER= \n> # INDEXING_SCHEDULE_CRAWLER=0 00 23 * * ? \n> \n> # Indique si le crawler doit indexer ou non le plein texte des \n> documents référencés. \n> # Les valeurs possibles sont true ou false. \n> # ATTENTION : si la valeur est true, le crawler sera automatiquement \n> démarré dans la foulée \n> # du gestionnaire de liens. \n> INDEXING_CRAWLER_FULL_TEXT=true \n> \n> En parcourant la doc du module indexing, nous avons vu que nous \n> pouvions configurer le système de crawling et indiquer les entrepôts \n> et les url à ne pas crawler (paramètre doNotCrawl et urlsToNotCrawl \n> dans le fichier configIndexing.xml). Est-il judicieux de crawler les \n> fiches moissonnées ? \n> \n> Merci pour l\'aide que vous pourrez m\'apporter \n> \n> Véronique \n> \n> -- \n> This message has been scanned for viruses and \n> dangerous content by MailScanner, and is \n> believed to be clean. \n> \n> \n> \n></div>\n</blockquote>\n</div>\n', created = 1507753907, expire = 1507840307, headers = '', serialized = 0 WHERE cid = '4:797fc4ffeae785dd30d4ce45c549ea31' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:d57d408f399ad90aac5cd1c3b454b71e' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,\nNous avons remarqué que le module d\'indexation utilisait quasiment 100% de la CPU allouée !!!\nIl y a dans le fichier catalina.out (que je vous joins) un certain nombre d\'erreurs. Ces erreurs seraient-elles la cause de l\'utilisation excessive de la CPU ?\nLes paramètres pour le module d\'indexation dans le fichier commons-properties sont les suivants : \n# Nom du contexte choisi pour le déploiement de ori-oai-indexing \nCONTEXT_INDEXING=ori-oai-indexing\n# Planification du gestionnaire de liens. Ce gestionnaire permet de détecter les liens morts. \n# A NOTER : si le paramètre [INDEXING_CRAWLER_FULL_TEXT], plus bas, est à true, le crawler web \n# démarrera dans la foulée et indexera le plein texte des documents référencés. \n# Cet élément indique la date et l\'heure à laquelle le gestionnaire de liens se lancera. \n# L\'exemple suivant permet de lancer la tâche tous les soirs à 23h00 et 0 secondes. \n# Pour plus d\'informations veuillez consulter le lien suivant : \n# <a href=\"http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html\" title=\"http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html\">http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html</a> \nINDEXING_SCHEDULE_CRAWLER= \n# INDEXING_SCHEDULE_CRAWLER=0 00 23 * * ?\n# Indique si le crawler doit indexer ou non le plein texte des documents référencés. \n# Les valeurs possibles sont true ou false. \n# ATTENTION : si la valeur est true, le crawler sera automatiquement démarré dans la foulée \n# du gestionnaire de liens. \nINDEXING_CRAWLER_FULL_TEXT=true\nEn parcourant la doc du module indexing, nous avons vu que nous pouvions configurer le système de crawling et indiquer les entrepôts et les url à ne pas crawler (paramètre doNotCrawl et urlsToNotCrawl dans le fichier configIndexing.xml). Est-il judicieux de crawler les fiches moissonnées ?\nMerci pour l\'aide que vous pourrez m\'apporter\nVéronique\n</div>\n', created = 1507753907, expire = 1507840307, headers = '', serialized = 0 WHERE cid = '4:d57d408f399ad90aac5cd1c3b454b71e' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.

4 messages / 0 nouveaux

Sujet clos

Dernière contribution

22 juillet 2010 - 7:33am

veroniquepelleau

Lenteur module d'indexation

Bonjour,

Nous avons toujours des soucis avec l'indexation. Le problème se produit la
nuit. Mais nous n'avons aucune information supplémentaire nous indiquant les
taches bloquantes. Y a-t-il un moyen de modifier le niveau des logs ?

> les erreurs que vous obtenez dans le fichier catalina.out semblent indiquer

un problème d'exposition du webservice.

Ce problème est toujours d'actualité. S'agit-il des WS du module d'indexation
ou d'un autre module ?

Merci pour votre aide

Véronique PELLEAU

30 août 2010 - 1:36pm

yannickcaillaux

Bonjour,

le niveau de logs se modifie via le fichier log4j.properties. Ceci
nécessite également le redéploiement du module.

Par ailleurs le crawler web est-il lancé toutes les nuits?

Cordialement

Yannick

Le 22/07/2010 07:33, PELLEAU Véronique a écrit :

> Bonjour,
>
> Nous avons toujours des soucis avec l'indexation. Le problème se produit la
> nuit. Mais nous n'avons aucune information supplémentaire nous indiquant les
> taches bloquantes. Y a-t-il un moyen de modifier le niveau des logs ?
>

>> les erreurs que vous obtenez dans le fichier catalina.out semblent indiquer

> un problème d'exposition du webservice.
>
> Ce problème est toujours d'actualité. S'agit-il des WS du module d'indexation
> ou d'un autre module ?
>
> Merci pour votre aide
>
> Véronique PELLEAU

19 juillet 2010 - 10:00am

yannickcaillaux

Bonjour,

les erreurs que vous obtenez dans le fichier catalina.out semblent
indiquer un problème d'exposition du webservice.

Aussi il faut bien différencier le gestionnaire de liens brisés et le
crawler web.
Le crawler web ne peut être lancé que si le gestionnaire de liens
brisés a été lancé précédemment.
Donc la valeur : "INDEXING_SCHEDULE_CRAWLER= " doit être remplie pour
lancer le gestionnaire car la valeur "INDEXING_CRAWLER_FULL_TEXT=true"
ne sert pas si la valeur précédente n'est pas remplie.

Enfin concernant votre charge de CPU il faudrait déterminer à quel
moment cela se produit (démarrage du tomcat, première utilisation du
module, lancement du gestionnaire de liens...)

Cordialement

Yannick

veronique pelleau < > a écrit :

> Bonjour,
>
> Nous avons remarqué que le module d'indexation utilisait quasiment
> 100% de la CPU allouée !!!
>
> Il y a dans le fichier catalina.out (que je vous joins) un certain
> nombre d'erreurs. Ces erreurs seraient-elles la cause de
> l'utilisation excessive de la CPU ?
>
> Les paramètres pour le module d'indexation dans le fichier
> commons-properties sont les suivants :
> # Nom du contexte choisi pour le déploiement de ori-oai-indexing
> CONTEXT_INDEXING=ori-oai-indexing
>
> # Planification du gestionnaire de liens. Ce gestionnaire permet de
> détecter les liens morts.
> # A NOTER : si le paramètre [INDEXING_CRAWLER_FULL_TEXT], plus bas,
> est à true, le crawler web
> # démarrera dans la foulée et indexera le plein texte des documents
> référencés.
> # Cet élément indique la date et l'heure à laquelle le gestionnaire
> de liens se lancera.
> # L'exemple suivant permet de lancer la tâche tous les soirs à 23h00
> et 0 secondes.
> # Pour plus d'informations veuillez consulter le lien suivant :
> # http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html
> INDEXING_SCHEDULE_CRAWLER=
> # INDEXING_SCHEDULE_CRAWLER=0 00 23 * * ?
>
> # Indique si le crawler doit indexer ou non le plein texte des
> documents référencés.
> # Les valeurs possibles sont true ou false.
> # ATTENTION : si la valeur est true, le crawler sera automatiquement
> démarré dans la foulée
> # du gestionnaire de liens.
> INDEXING_CRAWLER_FULL_TEXT=true
>
> En parcourant la doc du module indexing, nous avons vu que nous
> pouvions configurer le système de crawling et indiquer les entrepôts
> et les url à ne pas crawler (paramètre doNotCrawl et urlsToNotCrawl
> dans le fichier configIndexing.xml). Est-il judicieux de crawler les
> fiches moissonnées ?
>
> Merci pour l'aide que vous pourrez m'apporter
>
> Véronique
>
> --
> This message has been scanned for viruses and
> dangerous content by MailScanner, and is
> believed to be clean.
>
>
>
>

19 juillet 2010 - 7:34am

veroniquepelleau

Bonjour,

Nous avons remarqué que le module d'indexation utilisait quasiment 100% de la CPU allouée !!!

Il y a dans le fichier catalina.out (que je vous joins) un certain nombre d'erreurs. Ces erreurs seraient-elles la cause de l'utilisation excessive de la CPU ?

Les paramètres pour le module d'indexation dans le fichier commons-properties sont les suivants :
# Nom du contexte choisi pour le déploiement de ori-oai-indexing
CONTEXT_INDEXING=ori-oai-indexing

# Planification du gestionnaire de liens. Ce gestionnaire permet de détecter les liens morts.
# A NOTER : si le paramètre [INDEXING_CRAWLER_FULL_TEXT], plus bas, est à true, le crawler web
# démarrera dans la foulée et indexera le plein texte des documents référencés.
# Cet élément indique la date et l'heure à laquelle le gestionnaire de liens se lancera.
# L'exemple suivant permet de lancer la tâche tous les soirs à 23h00 et 0 secondes.
# Pour plus d'informations veuillez consulter le lien suivant :
# http://quartz.sourceforge.net/javadoc/org/quartz/CronTrigger.html
INDEXING_SCHEDULE_CRAWLER=
# INDEXING_SCHEDULE_CRAWLER=0 00 23 * * ?

# Indique si le crawler doit indexer ou non le plein texte des documents référencés.
# Les valeurs possibles sont true ou false.
# ATTENTION : si la valeur est true, le crawler sera automatiquement démarré dans la foulée
# du gestionnaire de liens.
INDEXING_CRAWLER_FULL_TEXT=true

En parcourant la doc du module indexing, nous avons vu que nous pouvions configurer le système de crawling et indiquer les entrepôts et les url à ne pas crawler (paramètre doNotCrawl et urlsToNotCrawl dans le fichier configIndexing.xml). Est-il judicieux de crawler les fiches moissonnées ?

Merci pour l'aide que vous pourrez m'apporter

Véronique

Sujet clos

Valoriser le patrimoine numérique scientifique, pédagogique et documentaire des universités et le partager par un réseau de portails communicants en OAI

Traduction auto Google

Aide

Options d'affichage des commentaires