Je n'ai malheureusement plus les logs du module indexing. Mais j'ai suivi la procédure telle que vous la décrivez pour retrouver un index "propre". Ce que je sais désormais, c'est que l'index est bloqué quand le job de gestion de liens et de crawling est lancé, lequel, dans sa configuration initiale, effectuait une indexation plein texte qui, d'une part, était extrêmement longue et, d'autre part, renvoyait une tonne d'erreur sur les documents eux-mêmes. J'ai donc réduit la tâche à la seule gestion de liens que je voudrais programmer afin que celle-ci ne se lance pas tous les jours mais une à deux fois par semaine (je pense que, dans notre cas, c'est suffisant et on verra ensuite à l'usage). Depuis que j'ai modifié cette configuration, tout se passe bien au niveau de l'indexing et du harvester, en tous les cas, je n'ai pas l'impression qu'ils continuent à se marcher sur les pieds.
Bien cordialement
Stéphane Loret
MSH - Tours
Crévilles.org
Le 21/01/11 09:23, Yohan Colmant a écrit :
Bonjour,
Effectivement, on dirait que l'erreur se passe du côté de l'indexing.
Est-ce que vous avez des logs en erreur dans ce module au moment où vous tentez de supprimer la récolte ?
Je me demande si votre précédent test n'a pas corrompu l'index. En effet, ce n'est pas forcément un cas d'utilisation que nous avions prévu : vous avez tenté de supprimer des fiches en cours de mise à jour (le crawling fait une mise à jour de la fiche dans l'index).
Nous avons noté ce point comme important à régler dans les tâches de développement de la V2 pour ne plus que ça se produise dans cette nouvelle version.
Pour voir si le soucis vient de là, vous pouvez :
1) réinitialiser l'index depuis l'IHM de l'indexing
2) relancer la réindexation depuis l'IHM du harvester
3) tenter de supprimer une récolte
* 1) et 2) permettent de repartir sur un index propre et non corrompu si le problème venait de là.
Cordialement,
Yohan COLMANT
Direction des Systèmes d'Information
UVHC - Université de Valenciennes et du Hainaut Cambrésis
Coordinateur Technique du projet ORI-OAI
Le 17/01/2011 18:15, sdjloret@free.fr a écrit :Bonjour, J'ai relancé les deux tomcat (l'un pour harvester, l'autre pour les autres modules). Tout se passe bien. J'ai relancé la moisson sur la couche qui nous intéresse, là aussi, çà passe, le processus arrive à son terme. Mais quand je veux supprimer la moisson, j'ai encore cette erreur : 17 janv. 2011 18:02:13,859 [ERROR] catalina-exec-4 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:3842 index entry 17 janv. 2011 18:02:13,859 [ERROR] catalina-exec-4 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:3842 index entry 17 janv. 2011 18:02:13,867 [ERROR] catalina-exec-4 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:3843 index entry 17 janv. 2011 18:02:13,867 [ERROR] catalina-exec-4 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:3843 index entry 17 janv. 2011 18:02:13,875 [ERROR] catalina-exec-4 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:3846 index entry 17 janv. 2011 18:02:13,875 [ERROR] catalina-exec-4 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:3846 index entry 17 janv. 2011 18:02:13,883 [ERROR] catalina-exec-4 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:3844 index entry 17 janv. 2011 18:02:13,884 [ERROR] catalina-exec-4 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:3844 index entry Alors que le gestionnaire de liens et le crawler sont à l'arrêt après que le module ait bien indexé les quelques notices rapatriées de la précédente moisson. L'erreur montre bien qu'il y a un souci au niveau de la suppression des items. Je ne vois pas où çà cloche. Bien cordialement Stéphane Loret MSH - Tours Crévilles.org ----- Mail Original ----- De: sdjloret@free.fr À: ori-oai-utilisateurs@listes.univ-rennes1.fr Envoyé: Lundi 17 Janvier 2011 17h36:15 GMT +01:00 Amsterdam / Berlin / Berne / Rome / Stockholm / Vienne Objet: Re: [ori-oai-utilisateurs] Problème de suppression de moisson Merci pour la réponse. J'ai retenté la suppression et j'ai le même résultat. Donc je pense aussi que cela provient du module indexing. Mon autre souci est donc au niveau de la gestion des liens et du crawler : celui-ci est en fonctionnement depuis pas mal de temps et reste "planté" à 1%. Nous avons, à l'heure actuelle 2300 notices provenant de deux sources de moissons. Dans le log du module ori-oai-indexing, j'ai çà : INFO janv./16 23:22:39 org.orioai.indexing.optimisation.OptimisationThread :: OptimisationThread.run :: Optimisation de l'index via le thread INFO janv./17 00:05:39 org.orioai.indexing.optimisation.OptimisationThread :: OptimisationThread.run :: Optimisation de l'index via le thread INFO janv./17 00:41:39 org.orioai.indexing.optimisation.OptimisationThread :: OptimisationThread.run :: Optimisation de l'index via le thread INFO janv./17 01:13:39 org.orioai.indexing.optimisation.OptimisationThread :: OptimisationThread.run :: Optimisation de l'index via le thread INFO janv./17 01:50:40 org.orioai.indexing.optimisation.OptimisationThread :: OptimisationThread.run :: Optimisation de l'index via le thread Si je comprends bien le message, les taches d'optimisation de l'index se lancent bien et ce depuis le 14 janvier où nous avions du relancer l'application. Mais je ne vois pas pourquoi il s'est arrêté à 1:50 ce jour, bien que, dans catalina.out, je remarque qu'à cette date et à cette heure précise j'ai çà : ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 34 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-symbol.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 34 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-symbol.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 29 of document http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server ERROR [pool-2-thread-2] - Error on line 2: External entity not found: MailScanner soupçonne le lien suivant d'être une tentative de fraude de la part de "www.w3.org" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd".: Unexpected end of file from server WARN [pool-2-thread-2] - Going to buffer response body of large or unknown size. Using getResponseBodyAsStream instead is recommended. INFO [pool-2-thread-2] - URI problem with current link 'http://halshs.archives-ouvertes.fr/halshs-00146195/en/' and new link '', 'YMUX50:VQ30YQKY0ZZQ5J6ZU7L1M3U4LQ45KR3', '' org.apache.commons.httpclient.URIException: incorrect scheme at org.apache.commons.httpclient.URI.parseUriReference(URI.java:1952) at org.apache.commons.httpclient.URI.<init>(URI.java:167) at org.apache.commons.httpclient.URI.<init>(URI.java:455) at com.torunski.crawler.util.LinksUtil.getURI(Unknown Source) at com.torunski.crawler.util.LinksUtil.retrieveLinks(Unknown Source) at com.torunski.crawler.util.LinksUtil$1.retrieveLinks(Unknown Source) at com.torunski.crawler.parser.httpclient.SimpleHttpClientParser.parse(Unknown Source) at com.torunski.crawler.Crawler.start(Unknown Source) at com.torunski.crawler.Crawler.start(Unknown Source) at org.orioai.indexing.crawler.CrawlingThread.run(Unknown Source) at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) at java.lang.Thread.run(Thread.java:662) Si je comprends bien là aussi, le crawler a rencontré des problèmes au moment où il attaquait les notices rapatriées du dépôt de Hal-Shs à cause d'une url qui pose problème. La suite du log est du même tonneau. Enfin, le log se termine par çà : 271423676 janv./17 14:47:05 INFO cache.OriNameMatchCachingInterceptor run[261] - synchronized put in cache : .public abstract java.lang.String org.orioai.ws.vocabulary.IVocabularyService.getVocabulary(java.lang.String).search_formats Retrieving document at 'null'. Ma question est la suivante : où peut-on modifier le lancement automatique de la gestion des liens et du crawler ? Peut-on envisager de le lancer qu'une seule fois dans la nuit après une dernière moisson sur une couche que l'on souhaite moissonner tous les jours ? Bien à vous Stéphane Loret MSH - Tours Crévilles.org ----- Mail Original ----- De: "Francois Jannin" < > À: ori-oai-utilisateurs@listes.univ-rennes1.fr Envoyé: Lundi 17 Janvier 2011 16h52:29 GMT +01:00 Amsterdam / Berlin / Berne / Rome / Stockholm / Vienne Objet: Re: [ori-oai-utilisateurs] Problème de suppression de moisson Bonjour, D'après les logs l'invocation des webservices de l'indexing ne fonctionne pas, cela vient peut-être en effet du fait que le crawler verouille l'indexe à ce moment-là : à verifier toutefois dans les logs de l'indexing. Dans ce cas là, il faudrait vous arranger pour ne pas moissonner pendant le cron du crawling. Cordialement, François Jannin Le 17/01/2011 15:40, sdjloret@free.fr a écrit : Bonjour, Je tente de supprimer une moisson à partir de l'interface en cliquant sur l'icone poubelle de l'onglet récoltes à la hauteur du dépôt que je souhaite supprimer. Une fois cliqué, rien ne se passe et j'ai une erreur dans ori-harvester.log 17 janv. 2011 14:58:31,179 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:102 index entry 17 janv. 2011 14:58:31,187 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:104 index entry 17 janv. 2011 14:58:31,187 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:104 index entry 17 janv. 2011 14:58:31,195 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:109 index entry 17 janv. 2011 14:58:31,195 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:109 index entry 17 janv. 2011 14:58:31,202 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:3755 index entry 17 janv. 2011 14:58:31,203 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:3755 index entry 17 janv. 2011 14:58:31,211 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:111 index entry 17 janv. 2011 14:58:31,211 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:111 index entry 17 janv. 2011 14:58:31,218 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:396 index entry 17 janv. 2011 14:58:31,219 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:396 index entry 17 janv. 2011 14:58:31,226 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker getUnindexingResult - indexing return error code while indexing / updating oai:oai.crevilles.org:458 index entry 17 janv. 2011 14:58:31,227 [ERROR] catalina-exec-14 org.orioai.harvesting.domain.service.ORIIndexerInvoker deleteRecord - an error occured deleting oai:oai.crevilles.org:458 index entry La récolte est encore là. Je suis allé dans le module indexing et le crawler était en fonctionnement, est-ce que l'erreur peut provenir de cela ? Bien cordialement Stéphane Loret MSH - Tours Crévilles.org