Caractères spéciaux Lucene dans un champs indéxé

user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:d19b9ea2b247f1879d4d49edf2620f81' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour à tous,\nNous harvestons et indexons des records OAI dont le <dc:subject> se trouve \nêtre de la forme [A:B].\nDans le cadre du module search, nous souhaitons pouvoir utiliser un vocabulaire \npour classer nos records en fonction de la valeur du <dc:subject>. Les \ncaractères [ ] : étant réservés dans le cadre des requêtes Lucene, nous \nn\'arrivons malheureusement pas à nos fins. Nous avons essayés de les \n\"escaper\" sans grand succès.\nRequête qui marche en utilisant Luke directement sur l\'index Lucene : \n%2F%2Fdc%3Asubject:(\\[A\\:B\\]*)\nLa même requête via la page \n<a href=\"http://localhost:8182/ori-oai-indexing/search.html\" title=\"http://localhost:8182/ori-oai-indexing/search.html\">http://localhost:8182/ori-oai-indexing/search.html</a> ne renvoie aucun résultat.\nExample de terme du vocabulaire (qui ne marche pas donc) : \n<vdex:term validIndex=\"true\"> \n <vdex:termIdentifier>A:B</vdex:termIdentifier> \n <vdex:caption> \n <vdex:langstring language=\"fr\">Foo</vdex:langstring> \n </vdex:caption> \n <vdex:metadata> \n <orioai:value>\\[A\\:B\\]*</orioai:value> \n </vdex:metadata> \n</vdex:term>\nNous aurions souhaité savoir comment formater nos vocabulaires pour contourner \nce problème.\nEn vous remerciant par avance, \nRomain\n</div>\n', created = 1507753886, expire = 1507840286, headers = '', serialized = 0 WHERE cid = '4:d19b9ea2b247f1879d4d49edf2620f81' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:bbb777ddb9c743ab841b04150ee59963' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">\n<html>\n <head>\n <meta content=\"text/html; charset=UTF-8\" http-equiv=\"Content-Type\">\n </head>\n <body text=\"#000000\" bgcolor=\"#ffffff\">\n Bonjour, \n \n Je reviens sur cet échange. \n Est-ce que ça fonctionne maintenant dans les recherches ? \n \n En revanche, j\'ai l\'impression que vous devez avoir des soucis\n avec cette config. \n En effet, je crois que [ et ] ne doivent pas être remplacé par\n le même caractère pour que ça fonctionne. \n Là vous remplacer [ et ] par _ \n \n Noter qu\'un caractère type [ peut être remplacé par une string. \n Donc par exemple : \n - remplacer [ par op_ \n - : par @ \n - ] par _clos \n \n Est-ce que les remplacements fonctionnent bien ? \n Est-ce que la recherche est OK ? \n \n Cdt, \n \n <div class=\"moz-signature\">\n <div class=\"moz-signature\">\n \n Yohan COLMANT \n Direction des Systèmes d\'Information \n UVHC - Université de Valenciennes et du Hainaut Cambrésis \n Coordinateur Technique du projet ORI-OAI\n \n \n </div>\n </div>\n \n Le 21/06/2011 11:13, Romain Roure a écrit :\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>Ok,\n j\'y suis!\n \n \n C\'est bien une regexp qui est utilisée (un String#replaceAll\n j\'imagine), du coup il faut escaper le crochet ouvrant. C\'est qui\n est plus surprenant, c\'est que l\'on ait pas besoin d\'escaper le\n crochet fermant!\n \n \n <replacement stringToReplace=\"\\[\" stringReplacement=\"_\">\n \n <formatId>dublin_core</formatId>\n \n <xpath>//dc:subject</xpath>\n \n </replacement>\n \n \n Encore merci,\n \n \n Romain\n \n \n On 06/21/2011 11:05 AM, Romain Roure wrote:\n \n <div class=\"emailFilter_Author_1\"><blockquote type=\"cite\">Tout d\'abord, merci pour tes réponses.\n \n \n La regexp ne donne rien, aucune substitution n\'est appliquée.\n \n J\'ai vraiment l\'impression que c\'est le crochet ouvrant qui pose\n soucis. Si je définis 2 \"replacements\" sur \']\' et \':\' , ca\n marche. Par contre, un unique \"replacement\" sur \'[\' ne\n fonctionne pas.\n \n \n Une info importante (que j\'ai oubliée de mentionner!) : je\n tourne en 1.5.\n \n \n Romain\n \n \n \n On 06/21/2011 10:14 AM, Francois Jannin wrote:\n \n <div class=\"emailFilter_Author_2\"><blockquote type=\"cite\">Bonjour,\n \n \n Il se peut après examen du code, que le mécanisme ne prévoie\n qu\'une substitution par xpath.\n \n Vous pouvez essayer en utilisant une seule substitution avec\n une expression régulière \"ou\"\n \n \n <replacement stringToReplace=\"[|]\"\n stringReplacement=\"_\">\n \n <formatId>dublin_core</formatId>\n \n <xpath>//dc:subject[0]</xpath>\n \n </replacement>\n \n Dites-moi si ça marche.\n \n \n François\n \n \n Le 20/06/2011 10:59, Romain Roure a écrit :\n \n <div class=\"emailFilter_Author_3\"><blockquote type=\"cite\">Bonjour Francois,\n \n \n J\'ai bien rajouté des \"replacements\" pour les caractères\n réservés [ ] :\n \n Après réindexation des fiches, l\'index m\'affiche des\n résultats de la forme [A_B_ ( à l\'origine [A:B] ). Il semble\n que la substitution du caractère [ ne soit pas prise en\n compte.\n \n Le fichier configIndexing.xml ne contient aucun autre\n \"replacement\" sur le crochet ouvrant qui pourrait rentrer en\n conflit avec celui déclaré pour le dc:subject.\n \n \n Si vous avez une idée, je suis preneur.\n \n \n Merci encore,\n \n \n Romain\n \n \n On 06/15/2011 10:49 AM, Francois Jannin wrote:\n \n <div class=\"emailFilter_Author_4\"><blockquote type=\"cite\">Bonjour,\n \n \n Vous pouvez tenter d\'utiliser la substitution de\n caractères, utilisée par ailleurs pour certains caractères\n reservés (dans le fichier configIndexing.xml) :\n \n \n <replacement stringToReplace=\":\"\n stringReplacement=\"_\">\n \n <formatId>pedagogique</formatId>\n \n<xpath>//lom:general/lom:identifier/lom:entry</xpath>\n \n </replacement>\n \n \n avec par exemple (à tester/ajuster)\n \n \n <replacement stringToReplace=\"[\"\n stringReplacement=\"_\">\n \n <formatId>dublin_core</formatId>\n \n <xpath>//dc:subject</xpath>\n \n </replacement>\n \n \n <replacement stringToReplace=\"]\"\n stringReplacement=\"_\">\n \n <formatId>dublin_core</formatId>\n \n <xpath>//dc:subject</xpath>\n \n </replacement>\n \n \n Il faut, pour que le test soit probant, réindexer vos\n fiches par contre.\n \n \n François\n \n \n \n Le 10/06/2011 11:16, <a class=\"moz-txt-link-abbreviated\" href=\"mailto:romain.roure@univ-toulouse.fr\">romain.roure@univ-toulouse.fr</a> a écrit\n :\n \n <div class=\"emailFilter_Author_5\"><blockquote type=\"cite\">Bonjour à tous,\n \n \n Nous harvestons et indexons des records OAI dont\n le<dc:subject> se trouve\n \n être de la forme [A:B].\n \n \n Dans le cadre du module search, nous souhaitons pouvoir\n utiliser un vocabulaire\n \n pour classer nos records en fonction de la valeur\n du<dc:subject>. Les\n \n caractères [ ] : étant réservés dans le cadre des\n requêtes Lucene, nous\n \n n\'arrivons malheureusement pas à nos fins. Nous avons\n essayés de les\n \n \"escaper\" sans grand succès.\n \n \n Requête qui marche en utilisant Luke directement sur\n l\'index Lucene :\n \n %2F%2Fdc%3Asubject:(\\[A\\:B\\]*)\n \n \n La même requête via la page\n \n <a class=\"moz-txt-link-freetext\" href=\"http://localhost:8182/ori-oai-indexing/search.html\">http://localhost:8182/ori-oai-indexing/search.html</a> ne\n renvoie aucun résultat.\n \n \n Example de terme du vocabulaire (qui ne marche pas donc)\n :\n \n \n <vdex:term validIndex=\"true\">\n \n<vdex:termIdentifier>A:B</vdex:termIdentifier>\n \n <vdex:caption>\n \n <vdex:langstring\n language=\"fr\">Foo</vdex:langstring>\n \n </vdex:caption>\n \n <vdex:metadata>\n \n <orioai:value>\\[A\\:B\\]*</orioai:value>\n \n </vdex:metadata>\n \n </vdex:term>\n \n \n Nous aurions souhaité savoir comment formater nos\n vocabulaires pour contourner\n \n ce problème.\n \n \n En vous remerciant par avance,\n \n \n Romain\n \n </blockquote></div>\n \n \n -- \n \n <a class=\"moz-txt-link-rfc2396E\" href=\"http://www.inp-toulouse.fr\"><http://www.inp-toulouse.fr></a>\n \n *François Jannin*\n \n DSI - Développement et déploiement d\'applications\n \n Tél : +33 (0)5 34 32 30 51\n \n \n INP Toulouse\n \n 6 allée Emile Monso - BP 34038\n \n 31029 Toulouse cedex 4\n \n <a class=\"moz-txt-link-freetext\" href=\"http://www.inp-toulouse.fr\">http://www.inp-toulouse.fr</a>\n \n \n Avant d’imprimer ce courriel, demandez-vous si ceci est\n nécessaire.\n \n \n </blockquote></div>\n \n </blockquote></div>\n \n \n -- \n \n <a class=\"moz-txt-link-rfc2396E\" href=\"http://www.inp-toulouse.fr\"><http://www.inp-toulouse.fr></a>\n \n *François Jannin*\n \n DSI - Développement et déploiement d\'applications\n \n Tél : +33 (0)5 34 32 30 51\n \n \n INP Toulouse\n \n 6 allée Emile Monso - BP 34038\n \n 31029 Toulouse cedex 4\n \n <a class=\"moz-txt-link-freetext\" href=\"http://www.inp-toulouse.fr\">http://www.inp-toulouse.fr</a>\n \n \n Avant d’imprimer ce courriel, demandez-vous si ceci est\n nécessaire.\n \n \n </blockquote></div>\n \n </blockquote></div>\n \n \n </blockquote></div></div>\n </body>\n</html>\n</div>', created = 1507753888, expire = 1507840288, headers = '', serialized = 0 WHERE cid = '4:bbb777ddb9c743ab841b04150ee59963' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.

2 messages / 0 nouveaux

Vous devez vous connecter pour poster des commentaires

Dernière contribution

10 juin 2011 - 11:16am

romain.roure

Caractères spéciaux Lucene dans un champs indéxé

Bonjour à tous,

Nous harvestons et indexons des records OAI dont le se trouve
être de la forme [A:B].

Dans le cadre du module search, nous souhaitons pouvoir utiliser un vocabulaire
pour classer nos records en fonction de la valeur du . Les
caractères [ ] : étant réservés dans le cadre des requêtes Lucene, nous
n'arrivons malheureusement pas à nos fins. Nous avons essayés de les
"escaper" sans grand succès.

Requête qui marche en utilisant Luke directement sur l'index Lucene :
%2F%2Fdc%3Asubject:(\[A\:B\]*)

La même requête via la page
http://localhost:8182/ori-oai-indexing/search.html ne renvoie aucun résultat.

Example de terme du vocabulaire (qui ne marche pas donc) :

A:B

Foo

\[A\:B\]*

Nous aurions souhaité savoir comment formater nos vocabulaires pour contourner
ce problème.

En vous remerciant par avance,

Romain

27 juin 2011 - 9:02am

(Répondre à #7) #2

Yohan Colmant

Bonjour,

Je reviens sur cet échange.
Est-ce que ça fonctionne maintenant dans les recherches ?

En revanche, j'ai l'impression que vous devez avoir des soucis avec cette config.
En effet, je crois que [ et ] ne doivent pas être remplacé par le même caractère pour que ça fonctionne.
Là vous remplacer [ et ] par _

Noter qu'un caractère type [ peut être remplacé par une string.
Donc par exemple :
- remplacer [ par op_
- : par @
- ] par _clos

Est-ce que les remplacements fonctionnent bien ?
Est-ce que la recherche est OK ?

Cdt,

Yohan COLMANT
Direction des Systèmes d'Information
UVHC - Université de Valenciennes et du Hainaut Cambrésis
Coordinateur Technique du projet ORI-OAI

Le 21/06/2011 11:13, Romain Roure a écrit :

Ok, j'y suis!

C'est bien une regexp qui est utilisée (un String#replaceAll j'imagine), du coup il faut escaper le crochet ouvrant. C'est qui est plus surprenant, c'est que l'on ait pas besoin d'escaper le crochet fermant!

<replacement stringToReplace="\[" stringReplacement="_">
<formatId>dublin_core</formatId>
<xpath>//dc:subject</xpath>
</replacement>

Encore merci,

Romain

On 06/21/2011 11:05 AM, Romain Roure wrote:

Tout d'abord, merci pour tes réponses.

La regexp ne donne rien, aucune substitution n'est appliquée.
J'ai vraiment l'impression que c'est le crochet ouvrant qui pose soucis. Si je définis 2 "replacements" sur ']' et ':' , ca marche. Par contre, un unique "replacement" sur '[' ne fonctionne pas.

Une info importante (que j'ai oubliée de mentionner!) : je tourne en 1.5.

Romain

On 06/21/2011 10:14 AM, Francois Jannin wrote:

Bonjour,

Il se peut après examen du code, que le mécanisme ne prévoie qu'une substitution par xpath.
Vous pouvez essayer en utilisant une seule substitution avec une expression régulière "ou"

<replacement stringToReplace="[|]" stringReplacement="_">
<formatId>dublin_core</formatId>
<xpath>//dc:subject[0]</xpath>
</replacement>
Dites-moi si ça marche.

François

Le 20/06/2011 10:59, Romain Roure a écrit :

Bonjour Francois,

J'ai bien rajouté des "replacements" pour les caractères réservés [ ] :
Après réindexation des fiches, l'index m'affiche des résultats de la forme [A_B_ ( à l'origine [A:B] ). Il semble que la substitution du caractère [ ne soit pas prise en compte.
Le fichier configIndexing.xml ne contient aucun autre "replacement" sur le crochet ouvrant qui pourrait rentrer en conflit avec celui déclaré pour le dc:subject.

Si vous avez une idée, je suis preneur.

Merci encore,

Romain

On 06/15/2011 10:49 AM, Francois Jannin wrote:

Bonjour,

Vous pouvez tenter d'utiliser la substitution de caractères, utilisée par ailleurs pour certains caractères reservés (dans le fichier configIndexing.xml) :

<replacement stringToReplace=":" stringReplacement="_">
<formatId>pedagogique</formatId>
<xpath>//lom:general/lom:identifier/lom:entry</xpath>
</replacement>

avec par exemple (à tester/ajuster)

<replacement stringToReplace="[" stringReplacement="_">
<formatId>dublin_core</formatId>
<xpath>//dc:subject</xpath>
</replacement>

<replacement stringToReplace="]" stringReplacement="_">
<formatId>dublin_core</formatId>
<xpath>//dc:subject</xpath>
</replacement>

Il faut, pour que le test soit probant, réindexer vos fiches par contre.

François

Le 10/06/2011 11:16, romain.roure@univ-toulouse.fr a écrit :

Bonjour à tous,

Nous harvestons et indexons des records OAI dont le<dc:subject> se trouve
être de la forme [A:B].

Dans le cadre du module search, nous souhaitons pouvoir utiliser un vocabulaire
pour classer nos records en fonction de la valeur du<dc:subject>. Les
caractères [ ] : étant réservés dans le cadre des requêtes Lucene, nous
n'arrivons malheureusement pas à nos fins. Nous avons essayés de les
"escaper" sans grand succès.

Requête qui marche en utilisant Luke directement sur l'index Lucene :
%2F%2Fdc%3Asubject:(\[A\:B\]*)

La même requête via la page
http://localhost:8182/ori-oai-indexing/search.html ne renvoie aucun résultat.

Example de terme du vocabulaire (qui ne marche pas donc) :

<vdex:term validIndex="true">
<vdex:termIdentifier>A:B</vdex:termIdentifier>
<vdex:caption>
<vdex:langstring language="fr">Foo</vdex:langstring>
</vdex:caption>
<vdex:metadata>
<orioai:value>\[A\:B\]*</orioai:value>
</vdex:metadata>
</vdex:term>

Nous aurions souhaité savoir comment formater nos vocabulaires pour contourner
ce problème.

En vous remerciant par avance,

Romain

--

<http://www.inp-toulouse.fr>
*François Jannin*
DSI - Développement et déploiement d'applications
Tél : +33 (0)5 34 32 30 51

INP Toulouse
6 allée Emile Monso - BP 34038
31029 Toulouse cedex 4
http://www.inp-toulouse.fr

Avant d’imprimer ce courriel, demandez-vous si ceci est nécessaire.

--

<http://www.inp-toulouse.fr>
*François Jannin*
DSI - Développement et déploiement d'applications
Tél : +33 (0)5 34 32 30 51

INP Toulouse
6 allée Emile Monso - BP 34038
31029 Toulouse cedex 4
http://www.inp-toulouse.fr

Avant d’imprimer ce courriel, demandez-vous si ceci est nécessaire.

Valoriser le patrimoine numérique scientifique, pédagogique et documentaire des universités et le partager par un réseau de portails communicants en OAI

Traduction auto Google

Aide

Options d'affichage des commentaires