Recherche plein texte avec un ET booléen par défaut ? Attribut ocurSep ? etc

user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:df6e82bb13df4e13835e85f7e583e91e' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\">Bonjour,</p>\n<p>Dans les exemples fournis avec ORI-OAI, l\'attribut ocurSep de<br />\n<luceneField/> dans liusConfig.xml vaut \" \" ou \"|\".<br />\nQuelles sont les conséquences du choix d\'une valeur ou de l\'autre ?<br />\nY a t\'il d\'autres valeurs possibles ?</p>\n<p>Y a t-il un paramétrage permettant que la recherche utilise un ET<br />\nbooléen par défaut plutôt qu\'un OU ?</p>\n<p>Je n\'ai pas trouvé que la documentation de l\'API de la version 2.3.2<br />\nde Lucène alors que je cherche plutôt une documentation comme<br />\n<a href=\"http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/queryparsersyntax.html\" title=\"http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/queryparsersyntax.html\">http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/querypar...</a> )<br />\nqui puisse me renseigner directement sur les caractères échappés...<br />\net aussi sur les traitements faits sur les mots français...<br />\nAuriez-vous des pistes à m\'indiquer ?</p>\n<p>Bien cordialement,</p>\n<p>Cédric Musso</p>\n</div>\n', created = 1507755134, expire = 1507841534, headers = '', serialized = 0 WHERE cid = '4:df6e82bb13df4e13835e85f7e583e91e' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:3db49fb549519f4e6cea9be7ddf7d72a' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><html>\n <head>\n <meta content=\"text/html; charset=ISO-8859-1\"\n http-equiv=\"Content-Type\">\n </head>\n <body bgcolor=\"#FFFFFF\" text=\"#000000\">\n Bonjour,<br>\n <br>\n Concernant l\'ocurSep : si je ne me trompe pas, cet attribut est\n utilisé pour concaténer les différentes valeurs trouvées dans un\n document. Methode permettant de concatener les occurences multiples\n d\'un élément qui vont être stockées dans le meme document Lucene. Je\n ne pense pas que vous ayez à y toucher.<br>\n <br>\n Pour le ET par défaut au lieu du OU, non il n\'existe rien dans cette\n version.<br>\n La librairie Lius que nous utilisons en versions 1.x ne permet par\n cette configuration. En revanche, SOLR, qui sera utilisée dans la\n prochaine version propose cette configuration.<br>\n <br>\n Je pense que le parser n\'a pas changé entre les versions 2.3.2 et\n 3.0<br>\n La classe qui fait le traitement de la langue française dans Lius\n est une contribution extérieure qui n\'était pas fournie par défaut\n dans le package si je ne me trompe pas.<br>\n Le projet Lius ayant été arrêté, il est difficile de retrouver de la\n doc précise sur cet analyser. Mais quelles informations\n souhaiteriez-vous ?<br>\n En gros, ce que fait l\'anayser :<br>\n - supprimer de la recherche les mots vides : le, la, les, mon, ton,\n son, dans, etc. etc.<br>\n - rechercher sans tenir compte des majuscules, accents<br>\n - idem sur les pluriels<br>\n - et les verbes conjugués<br>\n Mais ce module est entièrement refondu dans la future version en\n s\'appuyant dorénavant sur SOLR.<br>\n <br>\n Cordialement,<br>\n <br>\n <div class=\"moz-signature\">\n <div class=\"moz-signature\">\n <font face=\"Verdana\"><small>\n Yohan COLMANT<br>\n Direction des Systèmes d\'Information<br>\n UVHC - Université de Valenciennes et du Hainaut Cambrésis<br>\n Coordinateur Technique du projet ORI-OAI\n </small>\n </font>\n </div>\n </div>\n <br>\n Le 22/05/2012 15:20, Cédric Musso a écrit :\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>\n <pre wrap=\"\">Bonjour,\n\n\nDans les exemples fournis avec ORI-OAI, l\'attribut ocurSep de\n<luceneField/> dans liusConfig.xml vaut \" \" ou \"|\".\nQuelles sont les conséquences du choix d\'une valeur ou de l\'autre ?\nY a t\'il d\'autres valeurs possibles ?\n\n\nY a t-il un paramétrage permettant que la recherche utilise un ET\nbooléen par défaut plutôt qu\'un OU ?\n\n\nJe n\'ai pas trouvé que la documentation de l\'API de la version 2.3.2\nde Lucène alors que je cherche plutôt une documentation comme\n<a class=\"moz-txt-link-freetext\" href=\"http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/queryparsersyntax.html\">http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/queryparsersyntax.html</a> )\nqui puisse me renseigner directement sur les caractères échappés...\net aussi sur les traitements faits sur les mots français...\nAuriez-vous des pistes à m\'indiquer ?\n\n\nBien cordialement,\n\nCédric Musso\n\n</pre>\n </blockquote></div></div>\n </body>\n</html>\n</div>', created = 1507755135, expire = 1507841535, headers = '', serialized = 0 WHERE cid = '4:3db49fb549519f4e6cea9be7ddf7d72a' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: SELECT data, created, headers, expire, serialized FROM cache_filter WHERE cid = '4:923c04d8133b77d1b49f03cd10cf73f9' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 27.
user warning: Table './drupal_www_ori_oai_org/cache_filter' is marked as crashed and last (automatic?) repair failed query: UPDATE cache_filter SET data = '<div class=\"emailFilter\"><html>\n <head>\n <meta content=\"text/html; charset=UTF-8\" http-equiv=\"Content-Type\">\n </head>\n <body bgcolor=\"#FFFFFF\" text=\"#000000\">\n Bonjour,<br>\n <br>\n Le 29/05/2012 12:23, <a class=\"moz-txt-link-abbreviated\" href=\"mailto:veronique.pierre@free.fr\">veronique.pierre@free.fr</a> a écrit :\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>\n <pre wrap=\"\">Bonjour Yohan,\n\nMerci pour toutes ces informations.\nCe que l\'on souhaitait c\'était savoir s\'il était possible de paramétrer la recherche pour que l\'opérateur par défaut soit ET et non OU. Et connaître le fonctionnement par défaut de la recherche pour pouvoir rédiger l\'aide à la recherche de notre maquette (qu\'on a rédigée entre temps du fait que l\'échéance de livraison de la maquette était la semaine dernière).\nPour le ET on a pu tester que le + devant chaque mot fonctionnait bien et on en est resté là.</pre>\n </blockquote></div></div>\n A vrai dire, on est sur une syntaxe Lucene :\n <a class=\"moz-txt-link-freetext\" href=\"http://lucene.apache.org/core/3_6_0/queryparsersyntax.html\">http://lucene.apache.org/core/3_6_0/queryparsersyntax.html</a><br>\n Donc * pour remplacer une partie du mot, ? pour un caractère<br>\n AND ou + pour faire un \"ET\" explicite<br>\n OR pour un \"OU\"<br>\n etc.<br>\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>\n <pre wrap=\"\">\nOn a pu constater que la recherche ne tenait pas compte des pluriels, </pre>\n </blockquote></div></div>\n En effet, si le mot \"maquettes\" est indexé, on pourra le retrouver\n en cherchant sur \"maquette\" ou \"maquettes\"<br>\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>\n <pre wrap=\"\">pour les conjugaisons c\'est moins clair,</pre>\n </blockquote></div></div>\n même principe<br>\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>\n <pre wrap=\"\">et dans notre maquette les mots vides ne sont pas ignorés. Ils ne semblent pas l\'être non plus dans les autres catalogues de formation sous ORI-OAI qu\'on a consultés.</pre>\n </blockquote></div></div>\n aucun mot ? Là c\'est étrange ...<br>\n une recherche sur<u><i> la maquette </i></u>ne devrait pas tenir\n compte du mot \"la\"<br>\n <br>\n Cdt<br>\n Yohan<br>\n <div class=\"emailFilter_Toggle\"><div class=\"emailFilter_Author_0\"><blockquote>\n <pre wrap=\"\">\n\nBien cordialement\n\nVéronique Pierre\nDocumentaliste indépendante\nConsultante AUF\nParis\n\n\n----- Mail original -----\nDe: \"Yohan Colmant\" <a class=\"moz-txt-link-rfc2396E\" href=\"mailto:yohan.colmant@univ-valenciennes.fr\"><<span id=\"919301b5c518c9ff00d1a59ebc883be5\"></span>\n <script type=\"text/javascript\" >  </script>></a>\nÀ: <a class=\"moz-txt-link-abbreviated\" href=\"mailto:ori-oai-utilisateurs@listes.univ-rennes1.fr\">ori-oai-utilisateurs@listes.univ-rennes1.fr</a>\nEnvoyé: Mardi 29 Mai 2012 08:44:37\nObjet: Re: [ori-oai-utilisateurs] Recherche plein texte avec un ET booléen par défaut ? Attribut ocurSep ? etc\n\nBonjour, \n\nConcernant l\'ocurSep : si je ne me trompe pas, cet attribut est utilisé pour concaténer les différentes valeurs trouvées dans un document. Methode permettant de concatener les occurences multiples d\'un élément qui vont être stockées dans le meme document Lucene. Je ne pense pas que vous ayez à y toucher. \n\nPour le ET par défaut au lieu du OU, non il n\'existe rien dans cette version. \nLa librairie Lius que nous utilisons en versions 1.x ne permet par cette configuration. En revanche, SOLR, qui sera utilisée dans la prochaine version propose cette configuration. \n\nJe pense que le parser n\'a pas changé entre les versions 2.3.2 et 3.0 \nLa classe qui fait le traitement de la langue française dans Lius est une contribution extérieure qui n\'était pas fournie par défaut dans le package si je ne me trompe pas. \nLe projet Lius ayant été arrêté, il est difficile de retrouver de la doc précise sur cet analyser. Mais quelles informations souhaiteriez-vous ? \nEn gros, ce que fait l\'anayser : \n- supprimer de la recherche les mots vides : le, la, les, mon, ton, son, dans, etc. etc. \n- rechercher sans tenir compte des majuscules, accents \n- idem sur les pluriels \n- et les verbes conjugués \nMais ce module est entièrement refondu dans la future version en s\'appuyant dorénavant sur SOLR. \n\nCordialement, \n\n\n\nYohan COLMANT \nDirection des Systèmes d\'Information \nUVHC - Université de Valenciennes et du Hainaut Cambrésis \nCoordinateur Technique du projet ORI-OAI \nLe 22/05/2012 15:20, Cédric Musso a écrit : \n\nBonjour,\n\n\nDans les exemples fournis avec ORI-OAI, l\'attribut ocurSep de\n<luceneField/> dans liusConfig.xml vaut \" \" ou \"|\".\nQuelles sont les conséquences du choix d\'une valeur ou de l\'autre ?\nY a t\'il d\'autres valeurs possibles ?\n\n\nY a t-il un paramétrage permettant que la recherche utilise un ET\nbooléen par défaut plutôt qu\'un OU ?\n\n\nJe n\'ai pas trouvé que la documentation de l\'API de la version 2.3.2\nde Lucène alors que je cherche plutôt une documentation comme <a class=\"moz-txt-link-freetext\" href=\"http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/queryparsersyntax.html\">http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/queryparsersyntax.html</a> )\nqui puisse me renseigner directement sur les caractères échappés...\net aussi sur les traitements faits sur les mots français...\nAuriez-vous des pistes à m\'indiquer ?\n\n\nBien cordialement,\n\nCédric Musso\n\n</pre>\n </blockquote></div></div>\n </body>\n</html>\n</div>', created = 1507755135, expire = 1507841535, headers = '', serialized = 0 WHERE cid = '4:923c04d8133b77d1b49f03cd10cf73f9' in /home/ori-oai/drupal/drupal-6.34/includes/cache.inc on line 112.

3 messages / 0 nouveaux

Vous devez vous connecter pour poster des commentaires

Dernière contribution

22 mai 2012 - 3:20pm

Anonyme

Recherche plein texte avec un ET booléen par défaut ? Attribut ocurSep ? etc

Bonjour,

Dans les exemples fournis avec ORI-OAI, l'attribut ocurSep de
dans liusConfig.xml vaut " " ou "|".
Quelles sont les conséquences du choix d'une valeur ou de l'autre ?
Y a t'il d'autres valeurs possibles ?

Y a t-il un paramétrage permettant que la recherche utilise un ET
booléen par défaut plutôt qu'un OU ?

Je n'ai pas trouvé que la documentation de l'API de la version 2.3.2
de Lucène alors que je cherche plutôt une documentation comme
http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/querypar... )
qui puisse me renseigner directement sur les caractères échappés...
et aussi sur les traitements faits sur les mots français...
Auriez-vous des pistes à m'indiquer ?

Bien cordialement,

Cédric Musso

29 mai 2012 - 9:00am

Yohan Colmant

Bonjour,

Concernant l'ocurSep : si je ne me trompe pas, cet attribut est utilisé pour concaténer les différentes valeurs trouvées dans un document. Methode permettant de concatener les occurences multiples d'un élément qui vont être stockées dans le meme document Lucene. Je ne pense pas que vous ayez à y toucher.

Pour le ET par défaut au lieu du OU, non il n'existe rien dans cette version.
La librairie Lius que nous utilisons en versions 1.x ne permet par cette configuration. En revanche, SOLR, qui sera utilisée dans la prochaine version propose cette configuration.

Je pense que le parser n'a pas changé entre les versions 2.3.2 et 3.0
La classe qui fait le traitement de la langue française dans Lius est une contribution extérieure qui n'était pas fournie par défaut dans le package si je ne me trompe pas.
Le projet Lius ayant été arrêté, il est difficile de retrouver de la doc précise sur cet analyser. Mais quelles informations souhaiteriez-vous ?
En gros, ce que fait l'anayser :
- supprimer de la recherche les mots vides : le, la, les, mon, ton, son, dans, etc. etc.
- rechercher sans tenir compte des majuscules, accents
- idem sur les pluriels
- et les verbes conjugués
Mais ce module est entièrement refondu dans la future version en s'appuyant dorénavant sur SOLR.

Cordialement,

Yohan COLMANT
Direction des Systèmes d'Information
UVHC - Université de Valenciennes et du Hainaut Cambrésis
Coordinateur Technique du projet ORI-OAI

Le 22/05/2012 15:20, Cédric Musso a écrit :

Bonjour,


Dans les exemples fournis avec ORI-OAI, l'attribut ocurSep de
<luceneField/> dans liusConfig.xml vaut " " ou "|".
Quelles sont les conséquences du choix d'une valeur ou de l'autre ?
Y a t'il d'autres valeurs possibles ?


Y a t-il un paramétrage permettant que la recherche utilise un ET
booléen par défaut plutôt qu'un OU ?


Je n'ai pas trouvé que la documentation de l'API de la version 2.3.2
de Lucène alors que je cherche plutôt une documentation comme
http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/queryparsersyntax.html )
qui puisse me renseigner directement sur les caractères échappés...
et aussi sur les traitements faits sur les mots français...
Auriez-vous des  pistes à m'indiquer ?


Bien cordialement,

Cédric Musso

29 mai 2012 - 1:00pm

(Répondre à #3) #3

Yohan Colmant

Bonjour,

Le 29/05/2012 12:23, veronique.pierre@free.fr a écrit :

Bonjour Yohan,

Merci pour toutes ces informations.
Ce que l'on souhaitait c'était savoir s'il était possible de paramétrer la recherche pour que l'opérateur par défaut soit ET et non OU. Et connaître le fonctionnement par défaut de la recherche pour pouvoir rédiger l'aide à la recherche de notre maquette (qu'on a rédigée entre temps du fait que l'échéance de livraison de la maquette était la semaine dernière).
Pour le ET on a pu tester que le + devant chaque mot fonctionnait bien et on en est resté là.

A vrai dire, on est sur une syntaxe Lucene : http://lucene.apache.org/core/3_6_0/queryparsersyntax.html
Donc * pour remplacer une partie du mot, ? pour un caractère
AND ou + pour faire un "ET" explicite
OR pour un "OU"
etc.

On a pu constater que la recherche ne tenait pas compte des pluriels,

En effet, si le mot "maquettes" est indexé, on pourra le retrouver en cherchant sur "maquette" ou "maquettes"

pour les conjugaisons c'est moins clair,

même principe

et dans notre maquette les mots vides ne sont pas ignorés. Ils ne semblent pas l'être non plus dans les autres catalogues de formation sous ORI-OAI qu'on a consultés.

aucun mot ? Là c'est étrange ...
une recherche sur la maquette ne devrait pas tenir compte du mot "la"

Cdt
Yohan

Bien cordialement

Véronique Pierre
Documentaliste indépendante
Consultante AUF
Paris

----- Mail original -----
De: "Yohan Colmant" <
>
À: ori-oai-utilisateurs@listes.univ-rennes1.fr
Envoyé: Mardi 29 Mai 2012 08:44:37
Objet: Re: [ori-oai-utilisateurs] Recherche plein texte avec un ET booléen par défaut ? Attribut ocurSep ? etc

Bonjour,

Concernant l'ocurSep : si je ne me trompe pas, cet attribut est utilisé pour concaténer les différentes valeurs trouvées dans un document. Methode permettant de concatener les occurences multiples d'un élément qui vont être stockées dans le meme document Lucene. Je ne pense pas que vous ayez à y toucher.

Pour le ET par défaut au lieu du OU, non il n'existe rien dans cette version.
La librairie Lius que nous utilisons en versions 1.x ne permet par cette configuration. En revanche, SOLR, qui sera utilisée dans la prochaine version propose cette configuration.

Je pense que le parser n'a pas changé entre les versions 2.3.2 et 3.0
La classe qui fait le traitement de la langue française dans Lius est une contribution extérieure qui n'était pas fournie par défaut dans le package si je ne me trompe pas.
Le projet Lius ayant été arrêté, il est difficile de retrouver de la doc précise sur cet analyser. Mais quelles informations souhaiteriez-vous ?
En gros, ce que fait l'anayser :
- supprimer de la recherche les mots vides : le, la, les, mon, ton, son, dans, etc. etc.
- rechercher sans tenir compte des majuscules, accents
- idem sur les pluriels
- et les verbes conjugués
Mais ce module est entièrement refondu dans la future version en s'appuyant dorénavant sur SOLR.

Cordialement,

Yohan COLMANT
Direction des Systèmes d'Information
UVHC - Université de Valenciennes et du Hainaut Cambrésis
Coordinateur Technique du projet ORI-OAI
Le 22/05/2012 15:20, Cédric Musso a écrit :

Bonjour,

Dans les exemples fournis avec ORI-OAI, l'attribut ocurSep de
<luceneField/> dans liusConfig.xml vaut " " ou "|".
Quelles sont les conséquences du choix d'une valeur ou de l'autre ?
Y a t'il d'autres valeurs possibles ?

Y a t-il un paramétrage permettant que la recherche utilise un ET
booléen par défaut plutôt qu'un OU ?

Je n'ai pas trouvé que la documentation de l'API de la version 2.3.2
de Lucène alors que je cherche plutôt une documentation comme http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/queryparsersyntax.html )
qui puisse me renseigner directement sur les caractères échappés...
et aussi sur les traitements faits sur les mots français...
Auriez-vous des pistes à m'indiquer ?

Bien cordialement,

Cédric Musso

Valoriser le patrimoine numérique scientifique, pédagogique et documentaire des universités et le partager par un réseau de portails communicants en OAI

Traduction auto Google

Aide

Options d'affichage des commentaires