place pour l'indexation plein texte.
- Le crawling d'un entrepôt peut être très long (plusieurs heures avec
un index de 900Mo par exemple pour l'entrepôt canal-u si on n'applique
aucun filtre sur les mimetypes).
Du coup si on veut réinitialiser son index pour une raison quelconque
(suppression du moissonnage d'un entrepôt par exemple) alors on doit
refaire l'ensemble du crawling avant de retrouver un service complet ?
Ne serait-il pas mieux de le dissocier de l'index principal et de faire
une jonction sur l'attribut md-ori-oai-id par exemple ?
- Le crawling est-il incrémental ou bien toujours complet ?
- Si le document associé à une fiche de metadata a déjà été crawlé mais
est modifié depuis ; sera-t-il mis à jour lors du prochain crawling ?
(je ne vois aucune référence à l'attribut md-ori-oai-datestamp qui
pourrait servir de repère par rapport à la date de dernier crawling).
- A-t-on un moyen de savoir si le crawling est terminé (à part cliquer
continuellement sur le bouton "Lancer le crawling") ?
- Peux-t-on arrêter le crawling sans couper le tomcat du module
d'indexation ? Je pose la question car lors du crawling de canal-u j'ai
mis la machine sur les genoux à cause du nombre d'io. Je tournais à 30
de charge pendant plusieurs heures et du coup plus aucun service n'était
réactif :-(.
- Sinon dans src/ori-oai-indexing-svn/properties/liusConfig.xml on est
passé entre les versions "1.1" et "1.4" de :
à
Autant cela doit accélérer la recherche, autant l'indexation doit être
plus lente si j'ai bien compris l'utilité de ces paramètres.
Actuellement j'ai l'impression que les valeurs sont fixes. Il doit être
possible de modifier ces valeurs temporairement afin d'optimiser les
ressources cpu et le temps passé lors d'un moissonnage ou lors du crawling.
- La configuration des types de fichiers explorés (mimeTypes) se fait
dans le module d'indexation en mode texte
(properties/configIndexing.xml) ; pourtant cela aurait bien sa place
dans l'interface graphique du module de moissonnage.
- Est-il prévu de ne pouvoir lancer manuellement le crawler que sur
certains entrepôts ? Par exemple il pourrait arriver de vouloir
recrawler ses ressources locales en pleine journée sans vouloir faire
les autres entrepôts. Actuellement il semble que le crawler attaque tous
les entrepôts sauf ceux référencés dans la balise
ne va pas couper le module d'indexation juste pour modifier cette valeur
temporairement...
À+
--
Ce message a été vérifié par MailScanner
pour des virus ou des polluriels et rien de
suspect n'a été trouvé.