jeudi 22 novembre 2007

L'indexation plein texte des documents

Je vais entreprendre dans ce billet une petite analyse d'un sujet qui n'est pas simple en soi, mais qu'il faut bien tenter de démêler... Au fur et à mesure que je pourrai approfondir le sujet, j'irai apporter quelques ajouts et modifications à ce texte. Aussi, vos commentaires seraient fortement appréciés .Voici mes découvertes à ce jour:

Il existe divers types de moteurs d'indexation ayant pour but de vous permettre de chercher dans le corps de vos documents:

1) D'abord celui qui est inclut dans le système d'exploitation Windows;
2) Les deskstops;
3) Les composantes d'indexation fournies avec les systèmes de gestion documentaire;
4) Les systèmes d'indexation pour entreprise.

1) Le moteur d'indexation inclut dans votre système d'exploitation Windows

Cliquez sur le bouton droite de la souris lorsque vous êtes sur un répertoire, normalement vous devriez y trouver une fonction recherche, et plus particulièment, une fonction de recherche dans le plein texte. Cette recherche est généralement peu performante et offre peu de capacité, c'est pourquoi il existe d'autres outils plus sophistiqués, bien que Windows ai apporté certaines améliorations à ce niveau avec son dernier système d'exploitation Vista.

2) Les deskstops;

Voici trois grands acteurs dans ce domaine:

-Google Desktop;
-Exalead Desktop;
-Copernic Desktop

Premier constat, ils sont tous gratuits. Deuxième constat, il semble bien aujourd'hui que GoogleDesktop pose certains problèmes de sécurité. Il est crucial évidemment de lire les Règles de Confidentialité de Google Desktop avant d'entreprendre son installation, particulièrement si on envisage son utilisation dans un contexte professionnel. Pour ces raisons, nous n'iront pas plus loin avec cette option.

Copernic Desktop est un outil tout simplement remarquable quant à sa vitesse d'indexation, sa recherche, ses nombreuses possibilités et il semble assurer une meilleure protection au niveau de la sécurité. D'ailleurs, ce petit outil de chez nous, est reconnu parmi les meilleurs si l'on en croit certaine étude sur le sujet. Il permet d'indexer votre boîte Outlook, offre la surbrillance dans les documents et peut également indexer les répertoires dont vous avez accès via votre machine de la façon suivante:

Outils>Options>Fichiers:

















L'inconvénient est que ce type d'approche nécessite une installation et un paramétrage par poste. Pour une moyenne organisation, cela ne sera pas l'idéal. Il faudra donc chercher des solutions un peu plus loin.

3) Les composantes d'indexation fournies avec votre système de gestion documentaire (GD);

Bien sûr si vous travaillez dans une grande organisation, il y a de bonnes chances que vous soyez déjà muni d'un indexeur de documents par l'entremise de votre système de gestion documentaire interne. Cela étant, il faudra bien que les documents soient archivés dans le système en question pour les retrouver et non sur le poste des employés...

Le logiciel souvent rencontré en milieu juridique est Hummingbird racheté récemment par la compagnie OpenText. Ce type d'outil est souvent une grosse quincaillerie qui doit être bien paramétré avec budget à l'appui pour consultant et tout...Le problème, à mon humble avis, avec les grands noms de l'industrie, est le fait que leurs contrôles passent d'une main à l'autre, et il devient diffiçile de suivre ou influencer l'évolution de l'outil. Mais habituellement, ce type de système offre une excellente indexation plein texte avec de bons opérateurs de recherche. Ces systèmes par contre, deviendront rapidement un entrepôt de documents trop grand pour offrir une recherche efficace pour vos utilisateurs dans l'esprit d'un projet de gestion des connaissances.

Sans trop déborder de mon sujet initial, il existe aujourd'hui quelques très bons outils de GD conçus par des firmes de plus petites tailles mais stables et crédibles. Il existe aussi quelques systèmes complets en Open Source. Bref, la clé du succès repose essentiellement sur le service et le soutien que vous pourrez obtenir. Sans aller plus loin, ce volet ne peut être étudié qu'en surface ici pour l'instant étant donné qu'il s'agit d'un sujet vaste...

4) Les systèmes d'indexation pour l'entreprise

Il existe plusieurs moteurs d'indexation payant, qui sont parfois intégrés comme une composante à un système de gestion documentaire. D'autres fois, ils sont utilisés seuls pour indexer votre contenu d'entreprise sans le soutien d'une basé de données. Pour n'en nommer que quelques-uns:

-Vivisimo
-Google enterprise
-Autonomy (anciennement Verity mais racheté par Autonomy...)
-Isys
-Recommind
-Sinequa

Encore une fois, le but ici n'est pas de faire une étude exhaustive de ces différents produits. Le coût pour l'achat et l'installation de tel produit est un facteur à considérer...et il existe différentes approches pour facturer le client (par année, nombre de documents, par licence...).

Un conseil ici, tant qu'à débourser des sommes importantes pour l'achat de ce type de technologie, aussi bien s'assurer que les 5 points suivants sont bien adressés:

1) Indexation de tous les types de document;
2) Disponibilité d'opérateur avancé de recherche tel que NEAR (et non seulement AND, OR, NOT, "expression");
3) Surbrillance pour tous les types de document via un filtre htlm;
4) Possibilité d'affiner une recherche (chercher dans une liste de résultat préconstituée)
5) Notification sur recherche

Par contre, on commence à voir apparaître d'autres moteurs d'indexation gratuit qui peuvent être très intéressants pour une petite ou moyenne entreprise. Bien sûr, il faudra prévoir une installation et un paramétrage puisque le tout devra être installé au niveau du serveur, mais en terme de coût de revient, cette option pourrait bien s'avérer très intéressante:

1) Omnifind...IBM et Yahoo

J'ai installé cette version gratuite, et j'ai monté une petite interface de recherche qui se présente comme une simple page web accessible à partir de plusieurs postes...ouf...ça ouvre bien des possibilités. Voici l'interface de recherche que j'ai préparée dans un format très simple à la Google ou yahoo:

















Vous pouvez lire aussi le billet suivant sur ce sujet auquel je partage les commentaires. Cet outil est limité à 500 000 documents...mais il y a là tout de même une bonne marge de manoeuvre.

Avec un peu d'imagination, si vous avez des bureaux situés dans différentes régions , il me semble bien qu'il y a quelques choses à faire...

2) Microsoft Search Server Express:

Suivant un modèle semblable, Microsoft a annoncé récemment qu'il préparait sa contre-offre gratuite pour occuper sa part du marché...Son produit est actuellement disponible en version Beta, et promet d'être très intéressant aussi :

-Alerte courriel ou RSS sur recherche
-Sans limite concernant le nombre de documents.

On reconnaît un sharepoint allégé.

Il faut espérer que la concurrence puisse continuer à bien nous servir de cette façon...

En terminant, un système d'indexation de documents n'est pas une solution de gestion des connaissances en soi. Il ne peut être considéré qu'en tant que composante à un projet de gestion des connaissances.

Bien sûr, je présente les choses ici en présumant, comme c'est souvent le cas , qu'il faut travailler avec un budget très restreint (ce qui rend plus difficile la chose et demande un peu plus d'imagination...), mais le mieux reste de songer à un produit spécialisé couplant base de données ET un indexeur plein texte. Peut-être prévoir un peu plus de ressources et envisager ce projet davantage comme un investissement.

Nous y reviendrons...

1 commentaire:

Gilles Batteux a dit...

Lorsque les grands acteurs du monde informatique et internet se lancent dans la course à la part de marché, on peut s'attendre à de grands bénéfices pour les utilisateurs. En effet, le principe actuel étant de donner au plus grand nombre afin de vendre à ceux qui se trouvent à l'étroit dans ce qui est offert, il faut convaincre le maximum d'utilisateur que son produit gratuit est le meilleur.
Ces produits, lorsqu'ils proposent une API performantes, peuvent également devenir des composant dans un environnement complet de gestion de contenu. Face à des acteurs comme Google / IBM et Microsoft, les acteurs plus modestes doivent être de plus en plus performants, pointus, voire spécialisés... et surtout simples à mettre en oeuvre et à interfacer avec des applications déjà en place.