samedi 3 janvier 2009

La reconnaissance de texte dans les PDF

Il existe aujourd'hui une multitude de versions et formats de PDF ce qui ne manquera pas de causer des problèmes dans la gestion de votre projet et, plus précisément, dans la publication de ces documents. Comment s'assurer que ces types de documents très répandus seront bien indexés et optimisés dans votre système (KM ou DM) permettant à l'indexeur plein texte de faire son travail et permettant aussi qu'on puisse les retrouver via une recherche plein texte?

Donc en raison de leurs provenances diverses, les PDF qui vous sont transmis peuvent avoir des propriétés parfois très différentes (reconnaissance de texte ou non, poids, qualité...) et il faudra trouver une façon de les uniformiser (temps d'ouverture, réseautique, indexation, possibilité de faire du coller-copier...). Il existe toujours la possibilité de lancer un traitement d'OCR sur chacun des documents de façon manuelle avant l'archivage avec Acrobat Adobe. Toutefois, il sera nettement préférable d'opter pour un outil qui offre des possibilités d'OCR en lot.

La solution idéale sera de coupler et synchroniser votre système de gestion du savoir ou gestion documentaire, avec un outil spécialisé pour effectuer ce travail (ABBYY, Aquaforest, cvision ou autre) et aire en sorte que ce processus devienne transparent (ne nécessite aucune intervention manuelle). Étonnamment, selon nos informations, la solution Acrobat Capture ne semble plus évoluer (il n'y a pas eu de mise à jour depuis longtemps par Adobe) et poserait maintenant certains problèmes avec les nouveaux PDF, donc peu recommandable.

D'un point de vue technique, Il faudra mettre en place un mécanisme automatisé pour que tous les PDF versés dans votre système passent par un répertoire temporaire (appelons-le "IN"). L'outil d'OCR surveillera ce répertoire puis traitera les PDF et les versera dans un second répertoire après traitement, (appelons-le "OUT"), pour être ensuite archivés dans le système. Autrement dit, il s'agira d'introduire un nouveau processus, préalable à l'archivage des PDF, ce qui vous permettra de gagner un temps considérable en traitement et assurera une meilleur qualité de vos documents PDF archivés dans le système.

D'ailleurs, certaines compagnies ont déjà annoncées des partenariats technologiques pour adresser ce besoin.