Le word-retrieval

Le word-retrieval est une technique de recherche de mot dans les images de documents alternative à l'OCR. Les logiciels de reconnaissance de caractères commerciaux ont d'énormes difficultés à extraire le texte des plus anciens documents imprimés et sont incapables de traiter les documents manuscrits ou en langue arabe. Notre méthode a été développée pour les manuscrits médiévaux mais est généralisable à tout type de document.

Ici, les caractères ne sont pas reconnus, nous comparons l'image à un mot que nous composons à partir d'une requête textuelle et de lettres que nous avons extraites des images.

Un certain nombre d'abréviations peuvent être prises en compte afin de s'adapter au mieux au document.

À terme, les déclinaisons seront aussi gérées, menant à la construction d'un arbre de recherche prenant en compte toutes les graphies du terme recherché.

Une fois l'arbre de recherche calculé, nous n'utilisons plus aucune notion de ligne, de mot ou de lettre. La recherche est effectuée au niveau des pixels, sans se soucier de l'alphabet, de la langue ou de la sémantique. Les formes sont comparées sans tenter de les interpréter.

Continuer vers la démonstration en ligne