Récupération de documents

La recherche de documents est définie comme la correspondance d'une requête utilisateur exprimée avec un ensemble d'enregistrements de recherches plein texte. Ces enregistrements peuvent être de tout type de texte principalement non structuré en langage naturel, tel que des articles de journaux, des dossiers immobiliers ou des paragraphes dans un manuel. Les requêtes utilisateur varient d'une description complète sur plusieurs phrases d'un besoin d'information à quelques mots.

La recherche de documents se réfère parfois à, ou constitue une branche de, la recherche textuelle. La recherche textuelle est une branche de la récupération d'information où l'information est stockée essentiellement sous forme de texte en langage naturel. Les bases de données textuelles se décentralisent grâce à l'ordinateur personnel. La recherche textuelle est un domaine d'étude critique aujourd'hui, puisqu'elle constitue la base fondamentale de tous les moteurs de recherches.

Description

Les systèmes de recherche de documents trouvent l'information correspondant à des critères donnés en faisant correspondre des enregistrements textuels (documents) aux requêtes utilisateur, contrairement aux système experts qui répondent aux questions en inférant sur une base de connaissances logique. Un système de recherche de documents se compose d'une base de données de documents, d'un algorithme de classification pour construire un index en texte intégral et d'une interface utilisateur pour accéder à la base de données.

Un système de recherche de documents a deux tâches principales :

Trouver des documents pertinents aux requêtes utilisateur
Évaluer les résultats correspondants et les trier selon leur pertinence, en utilisant des algorithmes tels que PageRank.

Les moteur de recherches Internet sont des applications classiques de la recherche de documents. La grande majorité des systèmes de recherche actuellement en usage va de systèmes booléens simples à des systèmes utilisant des techniques statistiques ou de traitement automatique du langage naturel.

Variations

Il existe deux classes principales de schémas d'indexation pour les systèmes de recherche de documents : l'indexation basée sur la forme (ou basée sur le mot) et l'indexation basée sur le contenu. Le schéma de classification des documents (ou algorithme d'indexation) en usage détermine la nature du système de recherche de documents.

Basée sur la forme

La recherche de documents basée sur la forme s'adresse aux propriétés syntaxiques exactes d'un texte, comparable à la recherche de sous-chaînes dans les recherches de chaînes de caractères. Le texte est généralement non structuré et pas nécessairement dans un langage naturel, le système peut par exemple être utilisé pour traiter de grands ensembles de représentations chimiques en biologie moléculaire. Un algorithme d'arbre des suffixes est un exemple d'indexation basée sur la forme.

Basée sur le contenu

L'approche basée sur le contenu exploite les connexions sémantiques entre les documents et leurs parties, ainsi que les connexions sémantiques entre les requêtes et les documents. La plupart des systèmes de recherche de documents basés sur le contenu utilisent un algorithme d'index inversé.

Un fichier de signature est une technique qui crée un filtre rapide et approximatif, par exemple un filtre de Bloom, qui garde tous les documents correspondant à la requête et espérons-le quelques-uns qui ne correspondent pas. La méthode consiste à créer pour chaque fichier une signature, typiquement une version codée en hachage. Une méthode est le codage superposé. Une étape de post-traitement est effectuée pour éliminer les fausses alertes. Puisque, dans la plupart des cas, cette structure est inférieure aux index inversés en termes de rapidité, de taille et de fonctionnalité, elle n'est pas largement utilisée. Cependant, avec des paramètres appropriés, elle peut surpasser les fichiers inversés dans certains environnements.

Exemple : PubMed

L'interface de formulaire de PubMed^[1] présente la recherche d'"articles connexes" qui fonctionne par une comparaison des mots du titre des documents, du résumé et des termes MeSH en utilisant un algorithme pondéré par le mot^[2]^,^[3].

Voir aussi

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Document retrieval » (voir la liste des auteurs).

↑ Kim W, Aronson AR, Wilbur WJ, « Automatic MeSH term assignment and quality assessment », Proc AMIA Symp,‎ 2001, p. 319–23
↑ Computation of Related Citations, National Center for Biotechnology Information (US), 6 février 2019
↑ Lin J1, Wilbur WJ, « PubMed related articles: a probabilistic topic-based model for content similarity », BMC Bioinformatics, vol. 8,‎ 30 octobre 2007, p. 423

Lectures complémentaires

Christos Faloutsos, Stavros Christodoulakis, « Signature files: An access method for documents and its analytical performance evaluation », ACM Transactions on Information Systems, vol. 2, n^o 4,‎ 1984, p. 267–288
Justin Zobel, Alistair Moffat, Kotagiri Ramamohanarao, « Inverted files versus signature files for text indexing », ACM Transactions on Database Systems, vol. 23, n^o 4,‎ 1998, p. 453–490
Ben Carterette, Fazli Can, « Comparing inverted files and signature files for searching a large lexicon », Information Processing and Management, vol. 41, n^o 3,‎ 2005, p. 613–633

Liens externes

Fondements formels de la recherche d'information, Buckinghamshire Chilterns University College

Portail de l’informatique

[1] Kim W, Aronson AR, Wilbur WJ, « Automatic MeSH term assignment and quality assessment », Proc AMIA Symp,‎ 2001, p. 319–23

[2] Computation of Related Citations, National Center for Biotechnology Information (US), 6 février 2019

[3] Lin J1, Wilbur WJ, « PubMed related articles: a probabilistic topic-based model for content similarity », BMC Bioinformatics, vol. 8,‎ 30 octobre 2007, p. 423

[1]

[2]

[3]