Meta Data XML et Indexation Recherche de Connaissances

	Meta Data XML et l’Indexation Recherche de Connaissances
	LAURENT Jean-Marc - Méthode OCSIMA	Audit - Conseil - Développement - Formation

Thésaurus et meta data XML

L'équipe responsable de la conception du Thésaurus et de sa gestion, et l'équipe rédactrice des documents publiés se voient attribuer de lourdes responsabilités et tâches. Dans le cadre d'un projet de Knowledge Management la rétribution de ces dernières doit être établie. Certes le prestige et / ou reconnaissance sous-jacents font partie de cette rétribution, nous allons vérifier toutefois que ces efforts ne sont pas vains.

Meta données des Fiches XML

o Affichage des Résultats des Recherches

Le titre et le résumé du document seront affichés dans les résultats des recherches, ce qui permet une meilleure sélection parmi les solutions possibles que ne le permet une simple mise en sur brillance des mots de la recherche dans les extraits correspondants. Les coordonnées de l'auteur seront également rappelées.

o Réalisation Automatique d'une page Menu de Navigation

En indiquant dans la Fiche XML d'un document le domaine et le sujet auquel il se réfère on rend possible la réalisation par algorithme lors de l'indexation d'une page 'index.html' facilitant la navigation.

o Établissement Automatique des Listes de Choix

Lors de l'indexation les listes complètes de tous les auteurs, des domaines et des mots-clefs rencontrés sont construites. Ces listes constituent les listes de choix pour les recherches dans les meta-données.

o Recherche d'Expertise

Ces Fiches XML constituent, comme je l'ai déjà indiqué, la première brique d'une Recherche d'Expertise. A partir de ces Fiches, il est possible de définir qui peut être considéré comme expert pour un domaine / sujet donné : le nombre de documents publiés, leur nombre de lectures, ...

Les données du Thésaurus

o Aide à la Recherche

Je n'ai introduit que l'attribut 'fr' et l'élément <en>, mais en suivant la même technique, il est possible de réaliser un thésaurus multi-linguiste : 'de', 'sp', .'it', ....

Les éléments <synonyms> et <synonym> apportent une aide dans les deux sens :

un utilisateur lance la recherche "acide éthanoique" mais aucun document n'utilise ce terme. Il ne figure pas dans l'index. La Thésaurus Help permet de relancer une recherche sur "acide acétique", ' acide éthanoique' figurant dans les synonymes de la <substance fr=" acide acétique" ;
un utilisateur lance la recherche "hydroxyde sodium" mais aucun document n'utilise ce terme. Il ne figure pas dans l'index. Le thésaurus permet de relancer une recherche sur "soude", la <substance fr="hydroxyde sodium" ayant dans sa liste de <synonyms> le <synonym>soude</synonym>.

Lorsqu'une recherche n'aboutit sur aucun résultat, la Thésaurus Help propose une recherche sur les frères (les noeuds qui ont le même père), et parmi ceux-ci, retient ceux qui peuvent jouer les mêmes 'rôles' (ou un sous-ensemble).

N.B. : Une Fuzzy Help est également disponible, elle permet de retrouver dans l'index les mots ou expressions proches (au sens de 'distance de Levenshtein' entre deux chaînes, ou rapport du nombre minimum de caractères à changer pour passer d'une chaîne à l'autre sur la longueur de la plus courte chaîne). Exemple : cette Fuzzy Help, avec les documents actuellement indexés, permet, lorsqu'on lance la recherche "acide acétique", de retrouver des documents contenant "acid acetic"~2, (c'est à dire les mots 'acetic et 'acid' dans un intervalle de 2 mots, c'est à dire côte à côte, mais sans imposer d'ordre) et un document contenant "acids acetic"~2 (ce document contient l'expression : "formic and acetic acids").

N.B.: Cette Fuzzy Help contient également une implémentation faible d'un algorithme du type 'stemming algorithm', c'est à dire qu'elle propose les résultats, pour le mot "acétique", de tous les mots "acét*" figurant dans l'index, c'est à dire des mots ayant pour préfixe "acét". Personnellement, dans le cas de la langue française, je n'ai jamais prêté grande confiance à la qualité des résultats obtenus : si à une question "mensu-alité" ils peuvent indiquer des documents parlant de "règlements mensu-els" (dans la langue française la voyelle 'u', placée entre une consonne autre que 'q' et une autre voyelle, joue un rôle particulier de pivot), ces algorithmes ne pourront jamais retourner des documents contenant "régler chaque mois".

o Case Based Reasoning

Le Case Based Reasoning, forme simplifiée (car intra-domaine) du Raisonnement par Analogie (inter-domaine), est une réponse au souci de 'capitalisation d'expertise', utilisée principalement dans les Aides au Diagnostic (vous pouvez consulter mon document "Méthodologie DIABC, Recensement des Cas" : l'utilisateur décrit la situation courante (la panne constatée) et le système présente à l'utilisateur la solution (résolue antérieurement ou simulée) d'une situation similaire.

La difficulté réside dans cette détermination / mesure de similitude : En quoi deux descriptions sont-elles similaires ?

Une première approche : la comparaison du nombre d'occurrences de mots du thésaurus présents dans les documents étudiés. (Les fameux 'mots vides' ne sont bien sûr pas comptabilisés.)

LAURENT Jean-Marc - Consultant Gestion des Connaissances - OCSIMA Conseil Knowledge Management

Dernière révision décembre 05

Plan du site OCSIMA

Pour nous écrire, cliquez ici :

Meta Data XML et l’Indexation Recherche de Connaissances

Le Thésaurus

Thésaurus

Future Indexation Recherche