Meta Data XML et l’Indexation Recherche de Connaissances |
||
LAURENT Jean-Marc - Méthode OCSIMA | Audit - Conseil - Développement - Formation |
|
|
|
L'équipe responsable de la conception du Thésaurus et de sa gestion, et l'équipe rédactrice des documents publiés se voient attribuer de lourdes responsabilités et tâches. Dans le cadre d'un projet de Knowledge Management la rétribution de ces dernières doit être établie. Certes le prestige et / ou reconnaissance sous-jacents font partie de cette rétribution, nous allons vérifier toutefois que ces efforts ne sont pas vains. Meta données des Fiches XMLo Affichage des Résultats des RecherchesLe titre et le résumé du document seront affichés dans les résultats des recherches, ce qui permet une meilleure sélection parmi les solutions possibles que ne le permet une simple mise en sur brillance des mots de la recherche dans les extraits correspondants. Les coordonnées de l'auteur seront également rappelées. o Réalisation Automatique d'une page Menu de NavigationEn indiquant dans la Fiche XML d'un document le domaine et le sujet auquel il se réfère on rend possible la réalisation par algorithme lors de l'indexation d'une page 'index.html' facilitant la navigation. o Établissement Automatique des Listes de ChoixLors de l'indexation les listes complètes de tous les auteurs, des domaines et des mots-clefs rencontrés sont construites. Ces listes constituent les listes de choix pour les recherches dans les meta-données. o Recherche d'ExpertiseCes Fiches XML constituent, comme je l'ai déjà indiqué, la première brique d'une Recherche d'Expertise. A partir de ces Fiches, il est possible de définir qui peut être considéré comme expert pour un domaine / sujet donné : le nombre de documents publiés, leur nombre de lectures, ... Les données du Thésauruso Aide à la RechercheJe n'ai introduit que l'attribut 'fr' et l'élément <en>, mais en suivant la même technique, il est possible de réaliser un thésaurus multi-linguiste : 'de', 'sp', .'it', .... Les éléments <synonyms> et <synonym> apportent une aide dans les deux sens :
Lorsqu'une recherche n'aboutit sur aucun résultat, la Thésaurus Help propose une recherche sur les frères (les noeuds qui ont le même père), et parmi ceux-ci, retient ceux qui peuvent jouer les mêmes 'rôles' (ou un sous-ensemble). N.B. : Une Fuzzy Help est également disponible, elle permet de retrouver dans l'index les mots ou expressions proches (au sens de 'distance de Levenshtein' entre deux chaînes, ou rapport du nombre minimum de caractères à changer pour passer d'une chaîne à l'autre sur la longueur de la plus courte chaîne). Exemple : cette Fuzzy Help, avec les documents actuellement indexés, permet, lorsqu'on lance la recherche "acide acétique", de retrouver des documents contenant "acid acetic"~2, (c'est à dire les mots 'acetic et 'acid' dans un intervalle de 2 mots, c'est à dire côte à côte, mais sans imposer d'ordre) et un document contenant "acids acetic"~2 (ce document contient l'expression : "formic and acetic acids"). N.B.: Cette Fuzzy Help contient également une implémentation faible d'un algorithme du type 'stemming algorithm', c'est à dire qu'elle propose les résultats, pour le mot "acétique", de tous les mots "acét*" figurant dans l'index, c'est à dire des mots ayant pour préfixe "acét". Personnellement, dans le cas de la langue française, je n'ai jamais prêté grande confiance à la qualité des résultats obtenus : si à une question "mensu-alité" ils peuvent indiquer des documents parlant de "règlements mensu-els" (dans la langue française la voyelle 'u', placée entre une consonne autre que 'q' et une autre voyelle, joue un rôle particulier de pivot), ces algorithmes ne pourront jamais retourner des documents contenant "régler chaque mois". o Case Based ReasoningLe Case Based Reasoning, forme simplifiée (car intra-domaine) du Raisonnement par Analogie (inter-domaine), est une réponse au souci de 'capitalisation d'expertise', utilisée principalement dans les Aides au Diagnostic (vous pouvez consulter mon document "Méthodologie DIABC, Recensement des Cas" : l'utilisateur décrit la situation courante (la panne constatée) et le système présente à l'utilisateur la solution (résolue antérieurement ou simulée) d'une situation similaire. La difficulté réside dans cette détermination / mesure de similitude : En quoi deux descriptions sont-elles similaires ? Une première approche : la comparaison du nombre d'occurrences de mots du thésaurus présents dans les documents étudiés. (Les fameux 'mots vides' ne sont bien sûr pas comptabilisés.) |
|
|
|
Dernière révision décembre 05 |
Plan du site OCSIMA |
Pour nous écrire, cliquez ici : |