Knowledge Management - Gestion des Connaissances

Thésaurus XML et Lucene

LAURENT Jean-Marc - Méthode OCSIMA Audit - Conseil - Développement - Formation

Méta Connaissances, meta data, XML, ...Méta Connaissances, meta data, XML, ...

ThésaurusThésaurus

Thésaurus et meta data XMLThésaurus et meta data XML


Le Thésaurus XML

Lien : Ontologie, thésaurus, taxonomie et Web sémantique

L'analyse de connaissances nous amène très souvent à considérer l'aspect statique et l'aspect dynamique des entités recensées. Exemple : l'acide acétique est un acide faible. Il peut parfois 'jouer le rôle' de solvant. Cette distinction entre ces deux aspects est très fréquente. Autre exemple pris du langage informatique Java : pour contourner les difficultés inhérentes à 'l'héritage multiple' non disponible, une distinction est faite entre les classes et les interfaces. Une Classe ne peut spécifier qu'une et une seule autre Classe mère dont elle hérite les propriétés (extends) mais peut utiliser et / ou redéfinir les méthodes (implements) d'un nombre quelconque d'Interfaces. Voici ce que l'on peut lire dans le tutorial Java : (Dans le Thésaurus réalisé, c'est cette notion de 'rôle' qui est utilisée.)

Interface Java
Définition et utilisation des Interfaces

Les principaux <éléments> XML utilisés dans le Thésaurus

J'ai retenu, pour le domaine de l'analyse physico-chimique les éléments suivants :

  • les substances chimiques (acide, base, alcool, sel, ...),
  • les sujets (différents types de potentiométrie, différents types de chromatographie, ...),
  • les éléments du matériel (burette, pompe, colonne, système d'injection, ...),
  • les termes utilisés (chromophore, longueur d'onde, produit solubilité, ..).

Ces éléments contiennent les 'sous-éléments' suivants, en plus de l'attribut 'fr' = sa désignation en français, :

  • en = sa désignation en anglais,
  • def = un texte explicatif
  • father = élément père (le père de l'acide acétique est 'acide faible' dont le père est 'acide' ...),
  • synonyms = la liste des synonymes (ex. : acide éthanoïque).

Les deux derniers 'sous-éléments' sont terms/usingterm et roles/role. Les éléments 'usingterm' et 'rôle' sont 'EMPTY' mais ont pour attribut ''termid' une référence sur l'id d'un term.

Thésaurus, sa DTD (Document Type Definition)

Les deux dernières références permettent d'implémenter les rôles des substances chimiques.

DTD du thésaurus
Document Type Definition du Thésaurus

Exemple : l'acide acétique est un 'acide faible' mais il peut avoir le rôle de solvant en 'potentiométrie acide base en milieu non aqueux'. L'acide acétique, l'acide benzoïque et l'acide butyrique sont trois frère dans l'arbre. Mais, comme on le vérifie sur l'applet de visualisation, l'acide acétique peut jouer un rôle que les deux autres ne présentent pas. Lorsqu'on lance une recherche avec la query "acide butyrique" et qu'aucun document indexé ne le mentionne, le système de recherche doit présenter les résultats concernant l''acide benzoïque' (s'il y en a) et non tous les documents contenant 'acide acétique'.

Applet de visualisation du Thésaurus

Vous trouverez ci-dessous des captures d'écran de l'application.

Votre système de navigation vous permet-il de voir (attendre le chargement et le lancement de Java platform) des Applets ? Alors vous pourrez voir l'Applet de visualisation du Thésaurus XML

Applet
Le premier onglet de l'Applet

Applet de visualisation du Thésaurus (2ème onglet)

Applet 2
Le second Onglet de l'Applet

La Gestion du Thésaurus

Comme pour les fiches XML, une interface de gestion permet (boutons et items de menus), après avoir sélectionné un noeud de l'arbre, et lorsque cela est autorisé, ;

  • d'éditer un noeud (dialogue secondaire comprenant plusieurs onglets, pouvant appeler des dialogues supplémentaires : ajout / retrait de rôles),
  • d'ajouter (après initialisation) un noeud frère du noeud sélectionné et de l'éditer,
  • d'éliminer le noeud sélectionné,
  • de valider le thésaurus ('validating parser'), il est toujours tentant d'utiliser un éditeur quelconque et de modifier, de manière externe, le thésaurus ; il faut donc offrir un moyen de vérifier que ce thésaurus est toujours valide (surtout au niveau des ID et des IDREF, c'est l'intérêt de rassembler tous les éléments du thésaurus dans un même fichier, sinon il faudrait étudier des références externes) par rapport à la DTD,
  • et de quitter l'application.

La figure suivante montre la fenêtre principale (toujours l'exemple du noeud <substance fr="acide acétique" ...> ainsi que l'onglet secondaire d'édition des rôles. (Rappel : Un tel noeud ne contient que la référence au terme (une IDREF), il n'est pas possible de l'éditer directement à ce niveau. Pour ajouter un rôle, l'utilisateur doit sélectionner une valeur dans la liste de choix de termes proposée.)

Pour éliminer un 'rôle', il faut commencer par le sélectionner dans la liste.

Gestion du Thésaurus
La fenêtre principale de gestion du thésaurus et l'onglet 'Rôles' du dialogue d'édition


Méta Connaissances, meta data, XML, ...Méta Connaissances, meta data, XML, ...

ThésaurusThésaurus

Thésaurus et meta data XMLThésaurus et meta data XML


LAURENT Jean-Marc - Consultant Gestion des Connaissances - OCSIMA Conseil Knowledge Management

Dernière révision décembre 05

Plan du site OCSIMA

Pour nous écrire, cliquez ici :