Knowledge Management - Gestion des Connaissances

Langage XML, Lucene et les Connaissances
 


Langage XML - Lucene et l'Indexation Recherche de Connaissances

Le langage XML présente deux avantages immédiatement perceptibles pour l'indexation recherche de connaissances et leur représentation / diffusion :

Le langage XML et l'Indexation Recherche de connaissances

Indexation Recherche XML avec Lucene - Cocoon

Le projet "Livre Libre" est une application du type 'Gestion de Contenus', une forme simple de support informatique pour la Gestion des Connaissances

Quelques captures d'écran d'un projet "Livre Libre", développé avec Cocoon - Lucene :
(En cliquant sur un des liens suivants, vous ferez apparaitre une image, et en cliquant sur cette image vous la ferez disparaitre.)

Ces différentes applications (voir aussi le chapitre Adjonction d'un Thésaurus XML à Lucene, surtout la page Indexation Recherche de Connaissances et XML) montrent l'intérêt de Lucene permettant l'indexation recherche plein texte et surtout dans des champs spécifiés avec le langage XML : les meta data.

Xpeerion

Une recherche avec Xpeerion, cet outil implémente des langages de recherche voisins de XPath et XQuery. Ici une capture d'écran d'un exemple de Recherche sur deux fichiers XML : authors.xml et books.xml

Le langage XML et la Représentation des Connaissances

Le langage XML : une seule source et des formats multiples

Les liens suivants affichent avec Microsoft Internet Explorer (mais pas avec Firefox) des fichiers xml.

Quelle est la différence entre ce premier document why.xml et celui-ci why-xsl.xml ?

La différence entre km.xml et km-xsl.xml est similaire, la transformation en km.pdf étant réalisée ici offline. En utilisant un serveur Tomcat, j'ai développé un grand nombre de servlets qui réalisaient facilement ces transformations en ligne.

Le langage XML et la diffusion d'informations, News

Les flux RSS et la syndication de contenu ne sont que des applications du langage XML pour la diffusion de News. Une application importante de ces flux RSS se trouve au niveau de la diffusion d'informations (voir un exemple de flux rss datant de 2004) pour l'Intelligence Économique.

Voir sur le site OCSIMA le paragraphe Outil dédié à la Recherche / Diffusion d'Informations et notre partenanire Kreactive Technologies qui achemine et gère des flux d'informations pouvant s'intégrer en toute transparence à votre site Web, votre portail Internet, votre Intranet d'entreprise ou encore à votre système d'information.

Le langage XML et la Représentation des Connaissances

Le Web Sémantique et le langage XML

Quelques extraits de l'article de Tim Berners-Lee, James Hendler et Ora Lassila sur le Web Sémantique.

Actuellement, presque tout le contenu du Web est destiné à être lu, il n'est pas fait pour être manipulé de façon intelligente par des programmes informatiques ... Le Web sémantique va utiliser la structure pour donner du sens au contenu des pages Web, ... Deux importantes technologies de développement du Web sémantique existent déjà : eXtensible Markup Language (XML) et le Resource Description Framework (RDF). XML permet à chacun de créer ses propres balises -marques cachées comme <code postal> ou <université> qui mettent des annotations sur les pages Web ou les sections de texte d'une page. Les scripts ou les programmes peuvent utiliser ces balises de manière compliquée, mais le programmeur doit savoir dans quel but l'auteur utilise chaque balise ... De plus, s'il est bien fait, le Web sémantique pourra favoriser l'évolution de la connaissance humaine dans son ensemble.

Le langage XHTML

Extrait de la page d'Introduction au langage XHTML, étape vers la généralisation du Web Sémantique ?

Le langage XHTML 1.0 jette les bases d'un langage Web modulaire et extensible basé sur le XML (eXtensible Markup Language). Il permet en fait d'adapter progressivement les structures du web à la mise en place imminente des langages sémantiques. De cette façon, tous les acteurs du web et en particulier les concepteurs de sites, peuvent d'ores et déjà bénéficier des avantages du XML.

Langage XML, Conclusion

  1. Vous êtes convaincu de l'intérêt du langage XML, mais vous avez, ou les services de votre entreprise produisent, des documents Microsoft Office. Pouvoir les transformer facilement et gratuitement n'est pas évident. La solution actuellement consiste à ouvrir le fichier .doc, par exemple, avec OpenOffice.org et le sauvegarder sous son format. Vous obtenez en fait une archive contenant différents fichiers.xml.

  2. Les outils dédiés à la Gestion des Connaissances permettent d'établr des fiches de meta data, pour pouvoir ensuite effectuer des recherches sur celles-ci, mais la majorité n'utilise pas le langage XML.

  3. J'ai également utilisé des algorithmes de lemmatisation, utilisant les joker/wildcard, les distances entre mots, ... Mais à trop vouloir vaincre le silence, on atteint le bruit (surtout avec la langue française). De plus aucun de ces algorithmes ne permettra de retrouver des documents contenant 'réglement chaque mois' en réponse à une recherche portant sur 'réglement mensuel'.

Toutes ces expérimentations ont abouti à mon application autour du langage XML et du moteur d'indexation recherche Lucene : Adjonction d'un Thésaurus XML à Lucene. Lancez l'applet de visualisation d'un Thésaurus (visualisation JTree du thésaurus XML).

Langage XML, quelques liens

L'objectif de ce site est de décrire simplement (clairement autant que faire se peut) les différentes techniques de Représentation des Connaissances et leur utilisation dans les domaines de la Gestion des Connaissances et de l'Intelligence Économique. N'hésitez pas à nous contacter pour proposer un simple échange de liens ou la diffusion d'un texte pédagogique sur une de ces techniques.

LAURENT Jean-Marc - Conseil Gestion des Connaissances - OCSIMA - Consultant Knowledge Management
Valid XHTML 1.0 Strict Dernière révision avril 07 Pour nous écrire, cliquez ici :