Recherche Sémantique de Connaissances

Le choix de la brique de départ d’un projet est généralement angoissant, nous sommes rassurés par le profile de Doug Cutting et par le nombre de projets autour de Lucene :

LARM - Lucene Advanced Retrieval Machine
Le projet Nutch a pour but le développement d’un moteur de recherche open source pour le web
Experience the simplicity of SearchBlox that thousands of users have already experienced by trying out the SearchBlox FREE Edition
MatchPoint catégorise les contenus : Le logiciel d’indexation et de recherche classe automatiquement les résultats d’une requête.
Kaliwatch (Arisem filiale de Thales) ...

Mon idée de départ est d’utiliser un Thésaurus, mais il faut le(s) construire. La lecture du site Information Management m’a conforté dans cette idée de départ. Ce site donne des indications sur l’importance (Why do we need a thesaurus?), la construction et l’utilisation d’un thésaurus, et des logiciels pour la construction et l’édition de thésaurus.

Thésaurus, Lucene, XML, Fuzzy Help

J’ai développé plusieurs applications (dont une liant un "crawler") avec Lucene, la plus intéressante ici : Adjonction d’un Thésaurus XML à Lucene. Au chapitre Thésaurus et meta data XML est indiquée une Fuzzy Help basée sur un calcul de ’distance de Levenshtein’ et un ’Porter stemming algorithm’, elle poura être lancée à la demande de l’utilisteur. Les développements (jsp + Tomcat) avec Lucene + fiches xml de meta data + Thésaurus + fuzzy help aboutissent à :

Query	Result
-name:"laurent jean marc" +contents:know* +contents:mangement~	Retourne la liste des documents dont le nom de l’auteur n’est pas laurent jean-marc, qui contiennent un mot qui commence par know et un mot qui s’écrit à peu près mangement
"acide butyrique"	Retourne le document "Exemples de Dosages d’Acides par la Soude" qui ne contient pas la chaîne mais qui parle de l’acide benzoique, frère dans le Thésaurus
"acide acétique"	Retourne entre autres le document "Determination of the Ka of a Weak Acid" qui ne contient pas la chaîne mais qui contient "Formic and acetic acids"

Thésaurus ou Data Mining auto-apprenant ?

L'article sur la Classification Automatique selon Total ou l'Apec présente deux approches différentes :

Total et Temis : "... le logiciel de classification applique des règles d’extraction fondées sur la reconnaissance de concepts clés : acquisition, fusion de sociétés, privatisation ... L’article passé au crible est ensuite classé dans l’une des thématiques prédéfinies. Les substrats sont extraits et associés sous forme d'index ... Grâce à la composante d’auto-apprentissage du logiciel, le nom des nouvelles sociétés est repéré par un jeu de déduction, puis catégorisé dans Temis sans la moindre intervention ..."
Apec et Lingway (Lucene est au centre de l’architecture) : "... Le corpus est constitué de toutes les annonces publiées depuis deux ans (soit au total cent trente mille) ... Le processus requiert deux étapes ... profil du demandeur d'emploi par le biais d'une requête en langage naturel (Lingway) ... classer les annonces récoltées selon le type de mission exigée. L'outil de Lingway les range selon les verbes et les formules types dans les catégories préétablies par l'Apec : organiser, former, produire, etc... La pertinence des résultats obtenus est conditionnée, en grande partie, par la richesse du thésaurus associé au moteur ..."

Recherche sur le Web : syntaxe de requête en recherche simple et en recherche avancée (google, exalead, yahoo) (2004) par Guy Forzy, académie de Lyon : Rechercher sur le Web, Syntaxe de base. Ce document vous semble inutile ? Je parie que je pose une colle sur l'outil que vous utilisez !
Recherche d’information sur Internet : où en sommes-nous, où allons-nous ? Alexandre SERRES (2004) : Un article état de l'art.
Techniques d'apprentissage pour le traitement d’informations structurées, application à la recherche d’information : thèse de Benjamin Piwowarski (2003)

Meta Moteurs de recherche sur le Web

KartOO : "qui présente ses résultats sous forme de carte",
Ixquick Métarecherche

Mes réflexions portent sur le développement d'outils de recherche automatisée : agents logiciels (systèmes multi agents) apprenant (acquisition automatique de connaissances) à rechercher (Lucene), reconnaître (langage xml, thésaurus) et classer (case based reasoning, clustering) les nouvelles informations susceptibles (raisonnement approximatif) d'intéresser l'utilisateur. Peut-on trouver avec Google et Dmoz ces sites qui m'intéressent SEKT (Semantically-Enabled Knowledge Technologies) et NeOn (Lifecycle Support for Networked Ontologies)?

Recherche Sémantique de Connaissances

Pourquoi mon intérêt pour Lucene ?

Indexation Recherche avec Lucene

Thésaurus, Lucene, XML, Fuzzy Help

Thésaurus ou Data Mining auto-apprenant ?

Recherche d’Information

Meta Moteurs de recherche sur le Web

Recherche Sémantique de Connaissances

LAURENT Jean-Marc - Conseil Gestion des Connaissances - OCSIMA - Consultant Knowledge Management
Dernière révision avril 07	Pour nous écrire, cliquez ici :