Posted by & filed under blog.

Deux étudiantes de l’école Polytech’Nice-Sophia ont travaillé sur ZONE-project durant leurs dernière année d’étude. Vous trouverez dans cette article une synthèse des travaux d’Ameni Bouaziz (rapport SVM, rapport clustering et sur github).

Introduction

Dans le but d’optimiser la catégorisation dans le serveur d’annotations de ZONE, les résultats de plusieurs méthodes sont combinés (Wiki Meta, Open Calais, …), notre projet consiste à implémenter de nouvelles méthodes de classification basées sur la fouille de données et utilisant le principe d’apprentissage supervisé (avec l’algorithme SVM) et d’apprentissage non supervisé (Clustering avec l’algorithme K-means).

La classification de documents

La classification automatique de documents est un problème connu en informatique, il s’agit d’assigner un document a une plusieurs catégories ou classes. Le problème est différent selon la nature des documents en question, en effet la classification de textes diffère de la classification de documents images, vidéo ou encore son. On peut aussi imaginer des classifications selon des paramètres associés aux documents tels que par exemple l’auteur, la date de parution… Dans le cadre de ce projet nous nous baserons sur la classification de documents de type texte selon leur contenu.

En mode non supervisé et par partitionnement

Consiste au regroupement des données suivant leur degré de similarité. L’algorithme le plus célèbre appartenant à cette classe est K-means : c’est un algorithme qui permet de partitionner un ensemble de données automatiquement en K clusters. Il consiste tout
d’abord à choisir k points qui représentent les centres des groupes à créer, puis à affecter les autres points aux centres les plus proches. Cette affectation est faite par le calcul de distance entre les points. Plusieurs distances peuvent être définies telles que la distance euclidienne ou la distance de Manhattan. Par la suite nous procédons à une étape de raffinement des groupes de
façon itérative, le raffinement se fait par le recalcul des centres des groupes après chaque itération et par une réaffectation des points aux groupes. L’algorithme s’arrête quand aucun point ne bouge.

En mode supervisé avec des SVM (Supports Vectors Machines)

Les « supports vectors machines » appelés aussi « maximum margin classifier» sont des techniques d’apprentissage supervisé basées sur la théorie de l’apprentissage statistique ou automatique. Les SVM sont relativement nouveaux, ils sont apparus en 1995 suite aux travaux de Vapnik. SVM traite d’un problème de classification bi classes. Le principe général de la classification par SVM peut être expliqué par la figure suivante:

Le but de SVM est de determiner si un élément appartient à une classe ou pas. Nous disposons d’un ensemble de données et nous cherchons à séparer ces données en deux groupes. Le premier est l’ensemble de données appartenant à une classe, ces données sont étiquetées par (+) et un autre ensemble qui contient les éléments qui n’appartiennent pas à la classe donc étiquetées (-). L’algorithme SVM permet de trouver un hyperplan séparateur entre ces deux groupes. Pour optimiser la séparation
SVM cherche l’hyperplan pour lequel la distance entre la frontière des deux groupes et les points les plus proches est maximale, c’est le principe de maximisation de la marge.

Application de l’apprentissage supervisé au sein de ZONE-project

  • La phase de preprocessing consiste à utiliser les techniques de TAL pour transformer les textes en vecteurs de caractéristiques nécessaires pour SVM.
  • La phase de l’apprentissage consiste à prendre en entrés les vecteurs et produire en sortie un modèle de classification.
  • La phase classification consiste à prendre le vecteur caractéristique du texte et l’utiliser pour la classification selon le modèle appris.

Merci à Ameni et Ilhame pour avoir accepté de travailler sur le projet. Et merci à Catherine Faron-Zucker et Elena Cabrio pour avoir fortement participé à l’encadrement des projets.

En conclusion c’est la première fois que j’assiste à une présentation du projet en étant dans le public 😉