Posted by & filed under blog.

Bonjour, cette année encore nous proposons des stages à destination d’étudiants en Stage M4 ou M5. Nous recherchons des profils techniques en développement web et big data / web sémantique mais aussi des profils commerciaux pour être en charge du développement commercial et de la recherche de clients.

Description du projet

Reador.NET fournit des méthodes innovantes de suivi de news. Au coeur du système on retrouve un agrégateur de news basé sur des flux RSS, mais aussi sur des flux en provenance de réseaux sociaux (twitter, google+…). En utilisant la puissance du web sémantique nous sommes capable d’annoter et de « tagguer » chaque news. Ces tags sont la base de filtres sémantiques. Les filtres permettent aux utilisateurs de récupérer uniquement les news qui sont proches de leurs besoins.

Cet outil, Reador.NET permet aux utilisateurs et entreprises de mettre en place une stratégie de veille en ligne et de suivi de l’information. Il effectue en temps réel une analyse de toutes les news publiées sur internet pour en extraire automatiquement les contenus pouvant intéresser les veilleurs. Ces contenus sont enrichis sémantiquement à l’aide de tags qui vont permettre à l’utilisateur de mettre en place une stratégie de catégorisation des news sur notre outil.

L’outil est fourni clé en main sur notre plateforme web sous forme de SaaS (Software As A Service) afin de faciliter son utilisation par les clients. Ils ont uniquement besoin d’un navigateur web pour accéder à leurs résultats de veille.

(description plus détaillé en fin de page)

Objectif des stages

 

Stage développement client web

L’objectif de ce stage est de proposer une optimisation de l’IHM existante en l’adaptant aux lecteurs et/ou rédacteurs d’informations. L’IHM refondue sera utilisée comme client officiel du projet ZONE. C’est une étape critique du projet car elle permettra de fournir une interface graphique en adéquation avec les attentes des utilisateurs (lecteurs, rédacteurs d’informations…) du service. Elle permettra de valoriser le travail d’annotation des news effectué en amont. Vous devrez donc proposer et concevoir au cours de votre stage des améliorations de l’IHM actuellement mise en place à laide framework RubyOnRails. Vous aurez une grande liberté dans le choix des fonctionnalités à implémenter et ferez preuve d’initiatives.

Stage recherche / dev backend big-data

L’objectif est de travailler sur l’analyse de grands jeux de données. Votre but sera de rendre les algorithmes actuels plus efficaces et pertinents. Vous intégrerez la notion de data-mining à l’application avec l’aide de l’équipe technique et de chercheurs Inria. Vous aurez la possibilité de mettre en valeur votre travail grâce à la rédaction d’articles scientifiques. Selon affinité il vous sera proposé de continuer au sein de l’entreprise dans le cadre d’une thèse cifre ou d’un contrat de travail. Technos à maîtriser ou connaitre: dépend de ce que vous pouvez faire, Java/maven , Web Semantique, C/C++, datamining.

Aspects logistiques

Vous percevrez une indemnité de stage entre 450e en cas de stage M4 et 1000 euros en cas de M5. Le stage se déroulera en fonction de votre profil soit au sein de l’équipe WIMMICS sur le centre de recherche INRIA – Sophia Antipolis, soit dans nos bureaux au sein de l’incubateur Paca-EST (business pôle Sophia – proche Garbegaire).

Contact

Christophe Desclaux (Fondateur du projet Reador.NET) christophe@reador.net

Environnement

Environnement de maquettage

Différentes possibilités existent : du maquettage basse-fidélité (maquette papier) au maquettage haute-fidélité (ex. : Axure), en passant par le maquettage fidélité-intermédiaire (ex. : PowerPoint). Le choix de l’environnement sera discuté avec le stagiaire.

Environnement de développement coté client web

Vous développerez l’application à l’aide du framework de développement web RubyOnRails. La base de données à requéter sera de type NoSQL orienté web sémantique (virtuoso) et vous pourrez exploiter MongoDB au sein de votre webApp. Vous develloperez des API Rest, utiliserez jQuery, voir Cofeescript. Vous pourrez mettre en place des tests Cucumber et vous serez en charge du déploiement de l’application. Votre code sera diffusé sur github sous licence libre (Apache v2).

Environnement de développement coté serveur / big-data

….

Environnement de travail : méthodes agiles

Pour le suivi de projet vous travaillerez en mode Agile avec kanban board, daily meetings et outils en ligne tel que pivotaltracker, icescrum …

Description détaillé du projet

Vous cherchez une solution à l’infobésité dans vos emails, flux RSS, ou vos réseaux sociaux? Deux solutions s’offrent à vous: filtrage humain ou automatique. Nous avons choisi de développer des algorithmes qui analysent automatiquement vos contenus pour vous aider à filtrer l’information. Reador.NET fonctionne à la fois en anglais et français, et effectue votre catégorisation automatiquement à l’aide de traitement automatique de texte et de technologies sémantiques.

Le projet est né en octobre 2011 d’un besoin que j’avais, de trouver une alternative à google news et google Reader. Je souhaitais avoir une meilleure maitrise des flux d’information que je récupérais et pouvoir filtrer les news ne correspondant pas à mon besoin. C’est ainsi qu’est venue l’idée de travailler sur une application de veille répondant à mes attentes.

J’ai alors développé durant mes études, une preuve de concept qui m’a permis de valider l’architecture du projet avec une publication scientifique.

En juin 2012, j’ai gagné le concours BoostYourCode organisé par Inria. Le premier lot de ce concours, un an de contrat, m’a permis de développer l’application au sein de l’équipe de recherche Wimmics dirigée par Fabien Gandon.

Grâce à mon immersion dans l’équipe, j’ai appris énormément sur les technologies sémantiques et rencontré de nombreux autres chercheurs concernés par mes problématiques.

En juillet 2013 google a annoncé la disparition de son service d’agrégation google Reader. La disparition de cet acteur historique de veille a permis un renouvellement des acteurs et me laisse le champ libre pour lancer mon projet.

J’ai été assisté en 2012 et 2013 par d’autres étudiants qui m’ont aidé sur des problématiques concrètes:

  • Ameni Bouaziz et Ilhame Elfouzi m’ont assisté sur le data-mining

  • Thibaut Comte a effectué 3 mois de stage sur la conception d’IHMs

  • Jérémie Fabre a rédigé son mémoire de Master Administration d’Entreprise sur les aspects d’analyse marketing et stratégique avant lancement de l’entreprise.

  • 10 étudiants travaillent actuellement sur des améliorations d’ergonomie au projet dans le cadre d’un cours de conception d’IHM:

  • Ajout de la notion de réseau social à l’application pour permettre aux veilleurs d’échanger leurs travaux de curation automatique

  • Intégration de notre solution de filtrage au sein de sites de presse pour permettre la création de recherches avancées et sémantiques sur LesEchos ou LeMonde.

Nous avons présenté notre projet lors d’une quinzaine de conférences afin de tisser des liens avec d’autres startups, équipes de recherches et veilleurs. Les plus importantes se sont déroulées lors de FOSDEM (conférence européenne OpenSource), les Journées Scientifiques Inria qui rassemblaient tous les responsables d’équipes Inria et le Carrefour Des Possibles. (Liste complète en annexe)

Nous proposons une approche innovante pour répondre au problème, car nous effectuons une analyse sémantique automatique de chaque news à destination du “grand public”.

En effet, notre logiciel effectue de la reconnaissance automatique de texte pour comprendre le sens des mots présents dans les textes et ainsi des news. Il s’appuie en outre sur des bases de connaissances telles que wikipedia et d’autres bases de données ouvertes.

Cette approche “sémantique” permet d’effectuer un raisonnement automatique sur chaque news et permet d’en extraire le sens (voir paragraphe III.2.b sur les technologies). Ensuite libre à l’utilisateur de mettre en place des filtres qui récupèreront les informations pertinentes.

Nous utilisons aussi des technologies statistiques (data-mining) pour regrouper automatiquement les news similaires et espérons proposer ainsi un filtrage de plus en plus efficace.

Ces innovations sont, en partie, mises en place pour de grandes entreprises avec des budgets importants, mais nous souhaitons les démocratiser et les rendre accessibles au plus grand nombre pour un faible cout.

Comments are closed.