vnunet.fr
Le site de référence des nouvelles technologies

Misterbot adopte la technologie de recherche open source Nutch

Mots clés associés

Misterbot adopte la technologie de recherche open source Nutch

Le français Misterbot relance son moteur avec une nouvelle technologie open source.

Christophe Dutheil, VNUnet.fr 10.03.2006

Publicité

Le petit moteur francophone Misterbot a adopté la technologie open source Nutch. Objectif : se différencier des grands outils disponibles sur le marché français. "On constate de plus en plus qu'une immense partie des moteurs se sont rapprochés du modèle de Google pour classer leurs résultats quasiment dans le même ordre et qu'il y a un intérêt pour un type de recherche complémentaire", justifie Sylvain Milon, le créateur de Misterbot et de sa régie publicitaire Misterbot.com.

La principale originalité de cette technologie réside dans la transparence de son activité d'indexation. Un lien "Pertinence" figurant en bas de chaque résultat indique pourquoi "ce site a été sélectionné plus qu'un autre pour répondre à votre requête", précise Sylvain Milon. Il ajoute que Nutch offre un autre avantage pour un outil de recherche francophone, avec son "système de plug-in linguistique qui permet de déterminer la langue d'une page et donc de restreindre l'indexation aux contenus rédigés dans une langue donnée".

Créé en 2001 par SM Conseils, Misterbot s'appuyait à l'origine sur un script open source en langage C++, Aspseek, avec lequel il a indexé plus de 34 millions de pages Web en quatre ans. En adoptant Nutch, un programme en Java, le moteur redémarre actuellement entièrement son indexation et espère accroître ses capacités de crawling. "Contrairement à ASPSeek, qui ne peut gérer qu'un seul serveur, Nutch présente l'intérêt de pouvoir gérer un ensemble très important de serveurs. Il s'appuie pour cela sur la technologie MapReduce développée par Google", s'enthousiasme Sylvain Milon.

A l'origine de Nutch

Cette technologie de recherche est issue d'un projet communautaire coordonné depuis 2003 par le développeur américain Doug Cutting (un ex-employé du moteur Excite). Elle est déjà exploitée par d'autres moteurs comme l'américain Mozdex ou le belge Illico Presto. Un groupe de développeurs français travaille en outre actuellement sur une déclinaison "gauloise" de cette initiative, baptisée Frutch (pour "FRench nUTCH").

A noter, enfin, que le projet Nutch a bénéficié en 2003 d'un soutien financier de la part d'Overture, la régie publicitaire rachetée par Yahoo durant cette même année. Ce dernier l'a testée sur un serveur dédié avant d'interrompre son projet fin 2004.


Haut de la page ^