WebSPHINX le roi du crawl

Logo javaNon, je vous le dis tout de suite, ce post n’a rien à voir avec la natation et encore moins avec la charmante Laure Manaudou.

Crawl, de l’anglais, signifie ici « exploration » .

Oui ! Car WebSPHINX est un crawler, c’est-à-dire, un système qui à l’instar du Google bot va parcourir les pages d’un site en s’aidant des liens qu’il trouve sur chaque page.
Ce petit logiciel développé en JAVA est avant tout là pour mettre en avant une librairie JAVA : WebSPHINX class library.
J’ai découvert cet outil lors d’une recherche d’informations sur le fonctionnement des crawler.
Celui-ci se présente en deux parties, la première est la class à proprement parlé, et la seconde est un système utilisant la première.

Mais que fait WebSPHINX ?

Tout cela :

  • Visualiser un ensemble de page web sous forme d’un graphique (très gourmand en mémoire)
  • Sauvegarder des pages web sur son poste de travail
  • Concaténer un ensemble de pages pour les visualiser ou les imprimer comme un seul document
  • Extraire certaines partie de texte de pages en fonction de masque définis

WebSPHINXPersonnellement je m’en sers principalement pour tester l’ensemble des liens présents sur les sites que je développe. Et ainsi éviter de se retrouver avec des liens morts…
J’apprécie cet outil pour sa simplicité, cependant, comme il est développé en JAVA celui-ci est extrêmement gourmand en mémoire.
Donc si vous souhaitez crawler un site ayant un grand nombre de pages je vous conseille d’utiliser une des lignes de commandes (pour Windows) ci-dessous. Elles permettent d’allouer plus de mémoire à la JVM (Java Virtual MAchine)

java -Xmn512m -Xmx1024m -jar "D:Outilswebsphinx.jar" // avec association à la console
Si vous fermez l’invité de commande, l’application se ferme aussi

javaw -Xmn512m -Xmx1024m -jar "D:Outilswebsphinx.jar" // sans association à la console
Si vous fermez l’invité de commande, l’application reste.

Bien sûr il est gratuit et téléchargeable à cette adresse : http://www.cs.cmu.edu/~rcm/websphinx/websphinx.jar

Pour plus d’information sur WebSPHINX direction le site officiel.

Tagués avec : , ,
Publié dans Java, Outils

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*