Larbin
Web crawler généraliste
|
|
Présentation
Larbin est un web crawler (synonyme de (web) robot, spider, scooter,
aspirateur...). Il est dimensionné pour ramener une grande quantité de
pages web pour remplir la base de données d'un moteur de recherche. A
condition d'avoir un réseau suffisament rapide, Larbin est censé être
capable de ramener plus de 100 millions de pages sur un PC classique.
Larbin est juste un crawler. Il ne contient aucun outil pour
indexer vos données.
Larbin a été initialement développé pour le projet XYLEME de
l'équipe VERSO de l'INRIA. Son but était de récupérer toutes les pages
xml présentes sur le web pour approvisionner la base de données d'un
moteur de recherche tourné vers le xml. Du fait de cette conception,
Larbin est très généraliste.
Comment utiliser Larbin
Comment éduquer votre Larbin
Larbin est à la disposition de tout le monde. Il est sous license
GPL. Les critiques (constructives) sont les bienvenues !
Malgré tout, un tel programme n'est pas fait pour être utilisé par
n'importe qui et n'importe comment : Larbin n'est pas orienté vers le
grand public (wget ou ht://dig sont sans doute plus appropriés dans
beaucoup de cas).
Quoi qu'il en soit, je ne suis aucunement responsable des dommages
causés par l'utilisation de Larbin.
État actuel
Le programme actuel est capable de récupérer 5.000.000 de
pages par jour sur un PC standard (la vitesse dépend en fait
principalement de votre réseau).
Larbin fonctionne sous Linux et utilise les librairies standards,
plus la librairie adns (elle est
incluse dans le logiciel). Le programme est très faiblement
multithreadé et privilégie l'utilisation de fonctions non bloquantes
(select et adns) pour des raisons d'efficacité.
L'intérêt de Larbin par rapport à wget ou ht://dig est qu'il est
beaucoup plus rapide (car il peut gérer plusieurs centaines de
connexions en parallèle) et qu'il est très généraliste (en particulier
très spécialisable).
A faire
De nombreuses fonctionnalités peuvent être ajoutées. N'hésitez pas à
me contacter (sebastien@ailleret.com)
si vous avez besoin d'une nouvelle fonction. Voici quelques
améliorations en vue :
- Faire tourner le programme en parallèle de façon coopérative sur
plusieurs ordinateurs à la fois.
- Assurer la compatibilité avec Solaris.
Voici quelques idées de choses faisables avec Larbin :
- Crawler pour un moteur de recherche classique
- Crawler pour un moteur de recherche spécialisé. ex :
recherche des pages xml, d'images, de mp3...
- Statistiques sur le web (sur serveurs web ou contenu des pages)