Larbin

Web crawler généraliste

english version

Présentation

Larbin est un web crawler (synonyme de (web) robot, spider, scooter, aspirateur...). Il est dimensionné pour ramener une grande quantité de pages web pour remplir la base de données d'un moteur de recherche. A condition d'avoir un réseau suffisament rapide, Larbin est censé être capable de ramener plus de 100 millions de pages sur un PC classique.

Larbin est juste un crawler. Il ne contient aucun outil pour indexer vos données.

Larbin a été initialement développé pour le projet XYLEME de l'équipe VERSO de l'INRIA. Son but était de récupérer toutes les pages xml présentes sur le web pour approvisionner la base de données d'un moteur de recherche tourné vers le xml. Du fait de cette conception, Larbin est très généraliste.

Comment utiliser Larbin
Comment éduquer votre Larbin

Disponiblité (Télécharger)

Larbin est à la disposition de tout le monde. Il est sous license GPL. Les critiques (constructives) sont les bienvenues !
Malgré tout, un tel programme n'est pas fait pour être utilisé par n'importe qui et n'importe comment : Larbin n'est pas orienté vers le grand public (wget ou ht://dig sont sans doute plus appropriés dans beaucoup de cas).

Quoi qu'il en soit, je ne suis aucunement responsable des dommages causés par l'utilisation de Larbin.

État actuel

Le programme actuel est capable de récupérer 5.000.000 de pages par jour sur un PC standard (la vitesse dépend en fait principalement de votre réseau).
Larbin fonctionne sous Linux et utilise les librairies standards, plus la librairie adns (elle est incluse dans le logiciel). Le programme est très faiblement multithreadé et privilégie l'utilisation de fonctions non bloquantes (select et adns) pour des raisons d'efficacité.
L'intérêt de Larbin par rapport à wget ou ht://dig est qu'il est beaucoup plus rapide (car il peut gérer plusieurs centaines de connexions en parallèle) et qu'il est très généraliste (en particulier très spécialisable).

A faire

De nombreuses fonctionnalités peuvent être ajoutées. N'hésitez pas à me contacter (sebastien@ailleret.com) si vous avez besoin d'une nouvelle fonction. Voici quelques améliorations en vue : Voici quelques idées de choses faisables avec Larbin :
sebastien@ailleret.com
home page
SourceForge Logo