Qu’est Ce Qu’un Robot ? - AFS

AFS et les Robots

Product
AFS
AFS_Version
7.10
Category
Technical Notes

Wikipédia nous dit

Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.

Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.

Ces robots peuvent parcourir l’intégralité des pages et formulaires de vos sites.

Quelques robots remarquables :

Nom du robot

Entité

AntiBot

Antidot

Googlebot

Google

MSNBot

MSN

Slurp

Yahoo !

KB Crawl

KB CRAWL SAS

OmniExplorer_Bot

OmniExplorer

TwengaBot

Twenga

ExaBot

Exalead

Les robots sont identifiables par leur User-Agent.

Wikipédia nous dit :

Un User-Agent est une application cliente utilisée avec un protocole réseau particulier ; l'expression est plus généralement employée comme référence pour celles qui accèdent au World Wide Web. Les User-Agents du Web vont de la gamme des navigateurs jusqu'aux robots d'indexation, en passant par les lecteurs d'écran ou les navigateurs braille pour les personnes ayant une incapacité.

La chaîne « User-Agent » est l'un des critères utilisé pour exclure un certain nombre de pages ou une partie d'un site web en utilisant le « Robots Exclusion Standard » (robots.txt).