Écriture d'un fichier Robots.txt

Les Robots Web (aussi désignés par le terme Araignées, ou en anglais Spider) sont des moteurs de recherche qui ont pour tâche de " butiner " sur Internet et d'indexer les pages des serveurs Web. Le robot catalogue alors les informations recueillies pour les mettre à la disposition des utilisateurs lors de leurs recherches sur Internet. Il est dès lors plus facile de trouver en une seule opération des informations spécifiques sur Internet grâce au " one-stop shopping " via le site Web du robot. La majorité des robots classent également par ordre de priorité les documents disponibles sur Internet, permettant d'affecter une note aux résultats de la recherche ou de les trier en fonction de leur pertinence probable avec la question posée.

Un fichier Robots.txt est un fichier texte spécifique qui sera toujours situé dans le répertoire racine de votre serveur Web. Ce fichier contient des restrictions à l'attention des robots Web et leur indique où ils ont la permission de rechercher. En réalité, rien n'impose à ces robots de respecter strictement les directives d'un tel fichier, mais la plupart des robots, lorsqu'ils ont été bien conçus, se plient généralement aux règles définies.

INFORMATIONS COMPLEMENTAIRES :

Un robot s'identifie lorsqu'il désire parcourir votre site. Cette démarche, connue sous le nom " Agent utilisateur " est consignée dans les journaux de IIS. En général, le flux des événements lorsqu'un robot Web accède à votre site est semblable à ceci :

Le robot demande votre fichier /robots.txt et recherche une ligne User-agent: (agent utilisateur) qui lui soit destinée spécifiquement.

si une entrée le concernant est trouvée, comme "User-agent: WebRobot", il suit alors les règles qui lui sont imposées.
si aucune entrée ne lui est adressée, il recherche alors un jeu de règles globales, telles que "User-agent: *", et obéit aux prescriptions établies.
si une entrée concerne le robot et qu'un jeu de règles globales est aussi présent, les règles individuelles imposées au robot prévalent sur les règles globales.

Les règles relatives à un agent utilisateur sont organisées sous la forme d'instructions "Disallow:" spécifiant à un robot où il lui est interdit d'effectuer une recherche. Une telle instruction pourra être appliquée à une adresse quelconque sollicitée par le robot.
Les lignes commençant par le signe dièse (#) signalent des commentaires, ce qui peut être utile lors de la création de jeux de règles longs.

EXEMPLES :
- "Disallow: /test" indique à un robot d'ignorer /test/index.htm, et ainsi de suite.
- "Disallow: /" indique à un robot d'ignorer l'intégralité du site, ce qui peut parfois être souhaitable.
- "Disallow: " permet à un robot de parcourir le site entier.
- L'exemple ci-dessous interdit le site entier à tous les robots :
# Modifications applicables à tous les robots
User-agent: *
Disallow: /
- L'exemple suivant interdit à un robot nommé WebSpider l'accès aux répertoires virtuels /marketing et /sales :
# Zones d'exclusion concernant WebSpider
User-agent: WebSpider
Disallow: /marketing
Disallow: /sales
# Autorisation donnée à tous les autres robots de procéder à une recherche sans restriction de sites
User-agent: *
Disallow:
- L' exemple suivant n'autorise que le seul robot nommé SpiderOne à parcourir le site et en interdit l'accès à tous les autres :
# Permission à SpiderOne de parcourir le site
User-agent: SpiderOne
Disallow:
# Refus à tous les autres robots
User-agent: *
Disallow: /
- Le dernier exemple ci-dessous exclut les chemins d'accès FrontPage à la racine de votre site Web :
# Ignorer les fichiers FrontPage
User-agent: *
Disallow: /_borders
Disallow: /_derived
Disallow: /_fpclass
Disallow: /_overlay
Disallow: /_private
Disallow: /_themes
Disallow: /_vti_bin
Disallow: /_vti_cnf
Disallow: /_vti_log
Disallow: /_vti_map
Disallow: /_vti_pvt
Disallow: /_vti_txt
REFERENCES :
Pour plus de renseignements sur la constitution de fichiers Robots.txt, veuillez-vous référer à l'URL suivante :
- http: //info.webcrawler.com/mak/projects/robots/norobots.html
MOTS-CLES :
La liste de(s) mot(s) suivant(s) permet une recherche plus efficace de cette fiche technique :
Robots

Un service Serveurs.Net.