Il meta tag robots il doit ĂȘtre placĂ© sur toutes les pages et a pour but de donner des informations Ă l'araignĂ©e pour indiquer quelles pages indexer et lesquelles doivent ĂȘtre ignorĂ©es.
Voici sa syntaxe :
- dit à l'araignée d'archiver la page dans la base de données INDEX
- NOINDEX dit à l'araignée de ne pas stocker la page dans la base de données
- suivez nous dites à l'araignée de suivre les liens sur la page
- NOFOLLOW dites à l'araignée de ne pas suivre les liens sur la page
La balise robots doit ĂȘtre insĂ©rĂ©e dans le contenu du front, entre les balises Et page comme dans cet exemple :
Le titre de la page Le contenu de votre page Web
Google ajoute le contenu des pages indexĂ©es Ă sa base de donnĂ©es au fur et Ă mesure qu'il parcourt les pages. Le contenu enregistrĂ© est appelĂ© la version Cache, et peut ĂȘtre consultĂ© en cliquant sur le lien Teneur Cache. Si vous ne souhaitez pas que le contenu soit enregistrĂ© dans la base de donnĂ©es Google, utilisez cette balise :
Cela n'empĂȘchera pas Google d'indexer votre page, cela Ă©vite juste d'enregistrer du contenu que vous pourriez trouver inappropriĂ© de prĂ©senter dans des versions obsolĂštes. Si vous ne souhaitez pas indexer la page, vous devrez toujours utiliser la balise "noindex".
Une autre alternative à la procédure ci-dessus consiste à communiquer de maniÚre ciblée avec l'araignée google ou un autre agent. Cela permettra aux autres moteurs de stocker les données mais pas à Google.
Il fichier robots.txt Il doit ĂȘtre insĂ©rĂ© Ă la racine du site et est composĂ© de :
Agent utilisateur:
Disallow:
Dans le champ User-agent, vous devez mettre le nom de l'araignée. Avec le symbole * vous faites référence à toutes les araignées.
Dans le champ Disallow : vous direz ce que vous ne voulez pas que l'araignée retire. Ex. Dites à Google de ne pas récupérer le fichier soultricks.htm
- Agent utilisateur: googlebot
- Interdire : /soultricks.htm
Exemple d'enregistrement :
Agent utilisateur: googlebot
Interdire : /testi.html
Interdire : / poĂšmes /
L'enregistrement susmentionné indique à Google ("googlebot" est le nom de l'araignée de Google) qu'il n'est pas autorisé à télécharger le fichier text.html ou à accéder au répertoire "poems" et à son contenu, y compris les sous-répertoires. Remarquez comment le nom du fichier est précédé d'un caractÚre "/" (qui indique le répertoire racine du site) et comment le nom du répertoire utilise également un caractÚre "/" à la fin.
Le champ User-agent peut contenir un Asterisco "*", Synonyme de "toute araignée". Ainsi, l'exemple suivant indique à toutes les araignées de ne pas récupérer le fichier Temporary.html :
User-agent: *
Interdire : /temporaneo.html
Le champ Disallow il peut contenir un caractĂšre "/" pour indiquer "tout fichier et rĂ©pertoire". L'exemple suivant empĂȘche un scooter (l'araignĂ©e d'Altavista) de ramasser quoi que ce soit :
User-agent: scooter
Interdit: /
Enfin, le champ Interdire peut ĂȘtre laissĂ© vide, indiquant qu'il n'y a aucun fichier ou rĂ©pertoire que vous souhaitez empĂȘcher d'ĂȘtre rĂ©cupĂ©rĂ©. L'exemple suivant montre comment demander Ă tous les moteurs de recherche de rĂ©cupĂ©rer tous les fichiers du site :
User-agent: *
Disallow:
Exemple de fichier robots.txt
Le fichier robots.txt est composĂ© d'un ou plusieurs enregistrements, chacun examinant diffĂ©rentes araignĂ©es. Voici donc un exemple complet de fichier robots.txt, qui bloque complĂštement Altavista, empĂȘche Google accĂ©der Ă certains fichiers et rĂ©pertoires et laisser libre accĂšs Ă tous les autres moteurs de recherche.
User-agent: scooter
Interdit: /
Agent utilisateur: googlebot
Interdire : /intestazione.html
Interdire : /links.html
Interdire : / temporaire /
Disallow: / cgi-bin /
User-agent: *
Disallow:
Voici la liste de quelques Araignées
Moteur de recherche Spider
========================
googlebot Google
rapide Rapide â Alltheweb
slurp Inktomi â Yahoo!
Trottinette Altavista
Mercator Altavista
Demandez Ă Jeeves Demandez Ă Jeeves
teoma_agent Teoma
ia_archiver Alexa - Archives Internet