La balise meta robots et le fichier robots.txt

Il meta tag robots il doit ĂȘtre placĂ© sur toutes les pages et a pour but de donner des informations Ă  l'araignĂ©e pour indiquer quelles pages indexer et lesquelles doivent ĂȘtre ignorĂ©es.

Voici sa syntaxe :



  • dit Ă  l'araignĂ©e d'archiver la page dans la base de donnĂ©es INDEX
  • NOINDEX dit Ă  l'araignĂ©e de ne pas stocker la page dans la base de donnĂ©es
  • suivez nous dites Ă  l'araignĂ©e de suivre les liens sur la page
  • NOFOLLOW dites Ă  l'araignĂ©e de ne pas suivre les liens sur la page

 



La balise meta robots et le fichier robots.txt

La balise robots doit ĂȘtre insĂ©rĂ©e dans le contenu du front, entre les balises Et page comme dans cet exemple :

Le titre de la page Le contenu de votre page Web

Google ajoute le contenu des pages indexĂ©es Ă  sa base de donnĂ©es au fur et Ă  mesure qu'il parcourt les pages. Le contenu enregistrĂ© est appelĂ© la version Cache, et peut ĂȘtre consultĂ© en cliquant sur le lien Teneur Cache. Si vous ne souhaitez pas que le contenu soit enregistrĂ© dans la base de donnĂ©es Google, utilisez cette balise :

Cela n'empĂȘchera pas Google d'indexer votre page, cela Ă©vite juste d'enregistrer du contenu que vous pourriez trouver inappropriĂ© de prĂ©senter dans des versions obsolĂštes. Si vous ne souhaitez pas indexer la page, vous devrez toujours utiliser la balise "noindex".

Une autre alternative à la procédure ci-dessus consiste à communiquer de maniÚre ciblée avec l'araignée google ou un autre agent. Cela permettra aux autres moteurs de stocker les données mais pas à Google.


La balise meta robots et le fichier robots.txt


Il fichier robots.txt Il doit ĂȘtre insĂ©rĂ© Ă  la racine du site et est composĂ© de :

Agent utilisateur:
Disallow:

Dans le champ User-agent, vous devez mettre le nom de l'araignée. Avec le symbole * vous faites référence à toutes les araignées.

Dans le champ Disallow : vous direz ce que vous ne voulez pas que l'araignée retire. Ex. Dites à Google de ne pas récupérer le fichier soultricks.htm

  • Agent utilisateur: googlebot
  • Interdire : /soultricks.htm

Exemple d'enregistrement :

Agent utilisateur: googlebot
Interdire : /testi.html
Interdire : / poĂšmes /

L'enregistrement susmentionné indique à Google ("googlebot" est le nom de l'araignée de Google) qu'il n'est pas autorisé à télécharger le fichier text.html ou à accéder au répertoire "poems" et à son contenu, y compris les sous-répertoires. Remarquez comment le nom du fichier est précédé d'un caractÚre "/" (qui indique le répertoire racine du site) et comment le nom du répertoire utilise également un caractÚre "/" à la fin.

Le champ User-agent peut contenir un Asterisco "*", Synonyme de "toute araignĂ©e". Ainsi, l'exemple suivant indique Ă  toutes les araignĂ©es de ne pas rĂ©cupĂ©rer le fichier Temporary.html :

User-agent: *
Interdire : /temporaneo.html

Le champ Disallow il peut contenir un caractĂšre "/" pour indiquer "tout fichier et rĂ©pertoire". L'exemple suivant empĂȘche un scooter (l'araignĂ©e d'Altavista) de ramasser quoi que ce soit :


User-agent: scooter
Interdit: /

Enfin, le champ Interdire peut ĂȘtre laissĂ© vide, indiquant qu'il n'y a aucun fichier ou rĂ©pertoire que vous souhaitez empĂȘcher d'ĂȘtre rĂ©cupĂ©rĂ©. L'exemple suivant montre comment demander Ă  tous les moteurs de recherche de rĂ©cupĂ©rer tous les fichiers du site :

User-agent: *
Disallow:

 

Exemple de fichier robots.txt

Le fichier robots.txt est composĂ© d'un ou plusieurs enregistrements, chacun examinant diffĂ©rentes araignĂ©es. Voici donc un exemple complet de fichier robots.txt, qui bloque complĂštement Altavista, empĂȘche Google accĂ©der Ă  certains fichiers et rĂ©pertoires et laisser libre accĂšs Ă  tous les autres moteurs de recherche.


User-agent: scooter
Interdit: /

Agent utilisateur: googlebot
Interdire : /intestazione.html
Interdire : /links.html
Interdire : / temporaire /
Disallow: / cgi-bin /

User-agent: *
Disallow:

 

Voici la liste de quelques Araignées

Moteur de recherche Spider
========================
googlebot Google
rapide Rapide – Alltheweb
slurp Inktomi – Yahoo!
Trottinette Altavista
Mercator Altavista
Demandez Ă  Jeeves Demandez Ă  Jeeves
teoma_agent Teoma
ia_archiver Alexa - Archives Internet

ajouter un commentaire de La balise meta robots et le fichier robots.txt
Commentaire envoyé avec succÚs ! Nous l'examinerons dans les prochaines heures.