La balise meta robots et le fichier robots.txt

Il meta tag robots il doit être placé sur toutes les pages et a pour but de donner des informations à l'araignée pour indiquer quelles pages indexer et lesquelles doivent être ignorées.

Voici sa syntaxe :



  • dit à l'araignée d'archiver la page dans la base de données INDEX
  • NOINDEX dit à l'araignée de ne pas stocker la page dans la base de données
  • suivez nous dites à l'araignée de suivre les liens sur la page
  • NOFOLLOW dites à l'araignée de ne pas suivre les liens sur la page

 



La balise meta robots et le fichier robots.txt

La balise robots doit être insérée dans le contenu du front, entre les balises Et page comme dans cet exemple :

Le titre de la page Le contenu de votre page Web

Google ajoute le contenu des pages indexées à sa base de données au fur et à mesure qu'il parcourt les pages. Le contenu enregistré est appelé la version Cache, et peut être consulté en cliquant sur le lien Teneur Cache. Si vous ne souhaitez pas que le contenu soit enregistré dans la base de données Google, utilisez cette balise :

Cela n'empêchera pas Google d'indexer votre page, cela évite juste d'enregistrer du contenu que vous pourriez trouver inapproprié de présenter dans des versions obsolètes. Si vous ne souhaitez pas indexer la page, vous devrez toujours utiliser la balise "noindex".

Une autre alternative à la procédure ci-dessus consiste à communiquer de manière ciblée avec l'araignée google ou un autre agent. Cela permettra aux autres moteurs de stocker les données mais pas à Google.


La balise meta robots et le fichier robots.txt


Il fichier robots.txt Il doit être inséré à la racine du site et est composé de :

Agent utilisateur:
Disallow:

Dans le champ User-agent, vous devez mettre le nom de l'araignée. Avec le symbole * vous faites référence à toutes les araignées.

Dans le champ Disallow : vous direz ce que vous ne voulez pas que l'araignée retire. Ex. Dites à Google de ne pas récupérer le fichier soultricks.htm

  • Agent utilisateur: googlebot
  • Interdire : /soultricks.htm

Exemple d'enregistrement :

Agent utilisateur: googlebot
Interdire : /testi.html
Interdire : / poèmes /

L'enregistrement susmentionné indique à Google ("googlebot" est le nom de l'araignée de Google) qu'il n'est pas autorisé à télécharger le fichier text.html ou à accéder au répertoire "poems" et à son contenu, y compris les sous-répertoires. Remarquez comment le nom du fichier est précédé d'un caractère "/" (qui indique le répertoire racine du site) et comment le nom du répertoire utilise également un caractère "/" à la fin.

Le champ User-agent peut contenir un Asterisco "*", Synonyme de "toute araignée". Ainsi, l'exemple suivant indique à toutes les araignées de ne pas récupérer le fichier Temporary.html :

User-agent: *
Interdire : /temporaneo.html

Le champ Disallow il peut contenir un caractère "/" pour indiquer "tout fichier et répertoire". L'exemple suivant empêche un scooter (l'araignée d'Altavista) de ramasser quoi que ce soit :


User-agent: scooter
Interdit: /

Enfin, le champ Interdire peut être laissé vide, indiquant qu'il n'y a aucun fichier ou répertoire que vous souhaitez empêcher d'être récupéré. L'exemple suivant montre comment demander à tous les moteurs de recherche de récupérer tous les fichiers du site :

User-agent: *
Disallow:

 

Exemple de fichier robots.txt

Le fichier robots.txt est composé d'un ou plusieurs enregistrements, chacun examinant différentes araignées. Voici donc un exemple complet de fichier robots.txt, qui bloque complètement Altavista, empêche Google accéder à certains fichiers et répertoires et laisser libre accès à tous les autres moteurs de recherche.


User-agent: scooter
Interdit: /

Agent utilisateur: googlebot
Interdire : /intestazione.html
Interdire : /links.html
Interdire : / temporaire /
Disallow: / cgi-bin /

User-agent: *
Disallow:

 

Voici la liste de quelques Araignées

Moteur de recherche Spider
========================
googlebot Google
rapide Rapide – Alltheweb
slurp Inktomi – Yahoo!
Trottinette Altavista
Mercator Altavista
Demandez à Jeeves Demandez à Jeeves
teoma_agent Teoma
ia_archiver Alexa - Archives Internet

ajouter un commentaire de La balise meta robots et le fichier robots.txt
Commentaire envoyé avec succès ! Nous l'examinerons dans les prochaines heures.