➤ A metatag de robôs e o arquivo robots.txt 🎮

Os robôs de metatag deve ser colocado em todas as páginas e tem o objetivo de fornecer informações ao spider para indicar quais páginas indexar e quais devem ser puladas.

Aqui está sua sintaxe:

diz ao spider para arquivar a página no banco de dados ÍNDICE
NOINDEX diz ao spider para não armazenar a página no banco de dados
SIGA diga à aranha para seguir os links da página
NOFOLLOW diga à aranha para não seguir os links da página

A metatag de robôs e o arquivo robots.txt

A tag do robô deve ser inserida no conteúdo do cabeça, entre as tags E página como neste exemplo:

O título da página O conteúdo da sua página da web

O Google adiciona o conteúdo das páginas indexadas ao seu banco de dados à medida que navega pelas páginas. O conteúdo salvo é chamado de versão Esconderijo, e podem ser vistos clicando no link Conteúdo Esconderijo. Se você não quiser que o conteúdo seja salvo no banco de dados do Google, use esta tag:

Isso não impedirá o Google de indexar sua página, apenas evita salvar conteúdo que você pode achar impróprio apresentar em versões desatualizadas. Se você não quiser indexar a página, ainda precisará usar a tag “noindex”.

Outra alternativa ao procedimento acima é comunicar-se de forma direcionada com o google spider ou outro agente. Isso permitirá que os outros mecanismos armazenem os dados, mas não o google.

A metatag de robôs e o arquivo robots.txt

Il arquivo robots.txt Deve estar inserido na raiz do site e é composto por:

Agente de usuário:
Disallow:

No campo User-agent você deve colocar o nome do spider. Com o símbolo * você está se referindo a todas as aranhas.

No campo Disallow: você dirá o que não deseja que o spider retire. Por exemplo, diga ao Google para não obter o arquivo soultricks.htm

User-agent: googlebot
Disallow: /soultricks.htm

Exemplo de registro:

User-agent: googlebot
Disallow: /testi.html
Disallow: / poesie /

O registro mencionado informa ao Google ("googlebot" é o nome do Google spider) que não é permitido baixar o arquivo text.html ou acessar o diretório "poemas" e seu conteúdo, incluindo subdiretórios. Observe como o nome do arquivo é precedido por um caractere "/" (que indica o diretório raiz do site) e como o nome do diretório também usa um caractere "/" no final.

O campo Agente de usuário pode conter um asterisco "*", Sinônimo de "qualquer aranha". Portanto, o exemplo a seguir diz a todos os spiders para não buscarem o arquivo temporário.html:

User-agent: *
Disallow: /temporaneo.html

O campo desaprovar ele pode conter um caractere "/" para indicar "qualquer arquivo e diretório". O exemplo a seguir evita que uma scooter (aranha de Altavista) pegue qualquer coisa:

User-agent: scooter
Disallow: /

Finalmente, o campo Disallow pode ser deixado em branco, indicando que não há arquivos ou diretórios que você deseja impedir de serem selecionados. O exemplo a seguir mostra como dizer a todos os mecanismos de pesquisa para buscar todos os arquivos do site:

User-agent: *
Disallow:

Exemplo de um arquivo robots.txt

O arquivo robots.txt é composto por um ou mais registros, cada um dos quais examina diferentes spiders. Então, aqui está um exemplo completo de arquivo robots.txt, que bloqueia completamente Altavista, evita Google acesso a alguns arquivos e diretórios e deixe livre acesso a todos os outros motores de busca.

User-agent: scooter
Disallow: /

User-agent: googlebot
Disallow: /intestazione.html
Disallow: /links.html
Disallow: / temporário /
Não permitir: / cgi-bin /

User-agent: *
Disallow:

Aqui está a lista de algumas aranhas

Spider Search engine
========================
googlebot google
rápido rápido - Alltheweb
slurp Inktomi - Yahoo!
Scooter altavista
mercator Altavista
Ask Jeeves Ask Jeeves
teoma_agent Teoma
ia_archiver Alexa - Arquivo da Internet