Os robôs de metatag deve ser colocado em todas as páginas e tem o objetivo de fornecer informações ao spider para indicar quais páginas indexar e quais devem ser puladas.
Aqui está sua sintaxe:
- diz ao spider para arquivar a página no banco de dados ÍNDICE
- NOINDEX diz ao spider para não armazenar a página no banco de dados
- SIGA diga à aranha para seguir os links da página
- NOFOLLOW diga à aranha para não seguir os links da página
A tag do robô deve ser inserida no conteúdo do cabeça, entre as tags E página como neste exemplo:
O título da página O conteúdo da sua página da web
O Google adiciona o conteúdo das páginas indexadas ao seu banco de dados à medida que navega pelas páginas. O conteúdo salvo é chamado de versão Esconderijo, e podem ser vistos clicando no link Conteúdo Esconderijo. Se você não quiser que o conteúdo seja salvo no banco de dados do Google, use esta tag:
Isso não impedirá o Google de indexar sua página, apenas evita salvar conteúdo que você pode achar impróprio apresentar em versões desatualizadas. Se você não quiser indexar a página, ainda precisará usar a tag “noindex”.
Outra alternativa ao procedimento acima é comunicar-se de forma direcionada com o google spider ou outro agente. Isso permitirá que os outros mecanismos armazenem os dados, mas não o google.
Il arquivo robots.txt Deve estar inserido na raiz do site e é composto por:
Agente de usuário:
Disallow:
No campo User-agent você deve colocar o nome do spider. Com o símbolo * você está se referindo a todas as aranhas.
No campo Disallow: você dirá o que não deseja que o spider retire. Por exemplo, diga ao Google para não obter o arquivo soultricks.htm
- User-agent: googlebot
- Disallow: /soultricks.htm
Exemplo de registro:
User-agent: googlebot
Disallow: /testi.html
Disallow: / poesie /
O registro mencionado informa ao Google ("googlebot" é o nome do Google spider) que não é permitido baixar o arquivo text.html ou acessar o diretório "poemas" e seu conteúdo, incluindo subdiretórios. Observe como o nome do arquivo é precedido por um caractere "/" (que indica o diretório raiz do site) e como o nome do diretório também usa um caractere "/" no final.
O campo Agente de usuário pode conter um asterisco "*", Sinônimo de "qualquer aranha". Portanto, o exemplo a seguir diz a todos os spiders para não buscarem o arquivo temporário.html:
User-agent: *
Disallow: /temporaneo.html
O campo desaprovar ele pode conter um caractere "/" para indicar "qualquer arquivo e diretório". O exemplo a seguir evita que uma scooter (aranha de Altavista) pegue qualquer coisa:
User-agent: scooter
Disallow: /
Finalmente, o campo Disallow pode ser deixado em branco, indicando que não há arquivos ou diretórios que você deseja impedir de serem selecionados. O exemplo a seguir mostra como dizer a todos os mecanismos de pesquisa para buscar todos os arquivos do site:
User-agent: *
Disallow:
Exemplo de um arquivo robots.txt
O arquivo robots.txt é composto por um ou mais registros, cada um dos quais examina diferentes spiders. Então, aqui está um exemplo completo de arquivo robots.txt, que bloqueia completamente Altavista, evita Google acesso a alguns arquivos e diretórios e deixe livre acesso a todos os outros motores de busca.
User-agent: scooter
Disallow: /
User-agent: googlebot
Disallow: /intestazione.html
Disallow: /links.html
Disallow: / temporário /
Não permitir: / cgi-bin /
User-agent: *
Disallow:
Aqui está a lista de algumas aranhas
Spider Search engine
========================
googlebot google
rápido rápido - Alltheweb
slurp Inktomi - Yahoo!
Scooter altavista
mercator Altavista
Ask Jeeves Ask Jeeves
teoma_agent Teoma
ia_archiver Alexa - Arquivo da Internet