Robots.txt
Neste artigo, você vai aprender como utilizar o arquivo robots.txt para impedir ou facilitar a indexação de conteúdo pelo Googlebot, o crawler (robô de busca) do Google.
O que é o arquivo robots.txt?
Como você já deve saber, os mecanismos de pesquisa utilizam sites e páginas da web para encontrar novos sites e páginas e indexarem tudo ou quase tudo que aparecer pela frente. Em alguns casos, é necessário que páginas ou diretórios inteiros não sejam indexados. Para isso foi criado o REP.
O REP (Robots Exclusion Protocol) ou Protocolo de Exclusão Robots é um conjunto de padrões web, implementados em um arquivo texto, em formato TXT, criado por qualquer editor de texto simples e posicionado no diretório raiz, com o objetivo de instruir os robôs de busca sobre como rastrear e indexar diretórios e páginas de um site.
Como criar um arquivo robots.txt?
Através de um bloco de notas ou qualquer editor de texto simples de sua preferência, você pode criar um novo arquivo e nomeá-lo de robots.txt. Feito isso, você deve enviar ao diretório raiz, no servidor onde o seu site está hospedado.
Caso o arquivo seja enviado em branco para o diretório raiz, ele estará indicando ao Googlebot que todo o conteúdo do site pode ser indexado. Se você deseja barrar alguma página ou diretório, é necessário utilizar a sintaxe correta, do contrário não vai funcionar, por isso, vamos ver como configurá-lo.
Como configurar um arquivo robots.txt
Para que você tenha facilidade em criar e utilizar o arquivo robots, vamos apresentar a sintaxe e algumas das principais atribuições a serem feitas:
User-agent
O user-agent ou agente de usuário é uma sequência de texto com instruções relevantes de um navegador para um website, como marca, versão, plugins e barras de ferramentas instaladas no browser. Através dessas informações, os sites podem determinar as capacidades do navegador e fornecer as versões de página mais adequadas.
É possível utilizar o agente de usuário para especificar um ou mais robôs de busca para o qual você vai fornecer alguma instrução. Vamos ver dois exemplos comuns de como você pode utilizar esta propriedade:
- Enviar uma instrução para todos os agentes de usuário.
User-agent: *
- Enviar uma instrução específica para o Googlebot.
User-agent: Googlebot
Vale lembrar que os crawlers não se limitam ao Google, veja uma lista de bots populares declarados.
Disallow
Até aqui, nós só dissemos “Ei, Google!”. Agora precisamos transmitir alguma instrução. Uma das mais populares é a propriedade disallow (proibir ou não permitir). Através dela, podemos desabilitar a indexação de todo o site, de alguns diretórios ou de tipos de arquivos específicos. Vamos dar uma olhada:
- Não permitir que nenhum arquivo seja indexado.
User-agent: *
Disallow: /
Sim, é o mesmo que bloquear o site todo. Para incluir várias pastas ou diretórios, você deve criar uma linha para cada instrução ou prefixo de URL. Note que o valor “*” funciona como um curinga, mas com um valor de significado atribuído “qualquer robô” e por isso, você não pode utilizá-lo para fornecer outras especificações genéricas (como expressões regulares), do tipo: disallow: *.gif (para desabilitar todos os arquivos em formato GIF, não funciona dessa maneira).
Uma segunda forma de permitir o acesso total, além daquela com o arquivo em branco é realmente declarar que a indexação é permitida para todos os bots. Fazemos isso da seguinte maneira:
User-agent: *
Disallow:
Allow
A propriedade allow (ou permitir) é comumente utilizada aliada a propriedade disallow. Por diversas vezes, é necessário permitir um diretório, bloqueando apenas uma página ou até algum tipo de arquivo específico. Vamos colocar em prática:
- Não permitir que um diretório seja indexado.
User-agent: *
Disallow: /nome-pasta
- Não permitir que uma pasta ou diretório seja indexado, com exceção de um arquivo específico, uma página, por exemplo.
User-agent: *
Disallow: /nome-pasta/
Allow: /nome-pasta/nome-arquivo.html
Sitemap
Através do arquivo robots.txt é possível indicar os arquivos sitemap.xml do seu site de uma maneira bem simples:
Sitemap: http://seusite.com.br/sitemap.xml
Você pode seguir o mesmo padrão para indicar sitemaps de imagens e vídeos. Mesmo fazendo desta forma, recomendamos que utilize a ferramenta Webmaster Tools do Google, como veremos mais a frente.
Como usar um arquivo robots.txt
Neste tópico, vamos ver mais algumas situações comuns em que podemos aplicar o que aprendemos até aqui, colocando nosso arquivo robots em prática.
Você pode excluir um único bot, permitindo que os demais façam a indexação normalmente. Para isso, devemos escrever:
User-agent: BotRuim
Disallow: /
Para permitir um único bot e bloquear os demais, basta redigir:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Dependendo da linguagem que você utiliza, formas de cache e plugins, alguns arquivos são criados e existem benefícios diversos em bloquear a indexação deles, já que alguns podem criar URLs desnecessárias e retornar erros diversos, como o famoso erro 404. Para excluí-los (alguns dos principais), nosso arquivo deverá conter as seguintes instruções:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Também é muito comum, quando estamos desenvolvendo um novo site, disponibilizar uma página provisória HTML com dados essenciais de contato do cliente. O restante dos arquivos já fica disponível online, para testes e, por isso, é fundamental que o Google não indexe as páginas, já que boa parte delas ainda sofrerão alguns ajustes, como mudanças nas URLs e até mesmo no conteúdo. Neste caso, nosso arquivo, ficará da seguinte forma:
User-agent: *
Disallow: /nome-pasta/site/
O que fizemos aqui, foi colocar todos os arquivos do site em um diretório e a página provisória fora. O que faz com que não seja necessário incluir a propriedade allow. Vamos ver como ficaria caso nossa página provisória estivesse junto com os demais arquivos:
User-agent: *
Disallow: /nome-pasta/site/
Allow: /nome-pasta/site/pagina-provisoria.html
Teste e envie seu robots.txt ao Google
O Google Webmaster Toos possui inúmeras ferramentas e de grande utilidade em SEO. Uma delas é a possibilidade de testar o arquivo robots.txt.
A ferramenta é capaz de indicar se com o arquivo que você enviou, estão sendo feitas restrições de rastreamento e indexação de URLs específicos do seu site. Você pode testar, por exemplo, se aquela imagem presente no seu projeto e que você não gostaria que fosse indexada está, de fato, bloqueada para os crawlers. Além disso, é sempre bom saber que está tudo ok à medida que você promove alterações no seu arquivo.
Para testar, siga os seguintes passos:
- Acesse o Google Webmaster Tools
- Clique em Rastreamento
- E em seguida, clique em Testar robots.txt
Se você não tiver um arquivo robots ou se ele estiver localizado incorretamente, você verá a mensagem abaixo:
Clique em fechar. Vamos fazer o nosso teste com um arquivo simples, não impedindo o rastreamento. Na janela disponível, vamos preencher da seguinte forma:
A verificação é instantânea e, caso tenhamos esquecido os dois pontos “:”, o que tornaria o funcionamento do arquivo incorreto, somos imediatamente avisados.
- Ao clicar em enviar, veremos uma tela com 3 passos:
- Fazer o download do código atualizado
- Verificar a versão atualizada
- Pedir ao Google para atualizar
-
Clique no item 1 – Fazer o download e, em seguida, feche a janela. Feito isso, você deve enviar o arquivo que acabou de baixar para o diretório raiz (base) do seu site. Isso pode ser feito através de um gerenciador de arquivos FTP como Transmit, FileZilla. Alguns servidores de hospedagem também disponibilizam um painel online para gerenciamento de arquivos e você pode utilizá-lo para efetuar o procedimento.
Após o envio, seu arquivo deverá estar acessível através da url http://seusite.com.br/robots.txt. Para testar o seu arquivo, na parte inferior da janela do Google Webmaster Tools, basta completar o campo com “robots.txt” e clicar em Teste.
Se estiver tudo ok, o próprio botão retorna a mensagem Permitido. E pronto!
Cuidados com o arquivo robots.txt
O fato do arquivo robots ser um arquivo de texto comum e ficar localizado no diretório raiz, facilita a visualização das informações nele presentes por qualquer um que tenha o mínimo conhecimento e simplesmente acesse a URL de localização, como por exemplo: http://seusite.com.br/robots.txt. Recomendamos que tenha o cuidado de não utilizar arquivos confidenciais. Neste caso, você pode utilizar a meta tag robots. Veja mais detalhes no artigo sobre meta tags.
Até a próxima! ;)