Robots.txt – Guia sobre como criar um arquivo Robots.txt para motores de busca
Tuesday, July 6, 2010 16:20O arquivo robots.txt é um arquivo usado para negar ou permitir o acesso ao robô do motor de busca no site ou algumas páginas e recursos do seu website.
O arquivo robots.txt deve ser inserido na raiz do site:
http://www.teusite.com/robots.txt.
O formato do arquivo robots.txt
O formato e a semântica do arquivo robots.txt / é a seguinte:
O arquivo consiste em uma ou mais linhas, e cada registro contém linhas de produção de “. O nome do campo é case insensitive (você pode usar maiúsculas ou minúsculas).
Comentários podem ser utilizados por inserir o caractere ‘#’ (usando o código UNIX). Tudo no caracter ‘#’ não é considerado pela máquina que lê o arquivo.
O registro começa com a primeira linha seguido por um agente usuário linha Disallow como detalhado abaixo:
User-agent
- O valor deste campo é o nome do robô descrevendo o registro de acesso.
- Se você digitar mais robôs, todos os robôs que tenham entrado vão receber o mesmo tratamento.
- Se o valor está como ‘*’, user-agents em todos os robôs têm a esta mesma descrição de accesso.
Desaprovar
- O valor deste campo especifica uma parte de URLs que não devem ser visitadas. Por exemplo: Disallow: / login
- Pelo menos um campo deve estar presente.
Mapa do Site
O valor deste campo é para dizer ao robô a localização do Sitemap.
Não é um valor necessário e se você tiver mais Sitemaps você pode adicionar mais linhas.
Exemplo:
Sitemap: http://www.meusite.com/sitemap.xml
Tenha em mente que um arquivo robots.txt vazio será considerado nulo, e os robôs terão ” boas vindas “a todos os arquivos do site.
Exemplos claros de vários arquivos robô
# robots.txt escrito para http://www.exemplo.com/
User-agent: *
Disallow: /admin/login/ # Este é um espaço vázio virtual infinito para URL
Disallow: /tmp/ # arquivo temp
Disallow: /sejaoquefor.html
Sitemap: http://www.meusite.com/sitemap.xml
Este arquivo especifica que nenhum robô pode visitar URLs que começam com “/ admin / login /” ou “/ tmp /” ou página / sejaoquefor.html. Indicar a localização do Sitemap.
Tudo por escrito após “#” é apenas um comentário e não é lido pelos robôs.
Aqui está um caso mais complexo, com o consentimento de um ou mais robôs:
# Arquivo Robots.txt escrito para http://www.exemplo.com/
User-agent: *
Disallow: / admin / login / # Este é um espaço infinito URL virtual
Disallow: / tmp / # pasta temporária
Disallow: / sejaoquefor.html
# Yahoo! Índice tudo é possível.
User-agent: Yahoo! Slurp
Disallow:
Deixe em branco para impedir robots entrar no Yahoo! Todos os arquivos sem restrições.
Como último exemplo, um robô de arquivo que fecha a porta a todos os bots dos motores de busca:
# Não quero o site de qualquer motor de busca
User-agent: *
Disallow: /

Claudio Chalom says:
July 6th, 2010 at 9:23 pm
Olá Gustavo!
Parabéns pelo Blog! Conteúdo muito interessante.