Desabilite seu adblock e script blocker para visualizar esta página

Como bloquear os mecanismos de busca

bloqueio de buscadores

Como bloquear os mecanismos de busca

Postado em Destaques, Diversos, html, Segurança, SEO

Os mecanismos de busca estão constantemente escaneando sites para serem indexados e por alguma razão você pode precisar esconder seus sites. Através de um arquivo robots.txt você pode utilizar para impedir que os bots acessem a sua página.

Neste tutorial, você vai criar robots.txt e inserir ele na pasta raiz de seu site para esse bloqueio.

*Tenha ciência que essa ação irá remover seu site do resultado de pesquisas.

Cada mecanismo de busca possui seu crawler próprio (bot ou user-agent). Com o robots.txt você pode especificar o crawler usando o User-agent. Existem vários crawlers, os mais comuns são:

Googlebot
Yahoo!
Slurp
bingbot
Baiduspider
YandexBot

Se você quiser impedir somente o crawler do Bing, basta colocar no arquivo a seguinte regra:

User-agent: bingbot
Disallow: /

Abra um bloco de notas e solve com o nome: robots.txt e após insira as regras acima:

Caso você queira bloquear página de todos os crawlers é só usar o *:

User-agent: *
Disallow: /

E se ainda você precisar banir o crawler de acessar algum diretório ou arquivo específico, a regra é semelhante e você precisará especificar o nome do arquivo ou pasta. Digamos que você tem um diretório chamado “mapa” e um arquivo mapa.php e quer que os crawlers não acessem seu diretório e arquivo. Nesse caso o robots.txt fica assim:

User-agent: *
Disallow: /mapa/
Disallow: /mapa.php

Após salvar o arquivo com as regras que precisa, envie ele para a raiz do seu site que em alguns dias será feita a leitura dos buscadores e eles irão ignorar essas pastas, arquivos ou o site inteiro…

Também há outras opções até mais fáceis de fazer o bloqueio sem adicionar o arquivo robots.txt com as tags como descrito no tutorial do google abaixo:

https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=pt-br

Para evitar que a maioria dos rastreadores da Web de mecanismos de pesquisa indexem uma página do seu site, insira a seguinte metatag na seção <head> da sua página:

<meta name=”robots” content=”noindex”>

Para impedir que somente os rastreadores da Web do Google indexem uma página:

<meta name=”googlebot” content=”noindex”>

É possível que alguns rastreadores da Web de mecanismos de pesquisa interpretem a diretiva noindex de maneira diferente. Consequentemente, é possível que a página continue sendo exibida nos resultados de outros mecanismos de pesquisa.

Façam backup sempre e se tiverem dúvidas posta aí, valeu!