Bloquear todos os bots / crawlers / spiders para um diretório especial com o htaccess

Estou tentando bloquear todos os bots / crawlers / spiders para um diretório especial. Como posso fazer isso com o htaccess ? Eu procurei um pouco e encontrei uma solução bloqueando com base no agente do usuário:

 RewriteCond %{HTTP_USER_AGENT} googlebot 

Agora eu precisaria de mais agentes de usuário (para todos os bots conhecidos) e a regra deveria ser válida apenas para meu diretório separado. Eu já tenho um robots.txt, mas nem todos os rastreadores dão uma olhada … O bloqueio por endereço IP não é uma opção. Ou existem outras soluções? Eu sei a proteção por senha, mas tenho que perguntar primeiro se isso seria uma opção. No entanto, procuro uma solução baseada no agente do usuário.

Você precisa ter o mod_rewrite ativado. Colocado em .htaccess nessa pasta. Se colocado em outro lugar (por exemplo, pasta pai), então o padrão RewriteRule precisará ser ligeiramente modificado para include o nome da pasta).

 RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC] RewriteRule .* - [R=403,L] 
  1. Eu entrei apenas alguns bots – você adiciona qualquer outro (checkbox de letras não importa).
  2. Esta regra responderá com o código de resultado “403 Acesso Proibido” para tais solicitações. Você pode mudar para outro código HTTP de resposta, se você realmente quiser (403 é mais apropriado aqui considerando seus requisitos).

Por que usar o .htaccess ou o mod_rewrite para um trabalho especificamente destinado ao robots.txt ? Aqui está o snippet do robots.txt que você precisará para bloquear um conjunto específico de diretórios.

 User-agent: * Disallow: /subdir1/ Disallow: /subdir2/ Disallow: /subdir3/ 

Isto irá bloquear todos os bots de busca em diretórios /subdir1/ , /subdir2/ e /subdir3/ .

Para mais explicações, veja aqui: http://www.robotstxt.org/orig.html

Eu sei que o tópico é “antigo” mas ainda assim, para pessoas que chegaram aqui também (como eu também fiz), você poderia olhar aqui 5g blacklist 2013 .
É uma grande ajuda e não, não só para wordpress, mas também para todos os outros sites. Funciona imho incrível.
Outro que vale a pena olhar poderia ser o Linux reviews anti-spam através do .htaccess