Robots.txt é um arquivo de texto que os webmasters criam para dizer aos robôs da web (geralmente robôs de motores de busca) como rastrear as páginas de seus sites. O arquivo é colocado no diretório raiz do site para controlar quais partes do site os robôs podem acessar e rastrear. Robots.txt faz parte do Protocolo de Exclusão de Robôs (REP), um grupo de padrões da web que regula como os robôs rastreiam a web, acessam e indexam conteúdo, e o apresentam aos usuários.
Por exemplo, se um proprietário de site não quiser que um motor de busca indexe um diretório específico em seu site, ele pode usar o arquivo robots.txt para negar a todos os robôs o acesso aos arquivos nesse diretório. A sintaxe é simples e permite diretivas como "Disallow", que proíbe um robô de acessar certas partes do site. Inversamente, você pode usar "Allow" para especificar o que é permitido. Embora a maioria dos robôs conformes siga as diretrizes em um arquivo robots.txt, esse não é um mecanismo para excluir bots maliciosos, já que o arquivo pode ser ignorado por malware e outras entidades não conformes.
O uso eficaz de robots.txt pode ajudar a controlar o tráfego do site, reduzir a carga nos servidores web e manter o conteúdo indexado de um site como pretendido pelo webmaster.