Robots.txt es un archivo de texto que los webmasters crean para indicar a los robots web (generalmente robots de motores de búsqueda) cómo deben rastrear las páginas de su sitio web. El archivo se coloca en el directorio raíz del sitio para controlar a qué partes del sitio pueden acceder y rastrear los robots. Robots.txt es parte del Protocolo de Exclusión de Robots (REP), un grupo de estándares web que regulan cómo los robots rastrean la web, acceden e indexan contenido, y lo presentan a los usuarios.
Por ejemplo, si un propietario de un sitio web no desea que un motor de búsqueda indexe un directorio particular en su sitio web, puede usar el archivo robots.txt para negar el acceso a todos los robots a los archivos en ese directorio. La sintaxis es simple y permite directivas como "Disallow", que prohíbe a un robot acceder a ciertas partes del sitio web. De forma inversa, se puede usar "Allow" para especificar lo que está permitido. Aunque la mayoría de los robots conformes seguirán las directrices en un archivo robots.txt, este no es un mecanismo para excluir bots maliciosos, ya que el archivo puede ser ignorado por malware y otras entidades no conformes.
El uso efectivo de robots.txt puede ayudar a controlar el tráfico del sitio web, reducir la carga en los servidores web y mantener el contenido indexado de un sitio web como lo pretende el webmaster.