Robots.txt ist eine Textdatei, die Webmaster erstellen, um Web-Robotern (normalerweise Suchmaschinenrobotern) zu erklären, wie sie die Seiten ihrer Website durchsuchen sollen. Die Datei wird im Stammverzeichnis der Website platziert, um zu steuern, welche Teile der Website die Roboter zugreifen und durchsuchen können. Robots.txt ist Teil des Robots Exclusion Protocol (REP), einer Gruppe von Webstandards, die regeln, wie Roboter das Web durchsuchen, Inhalte zugreifen und indizieren und diese den Benutzern bereitstellen.
Zum Beispiel, wenn ein Website-Betreiber nicht möchte, dass eine Suchmaschine ein bestimmtes Verzeichnis auf seiner Website indiziert, kann er die Robots.txt-Datei verwenden, um allen Robotern den Zugriff auf Dateien in diesem Verzeichnis zu verweigern. Die Syntax ist einfach und ermöglicht Direktiven wie "Disallow", die einem Roboter den Zugriff auf bestimmte Teile der Website verbietet. Umgekehrt können Sie "Allow" verwenden, um anzugeben, was erlaubt ist. Obwohl die meisten konformen Roboter den Richtlinien in einer Robots.txt-Datei folgen werden, ist dies kein Mechanismus, um bösartige Bots auszuschließen, da die Datei von Malware und anderen nicht konformen Entitäten ignoriert werden kann.
Die effektive Nutzung von Robots.txt kann helfen, den Website-Traffic zu kontrollieren, die Belastung der Webserver zu reduzieren und den indizierten Inhalt einer Website so zu halten, wie es der Webmaster beabsichtigt.