Robots.txt is een tekstbestand dat webmasters creëren om webrobots (meestal zoekmachinerobots) te vertellen hoe ze de pagina's van hun website moeten doorzoeken. Het bestand wordt geplaatst in de root-directory van de site om te beheersen welke delen van de site de robots kunnen openen en doorzoeken. Robots.txt maakt deel uit van het Robots Exclusion Protocol (REP), een groep webstandaarden die regelen hoe robots het web doorzoeken, toegang krijgen tot en inhoud indexeren, en deze aan gebruikers presenteren.
Bijvoorbeeld, als een website-eigenaar niet wil dat een zoekmachine een bepaalde directory op zijn website indexeert, kan hij het robots.txt-bestand gebruiken om alle robots de toegang tot bestanden in die directory te ontzeggen. De syntax is eenvoudig en maakt richtlijnen mogelijk zoals "Disallow", die een robot verbiedt toegang te krijgen tot bepaalde delen van de website. Omgekeerd, kunt u "Allow" gebruiken om aan te geven wat is toegestaan. Hoewel de meeste conforme robots de richtlijnen in een robots.txt-bestand zullen volgen, is dit geen mechanisme om kwaadaardige bots uit te sluiten, aangezien het bestand genegeerd kan worden door malware en andere niet-conforme entiteiten.
Effectief gebruik van robots.txt kan helpen om het websiteverkeer te controleren, de belasting van webse...