Il file Robots.txt è un file di testo che i webmaster creano per dire ai robot web (solitamente i robot dei motori di ricerca) come esplorare le pagine del loro sito web. Il file viene posizionato nella directory radice del sito per controllare quali parti del sito i robot possono accedere ed esplorare. Robots.txt fa parte del Protocollo di Esclusione dei Robot (REP), un gruppo di standard web che governano come i robot esplorano il web, accedono e indicizzano i contenuti, e li presentano agli utenti.
Ad esempio, se un proprietario di un sito web non desidera che un motore di ricerca indicizzi una particolare directory del suo sito web, può utilizzare il file robots.txt per negare a tutti i robot l'accesso ai file in quella directory. La sintassi è semplice e permette direttive come "Disallow", che proibisce a un robot di accedere a certe parti del sito web. Al contrario, si può usare "Allow" per specificare cosa è permesso. Sebbene la maggior parte dei robot conformi seguirà le linee guida in un file robots.txt, questo non è un meccanismo per escludere i bot malintenzionati, poiché il file può essere ignorato da malware e altre entità non conformi.
L'uso efficace di robots.txt può aiutare a controllare il traffico del sito web, ridurre il carico sui server web e mantenere il contenuto indicizzato di un sito web come inteso dal webmaster.