Le fichier Robots.txt est un fichier texte que les webmasters créent pour indiquer aux robots web (généralement des robots des moteurs de recherche) comment explorer les pages de leur site web. Le fichier est placé dans le répertoire racine du site pour contrôler les parties du site auxquelles les robots peuvent accéder et explorer. Robots.txt fait partie du Protocole d'Exclusion des Robots (REP), un groupe de normes web qui régulent la manière dont les robots explorent le web, accèdent et indexent le contenu, et le présentent aux utilisateurs.
Par exemple, si un propriétaire de site ne souhaite pas qu'un moteur de recherche indexe un répertoire particulier sur son site, il peut utiliser le fichier robots.txt pour interdire à tous les robots l'accès aux fichiers de ce répertoire. La syntaxe est simple et permet des directives comme "Disallow", qui interdit à un robot d'accéder à certaines parties du site. Inversement, vous pouvez utiliser "Allow" pour spécifier ce qui est permis. Bien que la plupart des robots conformes suivront les lignes directrices d'un fichier robots.txt, ce n'est pas un mécanisme pour exclure les bots malveillants, car le fichier peut être ignoré par des malwares et d'autres entités non conformes.
L'utilisation efficace de robots.txt peut aider à contrôler le trafic du site web, à réduire la charge sur les serveurs web et à maintenir le contenu indexé d'un site web tel que le souhaite le webmaster.