robots.txtは、ウェブマスターがウェブロボット(通常は検索エンジンのロボット)に自分のウェブサイトのページをどのようにクロールするかを指示するために作成するテキストファイルです。このファイルはサイトのルートディレクトリに配置され、ロボットがアクセスしてクロールできるサイトの部分を制御します。robots.txtは、ロボットがウェブをクロールし、コンテンツにアクセスしてインデックスを付け、それをユーザーに提供する方法を規制する一連のウェブ標準であるロボット除外プロトコル(REP)の一部です。
たとえば、ウェブサイトの所有者が自分のウェブサイトの特定のディレクトリを検索エンジンにインデックスさせたくない場合、robots.txtファイルを使用して、そのディレクトリ内のファイルへのすべてのロボットのアクセスを拒否することができます。構文はシンプルで、「Disallow」などのディレクティブを許可し、ロボットがウェブサイトの特定の部分にアクセスするのを禁止します。逆に、「Allow」を使用して許可されている内容を指定することもできます。ほとんどの準拠ロボットはrobots.txtファイルのガイドラインに従いますが、このファイルは悪意のあるボットを排除するメカニズムではなく、マルウェアやその他の非準拠エンティティによって無視される可能性があります。
robots.txtの効果的な使用は、ウェブサイトのトラフィックを制御し、ウェブサーバーの負荷を軽減し、ウェブマスターの意図したとおりにウェブサイトのインデックス付けされたコンテンツを維持するのに役立ちます。