【海外記事紹介】Webエンジニア必見！今更聞けないRobots.txtの基本とSEO向けガイド

10月19日、Search Engine Journalが「Robots.txtに関するベストプラクティスとSEO向けガイド」と題した記事を公開した。この記事では、Robots.txtファイルの使い方とSEO戦略における重要性について詳しく紹介されている。

以下に、その内容を紹介する。

Robots.txtファイルは、ウェブサイトのルートディレクトリに配置され、検索エンジンのクローラー（Webサイトを読み込むボット）がどのページをクロールすべきか、あるいはクロールしてはならないかを指示する単純なテキストファイルである。適切に設定されていない場合、ウェブサイトのクロール効率が低下し、検索結果への表示に影響を与える可能性がある。一方で、正しく設定することでクロール効率を向上させ、クローリングの問題を緩和できる。

Robots.txtの主なディレクティブ

ディレクティブ	説明
User-agent	ルールが適用されるクローラーを指定する。「*」を使用すると、すべてのクローラーが対象になる。
Disallow	指定されたURLをクロール禁止にする。
Allow	上位ディレクトリがクロール禁止であっても、特定のURLをクロール許可する。
Sitemap	XMLサイトマップの場所を指定することで、検索エンジンがそのサイトマップを見つけやすくする。

このようなディレクティブを用いて、ウェブサイトのクローラーに対して明確な指示を与えることができる。例えば、以下のように特定のURLのクロールを制御する設定が可能だ。

User-agent: *
Disallow: /downloads/
Allow: /downloads/free/

上記の例では、「/downloads/free/」はクロールが許可されるが、「/downloads/」以下の他のページはすべてクロールが禁止される。

また、Robots.txtファイルの中では、以下のようにワイルドカードがサポートされることに留意する必要がある。

アスタリスク（*）: 0文字以上の任意の文字列に一致する。
ドル記号（$）: URLの末尾に一致する。

Robots.txtがSEOにおいて重要な理由

SEOの観点から見ると、robots.txtファイルを使用して重要ではないページをブロックすることで、Googlebotがウェブサイトの貴重な部分にクロールのリソースを集中させ、新しいページのクロールにも注力できる。また、クローラーの計算リソースを節約することで、持続可能性への貢献にもつながる。

Robots.txtの使用例

内部検索ページのブロック
ウェブサイト内検索結果ページは、ほとんどの場合SEOに不要であるため、クロールをブロックすべきだ。以下のルールを使用すると、検索パラメータ「s=」を含むURLのクロールを防ぐことができる。

User-agent: *
Disallow: s=

ファセットナビゲーションURLのブロック
特にEコマースサイトにおいて、ファセットナビゲーションにより無数の重複ページが生成されることがある。こうしたURLもクロールから除外するべきだ。

User-agent: *
Disallow: sortby=
Disallow: color=
Disallow: price=

PDF URLのブロック
PDFファイルのクロールを避けるために、以下のルールを使う。

User-agent: *
Disallow: /*.pdf$

これらの手法を活用することで、クロール予算を有効に活用し、重要なページへのリソース集中が可能になる。

詳細は[A Guide To Robots.txt: Best Practices For SEO]]を参照していただきたい。