10月19日、Search Engine Journalが「Robots.txtに関するベストプラクティスとSEO向けガイド」と題した記事を公開した。この記事では、Robots.txtファイルの使い方とSEO戦略における重要性について詳しく紹介されている。
以下に、その内容を紹介する。
Robots.txtファイルは、ウェブサイトのルートディレクトリに配置され、検索エンジンのクローラー(Webサイトを読み込むボット)がどのページをクロールすべきか、あるいはクロールしてはならないかを指示する単純なテキストファイルである。適切に設定されていない場合、ウェブサイトのクロール効率が低下し、検索結果への表示に影響を与える可能性がある。一方で、正しく設定することでクロール効率を向上させ、クローリングの問題を緩和できる。
Robots.txtの主なディレクティブ
ディレクティブ | 説明 |
---|---|
User-agent | ルールが適用されるクローラーを指定する。「*」を使用すると、すべてのクローラーが対象になる。 |
Disallow | 指定されたURLをクロール禁止にする。 |
Allow | 上位ディレクトリがクロール禁止であっても、特定のURLをクロール許可する。 |
Sitemap | XMLサイトマップの場所を指定することで、検索エンジンがそのサイトマップを見つけやすくする。 |
このようなディレクティブを用いて、ウェブサイトのクローラーに対して明確な指示を与えることができる。例えば、以下のように特定のURLのクロールを制御する設定が可能だ。
User-agent: *
Disallow: /downloads/
Allow: /downloads/free/
上記の例では、「/downloads/free/」はクロールが許可されるが、「/downloads/」以下の他のページはすべてクロールが禁止される。
また、Robots.txtファイルの中では、以下のようにワイルドカードがサポートされることに留意する必要がある。
- アスタリスク(*): 0文字以上の任意の文字列に一致する。
- ドル記号($): URLの末尾に一致する。
Robots.txtがSEOにおいて重要な理由
SEOの観点から見ると、robots.txtファイルを使用して重要ではないページをブロックすることで、Googlebotがウェブサイトの貴重な部分にクロールのリソースを集中させ、新しいページのクロールにも注力できる。また、クローラーの計算リソースを節約することで、持続可能性への貢献にもつながる。
Robots.txtの使用例
- 内部検索ページのブロック
ウェブサイト内検索結果ページは、ほとんどの場合SEOに不要であるため、クロールをブロックすべきだ。以下のルールを使用すると、検索パラメータ「s=」を含むURLのクロールを防ぐことができる。
User-agent: *
Disallow: s=
- ファセットナビゲーションURLのブロック
特にEコマースサイトにおいて、ファセットナビゲーションにより無数の重複ページが生成されることがある。こうしたURLもクロールから除外するべきだ。
User-agent: *
Disallow: sortby=
Disallow: color=
Disallow: price=
- PDF URLのブロック
PDFファイルのクロールを避けるために、以下のルールを使う。
User-agent: *
Disallow: /*.pdf$
これらの手法を活用することで、クロール予算を有効に活用し、重要なページへのリソース集中が可能になる。
詳細は[A Guide To Robots.txt: Best Practices For SEO]]を参照していただきたい。