robots.txtとは？クローラーの最適化に必要な設定方法

SEO対策 > SEO内部対策 > クローラー対策 > robots.txtとは？クローラーの最適化に必要な設定方法

2016年04月08日 2016年09月08日

robots.txtとは？クローラーの最適化に必要な設定方法

robots.txtとはクローラーにサイトのクロールを制限するためのものです。

検索順位はクローラーと呼ばれるGoogleのボットが定期的にサイトを巡回し、各ページをインデックスしていき、そしてアルゴリズムによって順位付けを行います。

しかし、1度のクロールだけでは全てを読み取れないため、クローラーが定期的に巡回する回数を増やすことができればインデックスも早くなり、質の高いコンテンツを正しく評価することによって検索順位も上位表示が期待できるようになります。
そのため、robots.txtによって無駄なクロールを除外して最適化することが大切となります。

ということで今回は、クローラーの巡回を最適化するために必要なことの中で、robots.txtの設定についてご説明したいと思います。

1 なぜrobots.txtが重要なのか
- 1.1 クローラーはどこから辿ってくるのか
2 robots.txtの書き方
3 クローラーの最適化に必要なrobots.txtについてまとめ

PR【申込増加中】SEO競合比較は無料診断を活用

なぜrobots.txtが重要なのか

robots.txtには主にクロールの可否が表記されています。（内容は任意です）
そして、このrobots.txtに巡回をブロックするページを指定することによって、無駄なクロールを防ぎ、重要なページを中心にクロールするようにします。
このクロールの最適化のためにrobots.txtが必要となるというわけです。

注意点として、ここでのクロールのブロックはGoogleのインデックスを制御することが目的ではなく、あくまでクローラーが無駄なく巡回できるように促すことが目的です。
インデックスをしてほしくない場合は別の、noindexなどで対応してください。

クローラーはどこから辿ってくるのか

クローラーは全てのページを巡回しているわけではありません。
サイトを立ち上げて、どこからもリンクされなければインデックスもされません。

クローラーは内部リンクも含めた「被リンク」から巡ってくるのです。
SEO対策に被リンクは重要ではなくなったという風潮ですが、これが未だに検索順位に大きな影響を与える理由です。
※被リンクから来たクローラーはrobots.txtでブロックしていても、制御できません。

もちろん、被リンクだけでも順位は上がりませんし、内容の薄いコンテンツも上位表示は難しいことから、充分な内容（コンテンツ）があり、さらに被リンクも付けることによって上位表示が期待できるということです。

PR外部・内部・コンテンツ状況を競合比較で弱点がわかるSEO無料診断

robots.txtの書き方

では、robots.txtの書き方をご説明します。
基本の形はこちらです。

User-agent: *
Disallow:

Sitemap:http://example.com/sitemap.xml

では、順に説明していきます。

クローラーを指定する

まず、User-agent:で制御するクローラーを指定します。「*」は全てのボットを対象にするという意味です。

個別で指定する場合は、下記のようにボットを指定します。
また、複数指定する場合も追加して記述します。

User-agent:Googlebot
User-agent:Googlebot-Image
User-agent:bingbot

Googlebot（Googleウェブ検索のクローラー）
Googlebot-Image（Google画像検索のクローラー）
bingbot（Bingのクローラー）

この他にも様々なボットが存在します。
中でも以下のクローラーを拒否することによって、それぞれのサービスにアーカイブされることを制御することも可能です。

User-agent:Megalodon
User-agent:ia_archiver

Megalodon（ウェブ魚拓）
ia_archiver（Internet Archive）

ブロックするファイル（ディレクトリ）などを指定する

ボットを指定した後にクロールをブロックしたいファイルなどを指定します。
これは、ボットごとの指定が可能です。
例えば「Disallow:/」だとサイト全体がブロックされてしまいます。

Disallow:
Allow:

Disallow:（ブロックしたいファイル）
Allow:（許可したいファイル）

Allowの用途は、例えばDisallowでブロックしたディレクトリの中で、一部クロールしてほしいファイルなどがあれば許可します。

サイトマップを指定する

最後にサイトマップのurlを記述します。
このサイトマップの前には、必ず改行を入れて下さい。

Sitemap:http://example.com/sitemap.xml

＼無料診断の活用で課題を明確に／

外部リンク、内部状況、コンテンツ状況からSEO対策の課題が見えてくる無料調査です。
「対策ページの弱点は何か...」などお悩みをお持ちの方は、一度「SEOパーソナル診断」をご利用ください。

無料診断中「SEOパーソナル診断」はこちら

クローラーの最適化に必要なrobots.txtについてまとめ

robots.txtで無駄なクロールを詳細にブロックする必要はありませんが、検索結果に表示する必要のないページなどあれば、クロールを制御しましょう。また、絶対に検索結果に表示させたくない場合は、robots.txtでブロックするのではなく、noindexで対応しましょう。

例えば、Googleの画像検索のボットからは特定のimgフォルダをブロックして、さらに全てのボットから、特定のファイル形式をブロックする場合だと、下記のように記述します。

User-agent:Googlebot-Image
Disallow: /img/A/

User-agent:*
Disallow: /*.xls$

Sitemap:http://example.com/sitemap.xml

robots.txtをアップする時は必ずサーチコンソールの「robots.txt テスター」で挙動を確認してください。また、併せてサイトマップも作成して送信しておきましょう。
サイトマップの作り方については下記の記事をご覧ください。

seopack.jp/internal-seo

サイトマップの作り方と定期的な更新でクローラー対策

https://seopack.jp/internal-seo/crawler-measures/seo-sitemap.php

サイトマップ（xml）は検索エンジンのクローラーにサイトを巡回するページをわかりやすく手助けするためにサーバーに設定します。そのため新しくページを公開した場合には、絶対ではありませんが定期的な更新によって重要なページへのクロールを促進することが大切です。サイトマップには、「HTMLサイトマップ」と「XMLサイトマップ」があります。「HTMLサイトマップ」は、webサイト内に設置され訪問ユーザー（人間）にサイトの構造をわかりやすく伝える用途となり、「XMLサイトマップ」は検索エンジンにサイトの構造を伝えクロールを...

最後に、このrobots.txtとは、トップディレクトリに置くことが決められているため、気になるサイトのrobots.txtを見てみるのも良いでしょう。
※robots.txtは誰でも見ることができてしまうため、ログインページや見られたくないページは書かないようにしましょう。