robots.txtとは? クローラーの最適化に必要な設定方法

SEOならSEOパック
2016年04月08日 2016年09月08日

robots.txtとは? クローラーの最適化に必要な設定方法

只今タイムセールを実施中です。

robots.txtとはクローラーにサイトのクロールを制限するためのものです。

検索順位はクローラーと呼ばれるGoogleのボットが定期的にサイトを巡回し、各ページをインデックスしていき、そしてアルゴリズムによって順位付けを行います。

しかし、1度のクロールだけでは全てを読み取れないため、クローラーが定期的に巡回する回数を増やすことができればインデックスも早くなり、質の高いコンテンツを正しく評価することによって検索順位も上位表示が期待できるようになります。
そのため、robots.txtによって無駄なクロールを除外して最適化することが大切となります。

ということで今回は、クローラーの巡回を最適化するために必要なことの中で、robots.txtの設定についてご説明したいと思います。

SEO対策のすべてが揃うSEO Pack

なぜrobots.txtが重要なのか

robots.txtには主にクロールの可否が表記されています。(内容は任意です)
そして、このrobots.txtに巡回をブロックするページを指定することによって、無駄なクロールを防ぎ、重要なページを中心にクロールするようにします。
このクロールの最適化のためにrobots.txtが必要となるというわけです。

注意点として、ここでのクロールのブロックはGoogleのインデックスを制御することが目的ではなく、あくまでクローラーが無駄なく巡回できるように促すことが目的です。
インデックスをしてほしくない場合は別の、noindexなどで対応してください。

クローラーはどこから辿ってくるのか

クローラーは全てのページを巡回しているわけではありません。
サイトを立ち上げて、どこからもリンクされなければインデックスもされません。

クローラーは内部リンクも含めた「被リンク」から巡ってくるのです。
SEO対策に被リンクは重要ではなくなったという風潮ですが、これが未だに検索順位に大きな影響を与える理由です。
※被リンクから来たクローラーはrobots.txtでブロックしていても、制御できません。

もちろん、被リンクだけでも順位は上がりませんし、内容の薄いコンテンツも上位表示は難しいことから、充分な内容(コンテンツ)があり、さらに被リンクも付けることによって上位表示が期待できるということです。

robots.txtの書き方

では、robots.txtの書き方をご説明します。
基本の形はこちらです。

User-agent: *
Disallow:

Sitemap:http://example.com/sitemap.xml

では、順に説明していきます。

クローラーを指定する

まず、User-agent:で制御するクローラーを指定します。「*」は全てのボットを対象にするという意味です。

個別で指定する場合は、下記のようにボットを指定します。
また、複数指定する場合も追加して記述します。

User-agent:Googlebot
User-agent:Googlebot-Image
User-agent:bingbot
  • Googlebot(Googleウェブ検索のクローラー)
  • Googlebot-Image(Google画像検索のクローラー)
  • bingbot(Bingのクローラー)

この他にも様々なボットが存在します。
中でも以下のクローラーを拒否することによって、それぞれのサービスにアーカイブされることを制御することも可能です。

User-agent:Megalodon
User-agent:ia_archiver
  • Megalodon(ウェブ魚拓)
  • ia_archiver(Internet Archive)

ブロックするファイル(ディレクトリ)などを指定する

ボットを指定した後にクロールをブロックしたいファイルなどを指定します。
これは、ボットごとの指定が可能です。
例えば「Disallow:/」だとサイト全体がブロックされてしまいます。

Disallow:
Allow:
  • Disallow:(ブロックしたいファイル)
  • Allow:(許可したいファイル)

Allowの用途は、例えばDisallowでブロックしたディレクトリの中で、一部クロールしてほしいファイルなどがあれば許可します。

サイトマップを指定する

最後にサイトマップのurlを記述します。
このサイトマップの前には、必ず改行を入れて下さい。

Sitemap:http://example.com/sitemap.xml

\無料診断の活用で課題を明確に/

外部リンク、内部状況、コンテンツ状況からSEO対策の課題が見えてくる無料調査です。
「対策ページの弱点は何か...」などお悩みをお持ちの方は、一度「SEOパーソナル診断」をご利用ください。

クローラーの最適化に必要なrobots.txtについてまとめ

robots.txtで無駄なクロールを詳細にブロックする必要はありませんが、検索結果に表示する必要のないページなどあれば、クロールを制御しましょう。また、絶対に検索結果に表示させたくない場合は、robots.txtでブロックするのではなく、noindexで対応しましょう。

例えば、Googleの画像検索のボットからは特定のimgフォルダをブロックして、さらに全てのボットから、特定のファイル形式をブロックする場合だと、下記のように記述します。

User-agent:Googlebot-Image
Disallow: /img/A/

User-agent:*
Disallow: /*.xls$

Sitemap:http://example.com/sitemap.xml

robots.txtをアップする時は必ずサーチコンソールの「robots.txt テスター」で挙動を確認してください。また、併せてサイトマップも作成して送信しておきましょう。
サイトマップの作り方については下記の記事をご覧ください。

サイトマップ(xml)は検索エンジンのクローラーにサイトを巡回するページをわかりやすく手助けするためにサーバーに設定します。そのため新しくページを公開した場合には、絶対ではありませんが定期的な更新によって重要なページへのクロールを促進することが大切です。サイトマップには、「HTMLサイトマップ」と「XMLサイトマップ」があります。「HTMLサイトマップ」は、webサイト内に設置され訪問ユーザー(人間)にサイトの構造をわかりやすく伝える用途となり、「XMLサイトマップ」は検索エンジンにサイトの構造を伝えクロールを...

最後に、このrobots.txtとは、トップディレクトリに置くことが決められているため、気になるサイトのrobots.txtを見てみるのも良いでしょう。
※robots.txtは誰でも見ることができてしまうため、ログインページや見られたくないページは書かないようにしましょう。

SEOパーソナル診断
SEO内部対策 トップに戻る

SEOツール無料トライアル

プロも個人も、高機能なSEOツールを体験ください。

コンテンツ分析や内部SEO対策、競合分析ができるSEOツールが7日間体験可能!

seodoor by SEO Pack

登録申し込み後自動でログインされます。アカウント情報はご登録のメールアドレスへ自動送信されておりますのでご確認ください。

SEO Packキャンペーン
内部修正サービス

公式SNS

Twitter

facebook