robots.txtとは? クローラーの最適化に必要な設定方法
robots.txtとはクローラーにサイトのクロールを制限するためのものです。
検索順位はクローラーと呼ばれるGoogleのボットが定期的にサイトを巡回し、各ページをインデックスしていき、そしてアルゴリズムによって順位付けを行います。
しかし、1度のクロールだけでは全てを読み取れないため、クローラーが定期的に巡回する回数を増やすことができればインデックスも早くなり、質の高いコンテンツを正しく評価することによって検索順位も上位表示が期待できるようになります。
そのため、robots.txtによって無駄なクロールを除外して最適化することが大切となります。
ということで今回は、クローラーの巡回を最適化するために必要なことの中で、robots.txtの設定についてご説明したいと思います。
目次
なぜrobots.txtが重要なのか
robots.txtには主にクロールの可否が表記されています。(内容は任意です)
そして、このrobots.txtに巡回をブロックするページを指定することによって、無駄なクロールを防ぎ、重要なページを中心にクロールするようにします。
このクロールの最適化のためにrobots.txtが必要となるというわけです。
インデックスをしてほしくない場合は別の、noindexなどで対応してください。
クローラーはどこから辿ってくるのか
クローラーは全てのページを巡回しているわけではありません。
サイトを立ち上げて、どこからもリンクされなければインデックスもされません。
クローラーは内部リンクも含めた「被リンク」から巡ってくるのです。
SEO対策に被リンクは重要ではなくなったという風潮ですが、これが未だに検索順位に大きな影響を与える理由です。
※被リンクから来たクローラーはrobots.txtでブロックしていても、制御できません。
もちろん、被リンクだけでも順位は上がりませんし、内容の薄いコンテンツも上位表示は難しいことから、充分な内容(コンテンツ)があり、さらに被リンクも付けることによって上位表示が期待できるということです。
robots.txtの書き方
では、robots.txtの書き方をご説明します。
基本の形はこちらです。
User-agent: * Disallow: Sitemap:http://example.com/sitemap.xml
では、順に説明していきます。
クローラーを指定する
まず、User-agent:で制御するクローラーを指定します。「*」は全てのボットを対象にするという意味です。
個別で指定する場合は、下記のようにボットを指定します。
また、複数指定する場合も追加して記述します。
User-agent:Googlebot User-agent:Googlebot-Image User-agent:bingbot
- Googlebot(Googleウェブ検索のクローラー)
- Googlebot-Image(Google画像検索のクローラー)
- bingbot(Bingのクローラー)
この他にも様々なボットが存在します。
中でも以下のクローラーを拒否することによって、それぞれのサービスにアーカイブされることを制御することも可能です。
User-agent:Megalodon User-agent:ia_archiver
- Megalodon(ウェブ魚拓)
- ia_archiver(Internet Archive)
ブロックするファイル(ディレクトリ)などを指定する
ボットを指定した後にクロールをブロックしたいファイルなどを指定します。
これは、ボットごとの指定が可能です。
例えば「Disallow:/」だとサイト全体がブロックされてしまいます。
Disallow: Allow:
- Disallow:(ブロックしたいファイル)
- Allow:(許可したいファイル)
Allowの用途は、例えばDisallowでブロックしたディレクトリの中で、一部クロールしてほしいファイルなどがあれば許可します。
サイトマップを指定する
最後にサイトマップのurlを記述します。
このサイトマップの前には、必ず改行を入れて下さい。
Sitemap:http://example.com/sitemap.xml
\無料診断の活用で課題を明確に/
外部リンク、内部状況、コンテンツ状況からSEO対策の課題が見えてくる無料調査です。
「対策ページの弱点は何か...」などお悩みをお持ちの方は、一度「SEOパーソナル診断」をご利用ください。
クローラーの最適化に必要なrobots.txtについてまとめ
robots.txtで無駄なクロールを詳細にブロックする必要はありませんが、検索結果に表示する必要のないページなどあれば、クロールを制御しましょう。また、絶対に検索結果に表示させたくない場合は、robots.txtでブロックするのではなく、noindexで対応しましょう。
例えば、Googleの画像検索のボットからは特定のimgフォルダをブロックして、さらに全てのボットから、特定のファイル形式をブロックする場合だと、下記のように記述します。
User-agent:Googlebot-Image Disallow: /img/A/ User-agent:* Disallow: /*.xls$ Sitemap:http://example.com/sitemap.xml
robots.txtをアップする時は必ずサーチコンソールの「robots.txt テスター」で挙動を確認してください。また、併せてサイトマップも作成して送信しておきましょう。
サイトマップの作り方については下記の記事をご覧ください。
最後に、このrobots.txtとは、トップディレクトリに置くことが決められているため、気になるサイトのrobots.txtを見てみるのも良いでしょう。
※robots.txtは誰でも見ることができてしまうため、ログインページや見られたくないページは書かないようにしましょう。