[2016/06/03] (最終更新日 2021/04/12)
Googleに「インデックスされない」ページとは?
※2017/1/18更新済み
あなたのサイトをGoogleの検索結果画面に載せてもらうには、まずGoogleがあなたのサイトを認識し、Googleのデータベースに登録してもらう必要があります。このデータベースを「Googleインデックス」、そこに登録されることを「Googleにインデックスされる」といいます。
新しいページを作ったり、既存ページを変更したりすると、ほとんどの場合は「しばらく」待っていれば勝手にGoogleがインデックスしてくれるはずです。しかし、そうならないケースもあるのです。
最近のGoogle発言をもとに、ケース種別と解決策を説明します。
目次
Googleがページを「インデックスしない」ケース?
先日、Google上級スタッフの発言が米SEO界隈でちょっとした話題になりました。
発言はGoogleのジョン・ミューラー氏によるもので、彼は「Googleは(サイト内の)全ページのインデックスはしない」と断言しています。
@webrankinfo @methode We never index all pages, so you can'f always fix that. Do you see sites with important ones missing? That'd be a bug.
— John Mueller (@JohnMu) 2015年8月19日
普通のページなのに、インデックスされない?
実は、経験を積んだウェブマスターにとっては、これは新しい情報ではありません。例えば、この発言を報じた米SEOメディア Search Engine Roundtable では、サイト内にあるうちの 95%のページ しか、Googleはインデックスしていない、といいます。
もちろんこのサイトがGoogleペナルティを受けているという可能性は限りなくゼロに近いでしょう。(おそらく世界中でも3本の指に入る著名SEOメディアです。)
ではなぜこんなことが起きるのでしょうか?
インデックスされない6つの原因とは
Googleがサイト、もしくはページをインデックスしてくれず、上位表示どころか検索結果のどこにも掲載されない、というケースは、いくつかの原因が思い当たります。主なものは下記です。
- ペナルティを受けている
- robotタグで非掲載設定をしている
- (canonicalタグ等で)重複コンテンツ扱いとなっている
- カテゴリリストページなどの自動生成ページである
- ドメインもしくはページができたばかりである
- その他の理由
1. ペナルティを受けている
予期せぬインデックス非掲載が起きた場合、真っ先に心配してしまうのは、Googleペナルティの可能性でしょう。ガイドラインに沿わないスパム行為を行った(と判断された)サイトは、Googleからインデックス削除などのペナルティを課されることがあります。
ただし、普通のビジネスサイトやブログを運営していたり、ガイドラインを考慮した被リンク対策だけを行っているサイトなら、ペナルティが起こることはほぼ考えられません。
2. robot.txtやmetaタグで非掲載設定をしている
robot.txtやmetaタグで、Googleクローラーの巡回拒否を行う設定が可能です。この設定を行っていると、Googleはあなたのサイトをインデックスしてくれません。
ただしこれは、ほとんどの場合「意図的に行った」ケースでしょう。サイト引き継ぎで前の管理者が設定していた内容を把握していなかった、ということもありえなくはないでしょうが、特にビジネスサイトで、インデックスさせたいページを非掲載設定することはまずないでしょう。
3. コピーコンテンツ扱いとなっている(canonicalタグ含む)
例えば2つの異なるURLがあって、しかしどちらもほとんど同じコンテンツを掲載していたら、Googleはどちらかを「オリジナルコンテンツ」、もう片方を「コピーコンテンツ」とみなし、コピー側を検索結果に表示しなくなることがあります。
インデックス削除されたページが、どこかのコンテンツのコピー(丸パクリ)であったなら、たぶんこのせいでしょう。しかし「意図せず丸パクリしてしまった」ということはなかなか考えにくいと言えます。
また、canonicalタグを用いてURL正規化(元ページと、同じコンテンツを掲載した重複ページを、正しく区別して扱うようGoogleに伝える方法)を行った場合も、重複ページ側のURLはGoogle結果に表示されなくなります。もちろんこれも意図的なものなので、今回の「意図せずインデックス掲載されないケース」とは異なるでしょう。
4. カテゴリリストページなどの自動生成ページである
例えば本ブログでいう このページ のような、自動生成・更新されるカテゴリ一覧などのページであれば、Googleはインデックス掲載しないことがあります。
これは注意が必要かもしれません。カテゴリ一覧で何らかのマーケティングを行うつもりだった方は、覚えておいてもいいかもしれません。
5. 新規ドメインもしくは新規ページである
Googleはインデックス登録の際、Googlebotというクローラーをサイトに訪問させ、データを集めます。Googlebotは多くの場合、あらゆるサイトに掲載されたハイパーリンクをたどり、サイトからサイトへと移ってデータをクロールしてゆきます。
しかし作ったばかりのドメイン(サイト)だと、誰からもリンクが貼られておらず、Googleがそのサイトに気づくのに時間がかかる場合があります。たとえずっと以前に作ったサイトでも、新規ページだと、似たような理由で気づかれるのが遅くなるケースもあります。
これは、意図せぬインデックス非掲載の原因としては、割りと多く考えられるケースです。こうした際には、Googleサーチコンソールからクロール申請(Fetch as Google)を行うことで、より早いインデックス登録を促すことができますが、最も有効なのは、平素から被リンク対策を行っておいて、頻繁なクローラー訪問が勝手に起こるよう促しておくことです。
6. その他の理由
上記のほかの、原因のわからない理由でインデックスがされないことも、実は少ないながら発生します。冒頭で挙げた米SEOメディアの例も、(少なくとも一部は)この原因不明の理由によるものではないかと思われます。
この米メディアの例では、95%しかインデックスされていないといいます。ページ数で言うと、全ページの数は 20,892 あり、そのうちインデックスされているのが 19,928 だけといいます。自動生成のニュースサイトならともかく、ほぼ執筆記事で二万ページ以上あるサイトはそう多くはないでしょう。ここまでの巨大サイトだと、稀な「その他の理由」でインデックスされないケースも出てきそうです。
なお、これもおそらく、Fetch as Googleによって解決できるでしょうが、千近くのページを洗い出してはFetch as Googleする手間、そして(おそらく)他の記事で十分に検索トラフィックがまかなえていることを考えると、あまり得策ではなく、そのためこのサイトの管理者も放っておいているのだと思われます。
クロールしてもらいやすいサイト構造にする
インデックスされないことが頻繁に起こる場合には、クローラビリティの改善を考えるべきかもしれません。クローラビリティの改善とはつまり、Googlebotがサイトの内部リンクを辿りやすくするようにする、という事です。
内部リンクの配置を工夫することで、Googlebotが新しく公開されたページや、更新されたページへ来やすくなります。個々のページの対応は時間がかかりますが、このような構造的な面を詰めていくことで、本質的な改善がなされるかもしれません。
基礎SEO対策で順位上昇と問題防止を
ここまで説明した中でも、多くの中小ビジネスサイトに関連がありそうな原因は 5. 新規ドメインもしくは新規ページ というものでしょう。
このケースの対策として有効なのは、事後のFetch as Google、および事前からの被リンク対策です。被リンクはガイドラインに沿ったリンクである必要があり、総合パッケージSEO Packでバランスよく対策が可能です。これ自体が順位上昇に直接効果があるSEO対策のため、サイト運用を始めたできるだけ早い段階から対策を始めるのがよいでしょう。
ただ時間の経過を待っていても、Googleインデックス登録がだんだん早くなったりはしにくく、また被リンク対策も容易にはできません。Googleにインデックスされないページ、あるいはインデックスされにくいページが現れたら、こうした基礎SEO対策を一度見なおしてみてください。

この記事が役に立ったらSNSで共有してください。