「robots.txtによりブロックされましたが、インデックスに登録しました」の原因と対処法

サイト管理者であれば、絶対に使いこなすべきGoogle Search Console。

今回は「robots.txtによりブロックされましたが、インデックスに登録しました」とレポートされる原因と対処法をご紹介します。

Googleのインデックス登録に関わることは検索流入を伸ばすために欠かせないため、適切な対処を行いましょう。

コンテンツ一覧

「robots.txtによりブロックされましたが、インデックスに登録しました」の意味

最初にこのレポートの意味から確認していきます。

robots.txtとは、Webサイト内のどのページをクローリングできるか、できないかをGoogleのクローラーに伝えるためのファイル。robots.txtの仕組みも後ほど詳しく解説します。

robots.txtによりブロックされました」とは、自社サイトに設置されているrobots.txtによって対象URLをクローリング拒否しているということ。

インデックスに登録しました」からは、GoogleのクローラーがURLの存在を認識し、Googleのデータベースに登録したことがわかります。

どのような場合に「robots.txtによりブロックされましたが、インデックスに登録しました」となるのか?

先ほどの意味から考えられるのは、robots.txtでクロールを拒否しているページにも関わらず、Googleのデータベースに登録されたということ。
なぜクローラーをrobots.txtでブロックしているにも関わらず、インデックスされることがあるのでしょうか?

これはrobots.txtでブロックしているページが、他のページからリンクされている場合に起こります。
ブロックされていない他のページからリンクを辿ってクロールできるため、インデックス登録できてしまうのです。

Googleの検索結果に表示させたいページはクローラーを拒否する必要はありませんし、表示させたくなければインデックス登録されると不都合がありますので、何らかの対処が必要な状況です

ここからは状況に応じた対処法について見ていきましょう。

Google Search Consoleの警告を解除する方法

今回のようにGoogle Search Consoleの「カバレッジ」で警告となるレポートは適切に対処して解除していくことが重要です。
ここではインデックス登録された状態が望ましい場合とそうでない場合に分けて対処法をご紹介します。

インデックス登録したままで良い場合

対象ページがインデックス登録したままで良い場合は、robots.txtでクローラーをブロックしている点が問題の原因です。

ルートドメインに設置しているrobots.txtファイル(設置例:https://example.com/robots.txt)を修正し、クローラーに対してブロックから許可へ記述を変更しましょう。

ブロックされているページは「Disallow:(対象ページやディレクトリのURL)」の記述によってブロックされていますので、ここを適切な記述へ修正します。URLを変更・削除するか、Allow:で許可するURLを指定できますが、Disallowでの制御が一般的な方法です。

robots.txt テスターで確認する

robots.txtの修正後は「robots.txtテスター」で確認します。robots.txt テスターでは、記述内容のエラーや対象URLがブロックされているかどうかを確認できます。

このツールで「送信」するとGoogleへrobots.txtの更新が通知されるため、修正の反映を早めてGoogle Search Consoleの警告を早く解除する意味でも使用するメリットがありますね。

robots.txt テスター

このツールはあくまでもテストが目的であり、ツール上で記述を修正しても実際のrobots.txtには反映されない点にご注意ください。エラーを修正した際はrobots.txtも修正し、サーバーへアップロードする必要があります。

インデックス登録を解除したい場合

対象ページがインデックス登録されると問題のあるページの場合、インデックス登録された状態が問題です。
Googleのデータベースへ対象ページが登録されている一方で、クローラーはブロックされているため、ページ内のコンテンツがGoogleから認識されていない状況。

インデックス登録を防ぐ対処法は次の2パターンから選択しましょう。

1.対象ページへnoindexタグを追記する

noindexタグとは、クローラーに対してインデックスに登録しない、検索結果でページを表示しないように要求する記述です。
robots.txtでブロックしている状態のままではクローラーがnoindexタグを読み取れないため、noindexタグの追記とrobots.txtのブロック解除をおこないましょう。

2.対象ページをパスワードで保護する

ページに認証をかけてアクセス自体を制限するなど、パスワード保護によってインデックスを制御できます。

 

また、既にインデックス登録されてしまったページをすぐに削除したい場合はGoogle Search Consoleからこちらの手順に沿って削除できます。
一度削除すると再度インデックスさせるまでに時間がかかるため、間違って意図しないページを削除しないよう慎重に削除してください

robots.txtとクローラーの仕組み

ここからは「robots.txtによりブロックされましたが、インデックスに登録しました」に関わるrobots.txtとクローラーの仕組みを解説していきます。

robots.txtでのクローラー制御は本来、クロール対象ページや速度を制限することで優先順位付けを行う、万単位のページを持つ大規模サイトで求められる施策です。
マーケティング業界でWebサイトへのクロールの割り当の意味で使われる「クロールバジェット」は、Googleの正式な用語としては存在しません。(参考:Googlebot のクロール バジェットとは?

しかし、ページを表示したくない場合にもrobots.txtでクローラーを制御するのは一般的な方法です。

robots.txtを見る方法

robots.txtはルートドメインに設置する決まりがあります。
つまり、どのWebサイトでもhttps://example.com/robots.txtのような設置場所になるということですね。

例えば弊社クリエルのWebサイト(https://www.creal.co.jp/)の場合は、https://www.creal.co.jp/robots.txtに設置しています。

クローラーを制御してもインデックス登録される

「robots.txtによりブロックされましたが、インデックスに登録しました」という状況が起こるように、クローラーを制御してもインデックス登録されることがあります。これは前述した通り、他ページからリンクされている場合に起こります。

クローラーを制御してもユーザーはアクセスできる

robots.txtはあくまでもクローラーを制御するもので、ユーザーはアクセスを制御されない点に注意が必要です。

robots.txtに従わないクローラーも存在する

Googlebot以外にも様々なクローラーが存在します。クローラーの中にはrobots.txtに従わないものや、記述内容を理解できないものもあることを知っておきましょう。

 

以上の仕組みから、インデックスを防ぎ、意図しないユーザーからページへのアクセスを防ぐにはパスワードで保護するのが確実な方法の1つといえますね。

まとめ

今回は「robots.txtによりブロックされましたが、インデックスに登録しました」とレポートされる原因と対処法をご紹介しました。

検索流入を増やすには対象ページのインデックス登録が必須です。一方で、非公開ページのように検索結果に表示されると困るページはインデックス登録を防ぐ必要があります。

robots.txtとクローラーの仕組みを理解し、適切に対処していきましょう。

 

その他のカバレッジレポート関連記事はこちら

豊富な実績と経験のSEO

SEO対策の詳細はこちらから

オススメ記事

SEO
Googleマップに店舗を登録する方法は?無料でできる集客対策
SEO
「noindexタグによって除外されました」とは?原因と対処法
SEO
「robots.txtによりブロックされましたが、インデックスに登録しました」の原因と対処法
SEO
「インデックス登録されましたが、サイトマップに送信していません」とは?原因と対処法
リスティング広告
Web広告費の相場っていくら?広告の種類と料金形態、媒体選びのコツも解説

CONTACT

お仕事のご依頼やご相談など、お気軽にお問い合わせ下さい。

TEL.092-292-7427 営業時間:9:00~18:00(土・日・祝休)
yahoo正規代理店
マイクロアド