クロールバジェットの最適化とは?SEOとの関係・対象サイトの規模・対処法を解説

SEO基礎
SEO対策
2021.09.30
クロールバジェット

Webサイトの支援業務をしていると、お客様からさまざまな質問をお受けします。

中でも、ここ数年で増えているのが「クロールバジェットを考慮したサイト作りは必要ですか?」という質問です。

そこで今回は、そもそもクロールバジェットとは何かを踏まえたうえで、SEOとの関係・意識すべきサイトの規模や特徴・具体的な対処法についてまとめてみました。

クロールバジェットとは?

クロールバジェット(Crawl Budget)とは、Googlebotが1つのサイトに対して一定期間に巡回(クロール)できる上限値(バジェット)です。

会計用語として予算を意味する「Budget」から連想できる通り、Googlebotには1サイトに対してクロールできる「ページ数」と「費やす時間」に限りがあります。

つまり、クロールバジェットの最適化とは下記の2点で成り立っているのです。

▼クロールバジェット最適化のポイント

  • クロールの「絶対量を増やす」工夫
  • クロールリソースを「無駄遣いさせない」工夫

クロールバジェットの目的・決定要素・影響を解説

まずは、Googleの公式サイトで公開されているクロールバジェットに関連する2つのアナウンスを見てみましょう。

クロール能力の上限

Google では、Googlebot によってご利用のサーバーに負担をかけることなく、サイトをクロールしたいと考えています。Googlebot では、負担をかけないためのクロール能力の上限を計算します。計算では、Googlebot でサイトのクロール時に使用可能な同時並行接続の最大数と、次回の取得までに必要な待ち時間が考慮されます。

引用:Google 検索セントラル

こうしたクロール速度とクロールの必要性の両方を考慮したうえで、Google ではクロールの割り当てを「クロールの必要性があり、かつ Googlebot がクロール可能な URL の数」と定義しています。

引用:Googleウェブマスター向け公式ブログ

これらの情報をまとめると、クロールバジェットの「目的」「クロール割り当ての決定要素」「影響」という3つのポイントが見えてきます。

▼重要ポイント

  • 目的:ユーザーが快適に閲覧できるよう、サーバーへの負担を避けるため
  • クロールの割り当てを決定する要素:「クロール可能なURL数」と「クロールの必要性」
  • 影響:サイト内のページ数が上限を超えると、認識されない可能性がある

ただし、たとえ上限を超えていなくてもコンテンツの質が低ければ「クロールの必要性がない」と判断される可能性があるため注意が必要です。

クロールバジェットはSEOに影響する?

結論から言うと、ほとんどのWebサイトにとってクロールバジェットとSEOは無関係です。

なぜなら、影響を受けるサイトはごく一部に限られているから。

下記の条件のどちらかに当てはまるサイトは、特別なSEO対策は必要ないと考えて良いでしょう。

▼対策が不要なサイトの特徴

  • 10,000ページ以内で、コンテンツの新規投稿や更新の頻度が緩やか
  • 100万ページ以内で、更新頻度が週1回以下

クロールバジェットを意識すべきサイトの規模は?

まず大前提として、クロールバジェットという単語はWeb上で自然発生的に生まれた造語であり、Google内部には存在しません。

昨今、「クロール バジェット(クロールの割り当て)」についてさまざまな定義を耳にします。しかし、外部的に「クロール バジェット」と言われているものを一言で説明できるような言葉はGoogle内部にはありません。

引用:Googleウェブマスター向け公式ブログ

その一方で、Googleは公式サイト上でURL数が数千以内に納まっている大部分のWebサイトは考慮する必要がないものの、下記のような特徴を持つサイトにとっては何等かの対策を講じるべきだと指摘しています。

▼対策を講じるべきサイトの特徴

  • ページが数千、数万を超える大規模サイト
  • URLパラメータの使用により、ページが自動生成されるサイト

ここからは、具体的な対策を講じるべきサイトの特徴について見ていきましょう。

▼対策を講じるべきサイトの一例

  • 低品質ページがクロールリソースを圧迫しているサイト
  • 超大規模ECサイトやCGMサイト

低品質ページがクロールリソースを圧迫しているサイト

クロールバジェットに特化した対策を講じるケースの大前提となるのは、ページが数千、数万を超える大規模サイトです。

尚且つ、下記のような特徴を持つサイトはクロールやサーバーのリソースが無駄に消費されないよう、後述する対処法が必要となります。

サーバーのリソースが無駄に消費されている

▼対策が必要なサイト

  • 大量の「重複ページ」がある
  • リンク切れなど、エラーページが多い
  • スパムコンテンツを対処してしない
  • スペースが無限に入っているページが存在する
  • ページがハッキングされている
  • ページを自動生成しているサイト
  • URL構造が複雑なサイト

中でも注意したいのが付随しているパラメータが多すぎてURL構造が極めて複雑になっているサイトです。

URLが無限に生成されるため、クローラーボットが無限ループのように巡回を繰り返しても、本当にインデックスして欲しいコンテンツがスルーされ兼ねません。

▼参考コラム

超大規模ECサイトやCGMサイト

もう一つは、下記のような「超」が付く大規模サイトでしょう。

▼大規模サイトの一例

  • 超大規模ECサイト:「アマゾン」や「楽天」など
  • 超大規模CGMサイト:「はてなブログ」や「アメーバブログ」など

中でも日常的に数百、数千ページが無尽蔵に生成されるECサイトでは、「本当に必要なのか?」「重複しているのでは?」と疑われるコンテンツが増えやすい分、本来クロールされるべきページが埋もれがちなのです。

▼ECサイトで増えやすい低品質ページ

  • 同じ商品なのに、サイズや色違いごとにページを分けている
  • バージョン変更後、新商品ページと差し替えていない
  • 終了したキャンペーン情報が残っている
  • すでに販売が終了した商品ページが残っている

なお、ECサイトのSEO対策については下記の記事で詳しく解説しておりますので、ぜひ参考にして下さい。

▼参考コラム

クロールバジェットの対処法6つ

この段落では、クロールバジェットの具体的な対処法についてご紹介します。

▼クロールバジェットの対処法

  • クロールの絶対量を増やす
  • robots.txtファイルの最適化
  • XMLサイトマップの整理・更新
  • 低品質コンテンツの削除と対応
  • 404・410エラーを返すURLの修正
  • リダイレクトチェーンの対処

クロールの絶対量を増やす

結論から言うと、外部リンクを増やすほどクロールの絶対量も増加します。

クローラーは、サイト運営者がインデックス申請をしなくてもリンクを辿ってURLを発見しています。

つまり、外部リンクが多いサイトほどURLを発見してもらえる機会がより多く得られる仕組みになっているのです。

ただし、あくまでナチュラルリンクが大前提!リンクスパムのようなブラックハットSEOでは意味がないばかりか、最悪ペナルティを受け兼ねません。

なお、サーバー容量の低さもクロールのパフォーマンスにネガティブな影響を与える一因です。

サーバーを選ぶ際は、費用だけでなく「容量」や「適性」を吟味した方が良いでしょう。

▼参考コラム

robots.txtファイルの最適化

robots.txtファイルの最適化は、クロールバジェットの対処法として最も効果的な方法と言っても過言ではありません。

まずは、robots.txtファイルが担っている2つの役割についておさらいしておきましょう。

▼robots.txtファイルの役割

  • クローラーに対し、特定のURLやディレクトリへのアクセスを「許可」する
  • クローラーに対し、特定のURLやディレクトリへのアクセスを「拒否」する

つまり、認識する必要のないページが除外できる分、最短距離でインデックスさせたいURLがクロールしてもらえるようになるのです。

▼参考コラム

XMLサイトマップの整理・更新

XMLサイトマップは自サイトにどのようなコンテンツが含まれており、どの記事が新規投稿または更新されたかを端的に表しています。

定期的に整理したXMLサイトマップを更新することでインデックスを早める効果があるのは、

追加ページや更新ページの情報がクローラーに正しくかつ素早く伝わるからです。

「このURLだけは認識して欲しい!」とアピールし、無駄なくクロールを促す方法と言った方がイメージしやすいかもしれません。

Googlebotが、余計な労力をかけずに目的のURLに辿り着けるよう、XMLサイトマップを更新しておきましょう。

▼参考コラム

低品質コンテンツの削除と対応

基本対策として、下記のような低品質ページを削除する方法が挙げられます。

▼対処すべき低品質コンテンツ

  • 重複ページ
  • リンク切れ
  • スパムコンテンツ

Googlebotのクロール能力に限りがある以上、いかに無駄な労力を省けるかが効率化のカギとなるのです。

また、別ページとしてカウントされてクロールが二度手間にならないよう、URLパラメーターが分離しないように設定しておくのも効果的な方法です。

具体的な手順については、下記の記事を参考にして下さい。

▼参考コラム

404・410エラーを返すURLの修正

エラーページが繰り返し表示される状態も、少なからずクロールバジェットを圧迫する要因です。

何より、ユーザビリティの評価を下げるのが404・410エラーの最大の難点。

クロールバジェットによる悪影響が劇的に改善する方法とは言えないものの、不要なクロールを抑制できるという点で、対処する価値はあります。

リダイレクトチェーンの対処

リダイレクトチェーンとは、「URLA」から「URLB」へと転送させる際に複数のリダイレクトが繰り返されている状態を指しています。

何度も別ページへと飛んでしまうリダイレクトチェーンは、まさに限りあるクローラーリソースの無駄遣いと言って良いでしょう。

Googleがランキング要因として最も重視しているユーザビリティにおいても不利に作用するため、サイト規模にかかわらず対処すべき項目です。

同じ理由で、下記のような不要なリダイレクトページの削除もクローラーの効率化に繋がります。

▼クロールバジェットに効果的な削除すべきリダイレクト

  • 301、302リダイレクト
  • 正規化されていないURLへのリダイレクト

まとめ

数千ページほどの小・中規模のサイトは、クロールバジェットに引っかかる心配はありません。

影響を受けるのは、あくまで数千または数万を超えるページ数を有している大規模サイトに限定されています。

ただし、将来的に取り扱う商品の多様化を目指しているECサイト、はてなブログのようなプラットフォーム的な成長を見越している場合は、あらかじめ対処法を把握しておくべきしょう。

SEOやWEB制作に関する情報を検索する

コラム

最新コラム

人気コラム

過去の記事

ご質問やご相談などお気軽にお問い合わせください。