クローラーとは?SEOに必要なクローリングの最適化方法

SEO対策実例・コラム
2019.05.22
2019.06.05
クローラーとは?SEOに必要なクローリングの最適化方法

Webサイトを検索結果に表示させるには、検索エンジンにWebサイトの存在や情報を認識してもらう必要があります。そのためには、クローラーと呼ばれるプログラムによりWebサイトを発見してもらい情報を収集してもらわなければなりません。綺麗なWebサイトや良質なコンテンツを作成しても、検索エンジンに認識されなければ誰にも閲覧されることはありません。

クローラーについて知ることは、自サイトを検索エンジンに好まれるサイトへと改善するための近道となり、SEO対策としても有効です。そこで、クローラーの働きや、検索順位を決定する仕組みについて解説し、クローリングに最適化したWebサイトを構築するための10のチェックポイントを確認したいと思います。

クローラーとは

クローラーとは、Googleなどの検索エンジンが利用するプログラムの総称です。
Webページのリンクを辿り、Webサイトを検出し、見つけたサイト上にある各種ファイルを収集し、データベースに蓄積します。

集められたデータはwebページごとにインデックス化され、検索エンジンのアルゴリズムに従ってwebページの順位付けが行われます。

クローラーが収集するファイル

クローラーが収集するWeb上のファイルとは『http』や『https』で取得できる情報であり、主なファイルには以下の物が挙げられます。

    クローラーが収集する各種ファイル
  • テキストファイル
  • 画像ファイル
  • 動画ファイル
  • PDFファイル
  • CSSファイル
  • JavaScriptファイル

クローラーの種類

クローラーは、検索エンジンによって独自に開発しており、GoogleやYahoo(日本以外)、Bingではそれぞれ違うクローラーが使用されています。

    代表される検索エンジンのクローラー
  • Googlebot|Googleのクローラー
  • yahoo Siurp|Yahooのクローラー(日本以外)
  • bingbot|マイクロソフト運営『Bing』のクローラー

クロールされることの意味

クローラーが、検出したWebサイトを巡回することによって、検索エンジンはそのWebサイトの存在を認識することができます。
そのため、良質な情報を掲載しているWebサイトであっても、クローラーに巡回されなければ、検索結果に表示されることはありません。

なお、クローラーはWebページ間のリンクを辿って巡回しているため、立ち上げて間もないWebサイトではデータベースにインデックスされるまでに時間を要します。
しかし、こちらからクローラーを呼び込むことで、新規サイトでも素早くインデックスされるようになります。

自サイトのインデックス状況を確認する

自サイトのインデックス状況を確認するには、検索エンジンの検索窓に『site:(以降、自サイトのドメインを入力)』と打ち込み、検索結果が表示されるかを確認します。
クローラーが巡回し、インデックスされていれば、検索結果として自サイトのコンテンツが表示されます。
ただ、こちらは簡易的な確認方法となり、正確さに欠けるため、正確にインデックス状況を確認する場合は、Search Consoleの「インデックス カバレッジ」を確認します。

自サイトにクローラーを誘導する

自サイトにクローラーを誘導する代表的な方法は2つ。
『サイトマップを検索エンジンに提供すること』と『Webサイトの存在を検索エンジンに伝えること』です。

    ▼サイトマップを検索エンジンに提供する方法
  1. Sitemap.xmlを作成
    例)サイトマップ自動生成ツールなどを使用。「sitemap.xml Editor」(http://www.sitemapxml.jp/)
  2. 作成したファイルをサーバーにアップロード
  3. Google Search Consoleにログイン
  4. 左サイドメニューのインデックス内のサイトマップを選択
  5. 新しいサイトマップの追加にサイトマップのURLを入力し送信
    ▼Webサイトの存在を検索エンジンに伝える方法
  1. Google Search Consoleにログイン
  2. 左サイドメニューのURL検査にGoogleにクロールインデックスしてほしいページのURLを入力
  3. 新しいサイトマップの追加にサイトマップのURLを入力し送信
    ▼URL検査(旧Fetch as Google)を利用する
  1. Google Search Consoleにログイン
  2. 左サイドメニューの「URL検査」、もしくはページ上部の入力枠にインデックスしてほしいページのURLを入力
  3. 「インデックス登録をリクエスト」をクリック

その後、数時間から長くても2週間ほどで、インデックスされるはずです。なおサーチコンソールに関しては現在、新旧どちらもアクセスできますが、旧機能はほとんど使用できない状態となっております為、上記の新サーチコンソールの「URL検査」で「インデックス登録をリクエスト」を使用していただければと思います。

Webサイトを検索結果に表示させるには、クローラーが大きな役割を果たしています。では、クローラーと検索結果の順位にはどんな関係があるのでしょうか。 この点について見ていきましょう。

クローラーの働きと検索順位が決まる仕組み

クローラーの主な働きは、Webページ間のリンクを辿りWebサイトを検出すること、サイト上の情報を収集して持ち帰ること、そして、持ち帰った情報を検索エンジンのデータベースにインデックスすることの3つです。

クローラーの巡回プロセスは、以下の手順で進められます。
  1. 過去にインデックスされたWebページリスト及び、サイトマップ情報の確認
  2. 対象Webサイトにある新規情報の確認及び、収集
  3. 対象Webサイトにある新しいリンクの確認及び、無効なリンクの確認

この時、クローラーは巡回先のWebサイト情報に加え、新しいリンク先の確認もします。これによりクローラーは新しいWebサイトを発見できます。

検索順位が決まる仕組み

検索順位を決定する正確な仕組みは、各検索エンジンのアルゴリズムを非公開としているため、断定することはできません。
しかしGoogleは200以上の視点から、対象キーワードを検索したユーザーに好ましいサイトを判断し、検索結果や順位に反映させていると言われています。

その際に重要な要素となるのが、データベースにインデックスされたWebサイト情報です。

インデックスとは

インデックス(索引)とは、検索エンジンのデータベースに記録・蓄積されているWebサイトの情報を指します。
また記録・蓄積をする際、クローラーにより持ち帰られた情報を整理し、分かりやすい形でまとめています。

情報を整理する理由は、対象となるWebサイト上にはどんなテーマの情報があり、どんな内容を取り扱っているのかなどを分かりやすくまとめるためです。
こうして整理された情報を元にWebサイトを評価し、検索結果に表示する順位を決定します。

クローラーによる巡回とインデックスが、Webサイトが検索されるための第一歩となるので、SEO対策をするにあたって基本的かつ重要なチェックポイントとなります。

クローラーを適切に巡回させて、SEOを強化する10個の施策について紹介します。検索順位を操作することはできませんが、検索エンジンに好まれるサイト作りの参考となるでしょう。

クローリングを最適化してSEOを強化する施策10選

クローラーが検索順位を決めるわけではありません。
しかし、クロールして持ち帰った情報を元に検索順位が導き出されるため、クローラーを適切に巡回させることはSEOの強化に必要不可欠です。

施策1.サイトの更新頻度の向上

クローラーは1回の巡回でWebサイト内にあるすべての情報を持ち帰ることはないため、必要に応じて何度もサイトを訪問します。
Webサイトの更新頻度を高めることにより、クローラーは、サイトを訪れて新しい情報を収集する必要が生まれ、インデックスされる情報が絶えず充足されます。
Webサイトの情報を常に最新に保つことで、コンテンツの質や正確性などが評価されることに繋がります。

良質なコンテンツに正当な評価をつけてもらうためにも、Webサイトの更新はこまめに行い、クローラーの巡回を促進させましょう。

施策2.ディレクトリの構造を改善

あまり複雑なディレクトリ構造は、クローラーのスムーズな巡回を妨げる要素となります。
そのため、3階層以内の構造で、重要なコンテンツに到達できるようにしましょう。

施策3.パンくずリストの設置

パンくずリストとは、サイトの階層を示すもので、ユーザーに現在どの階層にいるのかを分かりやすく伝えることができます。
これはクローラーにとっても同様で、巡回すべきルートが最短でわかりやすくなります。

なお、サーバーにあるhtmlやcssといった各種ファイルをGooglebotなどが読みやすいようにまとめて、クローラーが巡回しやすいように改善することを『クローラビリティの向上』と呼びます。

クローラビリティの観点からも、ユーザービリティの観点からも、パンくずリストの設置は重要です。

施策4.テキストリンクの設置

クローラーは画像を理解できないことから、画像リンクよりもテキストリンクの方が、クローラーには好まれます。
画像リンクを使用する際は、クローラーに理解してもらうため、『alt』に画像内のテキストを設置するか、画像の説明を設定しましょう。

施策5.アンカーテキストの内容改善

リンクが貼られたテキストで多く見られるのが『続きはこちら』や『関連記事へ』といった表現です。
クローラーはアンカーテキスト(リンクが貼られたテキストのこと)によってリンク先の内容を理解することができますので、リンク先の内容が分かるテキストにしましょう。

施策6.自サイト内のページ・コンテンツへのリンク設定

自サイト内において、内部リンクのついていないページやコンテンツがある場合、関連するコンテンツにリンクを繋げるようにしましょう。
クローラーはリンクを辿って、ページやコンテンツを見つけ、リンクの集まっているページを重要なページと判断する傾向があるため、内部リンクでたどり着けない孤立したページは上質のコンテンツでもその情報を活かしきれません。

施策7.重複している不要なページは削除

単に内容が重複しているページ、同じページなのに『www.』がある場合とない場合など、調べてみるといくつかの重複ページが見つかることがあります。
クローラーは、同じ内容で複数ページある場合、意味のないページと判断してマイナス評価にする可能性があります。

自サイト内に重複したページがないかを『site:(以降、自サイトのドメインを入力)』で確認し、重複ページが確認できた場合は、その状態によって対応する方法が異なります。

例えば、ECサイトなどで、同じ商品の色違いの商品ごとにページがある場合は、そのページを削除することはせず、canonicalを使用して正規のページをクローラーに示すことで、重複ページではないことを伝えることができます。

単純に、コンテンツ内容がほとんど似通っているのに、異なるページという場合は、どちらかのページに統合してしまうのがいいでしょう。
そうすることで、その情報を求めてきたユーザーが目的のページを見つけやすくなります。

完全に重複したページが存在する場合は、どちらか片方を残し、もう片方のページをサイト上から削除します。
もしくは、どちらのページにもアクセスがあるという場合は、301リダイレクトの設定(コピーページにアクセスがあった際に、オリジナルページに転送させる設定)を行う対策も推奨できます。

施策8.ページネーションを数字で設定

1ページが長くなり過ぎないようにページネーションを採用しているサイトの場合、ページネーションの表記は『前・次・続き』より『1,2,3…』といった数字表記の方がクローラーにとっては親切です。
※2019年2月の発表でGoogleはページネーションのサポートを終了するとしていますので、なるべくページネーションを使用せずにページ単体が独立して成立するようなサイト構成にしていただければと思います。

施策9.クロールバジェットへの理解

クロールバジェットとは、Googlebotがクロールできる上限値のこととされています。
Webサイト内にクロールバジェットを超える情報がある場合、クロールできないページが出てくるとされています。

しかし、Googleのゲイリー・イリェーシュ氏は公式ブログで、「URL数が数千以下のWebサイトにおいては、クロールバジェットの影響を受けることはなく気にする必要はない」と言及しています。

自サイトが数万にも及ぶURL数を持っている場合には、コンテンツやページに優先順位をつけて、公開・非公開の選択をする必要があることを覚えておくとよいでしょう。

施策10.外部サイトからの被リンク

クローラーが巡回を始める出発点は、対象となるWebサイトに繋がるURLです。
そのため、外部サイトからの被リンクは、クローラーの巡回数を増やす意味でも重要といえるでしょう。

しかし、不自然な被リンクは、検索エンジンからマイナスに評価されます。
過去に確認した不自然なリンクが張られたサイトでは、下落の時期は異なりますが、検索順位影響があることがほとんどでした。

一つ例を挙げますと、下落したサイトに張られていた不自然な被リンクは、複数のブログから同一のアンカーテキストでリンクが張られており、Googleのアルゴリズムで見ても、人の目で見ても不自然だとすぐにわかるものでした。

まとめ

クローラーは、直接検索結果の順位に影響を及ぼす働きをするものではありませんが、クローラーがWebサイトをクロールすることによって収集した情報を元にして、検索エンジンは検索結果の評価と順位を決定しています。

Webサイトはクローラーが適切にサイト内を巡回できるようクローラビリティを考慮して構築し、サイトの情報を最新に保つようにすることが大切です。
そうすることで、クローラーが頻繁に巡回してくれるようになり、新しいページもインデックスされやすくなります。
クローラーが巡回してくれないことには、検索ユーザーに見つけてもらうことができませんので、これらが基本的かつ重要なSEO対策となります。

コラム

最新コラム

人気コラム

過去の記事

ご質問やご相談などお気軽にお問い合わせください。

お電話でのお問い合わせはこちら

03-5829-9912

受付時間:平日10:00~19:00(土・日・祝日を除く)