クローラーとは?SEOに必要なクローリングの最適化方法
2020.02.28
Webサイトを検索結果に表示させるには、検索エンジンにWebサイトの存在や情報を認識してもらう必要があります。そのためには、クローラーと呼ばれるプログラムによりWebサイトを発見してもらい情報を収集してもらわなければなりません。綺麗なWebサイトや良質なコンテンツを作成しても、検索エンジンに認識されなければ誰にも閲覧されることはありません。
クローラーについて知ることは、自サイトを検索エンジンに好まれるサイトへと改善するための近道となり、SEO対策としても有効です。そこで、クローラーの働きや、検索順位を決定する仕組みについて解説し、クローリングに最適化したWebサイトを構築するための10のチェックポイントを確認したいと思います。
クローラーとは
クローラーとは、Googleなどの検索エンジンが利用するプログラムの総称です。
Webページのリンクを辿り、Webサイトを検出し、見つけたサイト上にある各種ファイルを収集し、データベースに蓄積します。
集められたデータはwebページごとにインデックス化され、検索エンジンのアルゴリズムに従ってwebページの順位付けが行われます。
知っておきたいクローラーの特徴
クローラーがどのように巡回し、情報を収集しているかを知っておくことはクローラーへのSEO対策をする上で重要なファクターとなります。中でも以下の特徴を押さえておくとサイトやコンテンツの設計に役に立つでしょう。
サイトの全てのページを漏れなく巡回しているわけではない
クローラーは巡回しやすいように巡回するため全てのページをクロールするわけではありません。特にどのページともリンクされていないページがクロールされることはないのでこまめにリンク漏れがないかチェックして下さい。
ページを発見するまでにタイムラグがある
クローラーは「這うもの」の名の通り、一瞬でサイト全体を見るわけではなく、ページのリンクを辿って巡回します。公開したページは即座にクロールされず、検索結果に反映されるまである程度の時間を要します。
クローラーが収集するファイル
クローラーが収集するWeb上のファイルとは『http』や『https』で取得できる情報であり、主なファイルには以下の物が挙げられます。
クローラーが収集する各種ファイル
- テキストファイル
- 画像ファイル
- 動画ファイル
- PDFファイル
- CSSファイル
- JavaScriptファイル
クローラーの種類
クローラーは、検索エンジンによって独自に開発しており、GoogleやYahoo(日本以外)、Bingではそれぞれ違うクローラーが使用されています。
代表される検索エンジンのクローラー
- Googlebot|Googleのクローラー
- yahoo Siurp|Yahooのクローラー(日本以外)
- bingbot|マイクロソフト運営『Bing』のクローラー
また、同じ検索エンジンであっても異なるクローラーを持っています。例えばGoogleの場合はWEBサイト用の「Googlebot」、モバイル用ページの「Googlebot-Mobile」、広告の品質をチェックする「AdsBot-Google」、画像に対してクロールを行う「Googlebot-Image」などがあります。
クロールされることの意味
クローラーが、検出したWebサイトを巡回することによって、検索エンジンはそのWebサイトの存在を認識することができます。
そのため、良質な情報を掲載しているWebサイトであっても、クローラーに巡回されなければ、検索結果に表示されることはありません。
なお、クローラーはWebページ間のリンクを辿って巡回しているため、立ち上げて間もないWebサイトではデータベースにインデックスされるまでに時間を要します。
しかし、こちらからクローラーを呼び込むことで、新規サイトでも素早くインデックスされるようになります。
自サイトのインデックス状況を確認する
自サイトのインデックス状況を確認するには、検索エンジンの検索窓に『site:(以降、自サイトのドメインを入力)』と打ち込み、検索結果が表示されるかを確認します。
クローラーが巡回し、インデックスされていれば、検索結果として自サイトのコンテンツが表示されます。
ただ、こちらは簡易的な確認方法となり、正確さに欠けるため、正確にインデックス状況を確認する場合は、Search Consoleの「インデックス カバレッジ」を確認します。
▼関連記事
自サイトにクローラーを誘導する
自サイトにクローラーを誘導する代表的な方法は2つ。
『サイトマップを検索エンジンに提供すること』と『Webサイトの存在を検索エンジンに伝えること』です。
サイトマップを検索エンジンに提供する方法
サイトマップはクローラーやユーザーに対してサイトにどのようなページが存在するかを俯瞰的に明示したものです。
サイトマップにはユーザーに対するhtml形式のものと、クローラーに対するxml形式のものがあり、ここではクローラーへ提供するxml形式について説明しています。より効率的に検索順位を上げるのならば両方設置するのが望ましいでしょう。
- Sitemap.xmlを作成
例)サイトマップ自動生成ツールなどを使用。「sitemap.xml Editor:http://www.sitemapxml.jp/」
- 作成したファイルをサーバーにアップロード
- Google Search Consoleにログイン
- 左サイドメニューのインデックス内のサイトマップを選択
- 新しいサイトマップの追加にサイトマップのURLを入力し送信
なお、XMLサイトマップの作成方法については以下のページで詳しく紹介しています。
▼関連記事
Webサイトの存在を検索エンジンに伝える方法
- Google Search Consoleにログイン
- 左サイドメニューのURL検査にGoogleにクロールインデックスしてほしいページのURLを入力
- 新しいサイトマップの追加にサイトマップのURLを入力し送信
その後、数時間から長くても2週間ほどで、インデックスされるはずです。
Webサイトを検索結果に表示させるには、クローラーが大きな役割を果たしています。では、クローラーと検索結果の順位にはどんな関係があるのでしょうか。 この点について見ていきましょう。
クローラーの働きと検索順位が決まる仕組み
クローラーの主な働きは、Webページ間のリンクを辿りWebサイトを検出すること、サイト上の情報を収集して持ち帰ること、そして、持ち帰った情報を検索エンジンのデータベースにインデックスすることの3つです。
クローラーの巡回プロセスは、以下の手順で進められます。
- 過去にインデックスされたWebページリスト及び、サイトマップ情報の確認
- 対象Webサイトにある新規情報の確認及び、収集
- 対象Webサイトにある新しいリンクの確認及び、無効なリンクの確認
この時、クローラーは巡回先のWebサイト情報に加え、新しいリンク先の確認もします。これによりクローラーは新しいWebサイトを発見できます。
検索順位が決まる仕組み
検索順位を決定する正確な仕組みは、各検索エンジンのアルゴリズムを非公開としているため、断定することはできません。
しかしGoogleは200以上の視点から、対象キーワードを検索したユーザーに対して好ましいサイトを判断し、検索結果や順位に反映させていると言われています。
その際に重要な要素となるのが、データベースにインデックスされたWebサイト情報です。
インデックスとは
インデックス(索引)とは、検索エンジンのデータベースに記録・蓄積されているWebサイトの情報を指します。
また記録・蓄積をする際、クローラーにより持ち帰られた情報を整理し、分かりやすい形でまとめています。
情報を整理する理由は、対象となるWebサイト上にはどんなテーマの情報があり、どんな内容を取り扱っているのかなどを分かりやすくまとめるためです。
こうして整理された情報を元にWebサイトを評価し、検索結果に表示する順位を決定します。
クローラーによる巡回とインデックスが、Webサイトが検索されるための第一歩となるので、SEO対策をするにあたって基本的かつ重要なチェックポイントとなります。
クローラーを適切に巡回させて、SEOを強化する10個の施策について紹介します。検索順位を操作することはできませんが、検索エンジンに好まれるサイト作りの参考となるでしょう。
クローリングを最適化してSEOを強化する施策10選
クローラビリティの向上がなぜ重要なのか?
クローラビリティとは言うなればクローラーがどれだけそのページを見つけやすいかという指標で、サーバーにあるhtmlやcssといった各種ファイルをGooglebotなどが読みやすいようにまとめて、クローラーが巡回しやすいように改善することを『クローラビリティの向上』と呼びます。
クローラビリティの向上による効果は様々ですが、直接的な利点はクロールの頻度が高くなることです。
ただし、クローラーが検索順位を決めるわけではありません。
しかし、クロールして持ち帰った情報を元に検索順位が導き出されるため、クローラーを適切に巡回させることはSEOの強化に必要不可欠です。
下記に理由を挙げます。
クローラーが巡回していないサイトは検索結果に表示されない
検索エンジンがクローラーの集めた情報を元に検索結果を出しているという性質上、クローリングされていないページは基本的に検索結果に表示されません。前述した通り、クローラーは一度にサイトの全てを見て回るわけではないのでそこから漏れたページは検索結果に反映されないのです。
クロールの頻度が高くなれば更新が反映されやすくなる
クロールされていないページが検索結果に反映されないように、いくら更新をしてもそのページがクロールされなければ検索エンジンに影響を与えることはありません。
クローラーは数日ほどで巡回する場合もあれば2,3ヶ月以上経っても来ないという場合もあり、かなりの振れ幅があるため、クロールの頻度が高いサイトとそうでないサイトとでは結構な差が生じることになります。
以上のように、クロールの頻度が向上することにより、検索順位に影響を与える適切なSEO対策が、より迅速に効果を発揮することができます。
逆に言うとクローラビリティが悪ければ、ページにどんなSEO対策を行っていても思うような効果が得られなくなります。
以降の項目でクローラビリティを向上させるために10の施策を紹介していますのでそれぞれの特徴を踏まえてSEOに生かしてください。
▼関連記事
施策1.サイトの更新頻度の向上
クローラーは1回の巡回でWebサイト内にあるすべての情報を持ち帰ることはないため、必要に応じて何度もサイトを訪問します。
Webサイトの更新頻度を高めることにより、クローラーは、サイトを訪れて新しい情報を収集する必要が生まれ、インデックスされる情報が絶えず充足されます。
Webサイトの情報を常に最新に保つことで、コンテンツの質や正確性などが評価されることに繋がります。
良質なコンテンツに正当な評価をつけてもらうためにも、Webサイトの更新はこまめに行い、クローラーの巡回を促進させましょう。
施策2.ディレクトリの構造を改善
ディレクトリ構造とはファイルを分類・保管するディレクトリがどのような構造になっているかを指します。
理想的なディレクトリ構造は、階層的に整理されているか、階層に空白がないか、別階層で重複していないかが目安になります。
またクローラーは浅い階層にあるコンテンツを重要だと認識するので検索結果に表示させたいページは浅い階層に配置することをオススメします。
あまり複雑なディレクトリ構造は、クローラーのスムーズな巡回を妨げる要素となります。
そのため、3階層以内の構造で、重要なコンテンツに到達できるようにしましょう。
▼関連記事
施策3.パンくずリストの設置
パンくずリストとは、サイトの階層を示すもので、ユーザーに現在どの階層にいるのかを分かりやすく伝えることができます。
これはクローラーにとっても同様で、巡回すべきルートが最短でわかりやすくなります。
主なパンくずリストの形式は下記の3つがあります。
- こちらが設定した経路を表示するもの
- ユーザーが実際に辿った経路を表示するもの
- そのページに繋がる全経路を表示するもの
ページの規模が大きい場合、「全経路を表示」してしまうと逆に見えづらくなってしまうので、他の2つの方法を採用した方が無難でしょう。
▼関連記事
施策4.テキストリンクの設置
クローラーは画像を理解できないことから、画像リンクよりもテキストリンクの方が、クローラーには好まれます。
画像リンクを使用する際は、クローラーに理解してもらうため、『alt』に画像内のテキストを設置するか、画像の説明を設定しましょう。
施策5.アンカーテキストの内容改善
リンクが貼られたテキストで多く見られるのが『続きはこちら』や『関連記事へ』といった表現です。
クローラーはアンカーテキスト(リンクが貼られたテキストのこと)によってリンク先の内容を理解することができますので、リンク先の内容が分かるテキストにしましょう。
リンク先の内容とリンクを組み込んだ文章の関連性が低い場合、検索エンジンの評価が下がる可能性があるので注意して下さい。リンク先のコンテンツではアンカーテキストと関連性が高いキーワードを組み込むことが重要です。
以前はアンカーテキストを隙間なく詰め込む手法が有効でしたが、現在ではブラックハットSEOと見なされるので絶対にやらないで下さい。
アンカーテキストについて、詳しくは下記の記事を参照してください。
▼関連記事
施策6.自サイト内のページ・コンテンツへのリンク設定
自サイト内において、内部リンクのついていないページやコンテンツがある場合、関連するコンテンツにリンクを繋げるようにしましょう。
クローラーはリンクを辿って、ページやコンテンツを見つけ、リンクの集まっているページを重要なページと判断する傾向があるため、内部リンクでたどり着けない孤立したページは上質のコンテンツでもその情報を活かしきれません。
特に新たにページを作成した場合、外部リンクは期待できませんので関連項目などの内部リンクを利用しクローリングしやすい適切なリンク構造を作るようにしましょう。
▼関連記事
施策7.重複している不要なページは削除
単に内容が重複しているページ、同じページなのに『www.』がある場合とない場合など、調べてみるといくつかの重複ページが見つかることがあります。
クローラーは、同じ内容で複数ページある場合、意味のないページと判断してマイナス評価にする可能性があります。
自サイト内に重複したページがないかを『site:(以降、自サイトのドメインを入力)』で確認し、重複ページが確認できた場合は、その状態によって対応する方法が異なります。
例えば、ECサイトなどで、同じ商品の色違いの商品ごとにページがある場合は、そのページを削除することはせず、canonicalを使用して正規のページをクローラーに示すことで、重複ページではないことを伝えることができます。
単純に、コンテンツ内容がほとんど似通っているのに、異なるページという場合は、どちらかのページに統合してしまうのがいいでしょう。
そうすることで、その情報を求めてきたユーザーが目的のページを見つけやすくなります。
完全に重複したページが存在する場合は、どちらか片方を残し、もう片方のページをサイト上から削除します。
もしくは、どちらのページにもアクセスがあるという場合は、301リダイレクトの設定(コピーページにアクセスがあった際に、オリジナルページに転送させる設定)を行う対策も推奨できます。
▼関連記事
施策8.ページネーションを数字で設定
1ページが長くなり過ぎないようにページネーションを採用しているサイトの場合、ページネーションの表記は『前・次・続き』より『1,2,3…』といった数字表記の方がクローラーにとっては親切です。
※2019年2月の発表でGoogleはページネーションのサポートを終了するとしていますので、なるべくページネーションを使用せずにページ単体が独立して成立するようなサイト構成にしていただければと思います。
▼関連記事
施策9.クロールバジェットへの理解
クロールバジェットとは、Googlebotがクロールできる上限値のこととされています。
Webサイト内にクロールバジェットを超える情報がある場合、クロールできないページが出てくるとされています。
しかし、Googleのゲイリー・イリェーシュ氏は公式ブログで、「URL数が数千以下のWebサイトにおいては、クロールバジェットの影響を受けることはなく気にする必要はない」と言及しています。
自サイトが数万にも及ぶURL数を持っている場合には、コンテンツやページに優先順位をつけて、公開・非公開の選択をする必要があることを覚えておくとよいでしょう。
施策10.外部サイトからの被リンク
クローラーが巡回を始める出発点は、対象となるWebサイトに繋がるURLです。
そのため、外部サイトからの被リンクは、クローラーの巡回数を増やす意味でも重要といえるでしょう。
しかし、不自然な被リンクは、検索エンジンからマイナスに評価されます。
過去に確認した不自然なリンクが張られたサイトでは、下落の時期は異なりますが、検索順位影響があることがほとんどでした。
ひとつ例を挙げますと、下落したサイトに張られていた不自然な被リンクは、複数のブログから同一のアンカーテキストでリンクが張られており、Googleのアルゴリズムで見ても、人の目で見ても不自然だとすぐにわかるものでした。
▼関連記事
まとめ
クローラーは、直接検索結果の順位に影響を及ぼす働きをするものではありませんが、クローラーがWebサイトをクロールすることによって収集した情報を元にして、検索エンジンは検索結果の評価と順位を決定しています。
Webサイトはクローラーが適切にサイト内を巡回できるようクローラビリティを考慮して構築し、サイトの情報を最新に保つようにすることが大切です。
そうすることで、クローラーが頻繁に巡回してくれるようになり、新しいページもインデックスされやすくなります。
クローラーが巡回してくれないことには、検索ユーザーに見つけてもらうことができませんので、これらが基本的かつ重要なSEO対策となります。
関連