9月1日よりnoindexが完全無効!?改めてrobots.txtの書き方を紹介
2019.07.31
2019年9月1日より、robots.txtで使えていたnoindexが使えなくなります。 今回は、noindexがどんな時に使うのか?またrobots.txtの書き方についてご紹介します。
そもそもrobots.txtとは?
そもそもrobots.txtとは何か?どんなことが出来るのか見ていきます。
どんな時に使う?
robots.txtとは、Google等検索エンジンのクローラーに対して、特定のページやディレクトリにアクセスを許可したり拒否したりするための設定ファイルです。例えば会員制のページで、ログイン後のページにアクセスやクロールを拒否したり、アクセスが多くサーバーの負荷になっている特定の検索エンジンのみアクセスを拒否したりと。。また、sitemap.xmlを検索エンジンに通知する機能もあります。
▼関連記事
noindexとはどんな機能?
noindexとは、検索エンジン側に該当するファイルやディレクトリーをインデックス(=検索結果に表示させない)させない命令の事です。通常は、検索結果に表示させたくない、htmlに以下のようなメタタグに設定します。
<meta name="robots" content="noindex">
このメタタグとは別に、Googleでは正式なサポートではないものの実質的な機能として、robots.txtにNoindex構文を書くと読み取り、インデックスを拒否することが出来ます。なお他の検索エンジンでは、robots.txtにNoindex構文を書いても機能しないようで、robots.txtにおけるNoindexの書き方は以下のとおりです。
User-agent: Googlebot
Noindex: /sample.html
▼関連記事
9月1日からnoindexが使えなくなる
前述したrobots.txtにおけるnoindex機能ですが、2019年9月1日より、Googleでは機能が完全に無効となります。無効になる理由をGoogleのゲイリー氏は2つ挙げています。
- この機能を利用しているサイトが0.001%と極めて少ない
- この機能を使ったことで、サイトに害を与えているサイトが多い
robots.txtの書き方
それでは実際にrobots.txtの書き方について説明していきます。
robots.txtの書き方
ファイル名は、必ず、「robots.txt」とします。通常のテキストファイルですのでメモ帳やterapad等のテキストエディターで作成します(文字コードはUTF-8としてください)。 User-agentで、実際にクロールするorしないクローラーを指定します。Disallow or Allowでアクセス制限の範囲を指定します。実際の書き方の例は以下となります
User-agent: Googlebot
Disallow: /
上記では、Googleに対して、トップディレクトリ以下全てのクロールを許可しないということになります。
複数のクローラーに対して同じディレクトリに対してアクセス拒否する場合は以下のように、User-agentを2行にして記載します。
User-agent: Googlebot
User-agent: bingbot
Disallow: /cgi-bin/
すべてのクローラーに対してアクセス拒否する場合は以下のように、User-agentに*(アスタリスク)をつけます。
User-agent: *
Disallow: /cgi-bin/
また、サイトによっては、以下のように、robots.txtですべてのクローラーに対して、アクセス許可している記述を見かけますが、robots.txtで記述がないものは、基本的にクロールされますので、以下のような設定はしなくても問題ないです。
User-agent: *
allow: /
なお、サイトマップの場所を記載する場合は以下となります。先頭は大文字であることに注意してください。
User-agent: *
allow: /
Sitemap:http://pecopla.net/sitemap.xml
どんなボットに対してアクセス制限をしたらよいのか?
基本的には、たくさんのアクセスがあり、サイトの動作に影響しているものに対してアクセス制限をかけると良いです。具体的には、SEOやWebマーケティング系のツール(AhrefsbotやMJ12bot等)や日本であまりつかされていない検索エンジン(BaiduやYandex等)
robots.txtの確認方法と設置方場所
前述で記載した、robots.txtファイルのチェック方法と設置場所についてご紹介します。
確認方法
robots.txtが完成したら、「Search Console」のrobots.txtテスターを使って動作確認をします。robots.txtテスターはSearchConsoleの左にあるダッシュボードの「クロール」の中にあります。その中の「Googleに更新リクエスト」にある「送信」をクリックします。
送信すると、設定した、robots.txtのチェック結果が表示され、エラーや警告がなければ、送信を押せばよいです。エラーがあった場合はもう一度設定内容を確認してください。
設置場所
設置場所ですが、サイトのトップディレクトリにします。なおサブディレクトリに設置すると認識しないので注意してください。
反映されるまでにはどのくらい?
まず、robots.txtファイルのキャッシュを更新する必要があります。通常はコンテンツのキャッシュは最大1日ですが、クロールとインデックス登録の処理が複雑であるため、実際に設定してから反映までどのくらいかかるかは、判断できません。
まとめ
いかがでしたでしょうか?今回は、robots.txtの書き方や設置方法などをご紹介いたしました。 robots.txtの記述を誤ると、クロールしてほしいところがクロールされていなかったり、逆にクロールされたくないところをクロールしてインデックスされたりと弊害が出てしまいます。 そのため、robots.txtの設置は慎重に行うようにしましょう。
関連