重複コンテンツのペナルティ対象とは?チェック方法とHTML記述例つきSEO対策
2020.03.13
「コンテンツのスペックは競合サイトと変わらないのに、なかなかGoogleでの検索順位が上がらない」そんな経験はありませんか?もちろん、検索順位が上がらないのは複数の要素が複合的に影響しているからでしょうが、今回取り上げる重複コンテンツも要因の一つかもしれません。そこで本記事では、重複コンテンツの種類をはじめSEOへ与える影響やチェック方法、それぞれの状況に適した対処法などを詳しく解説します。
重複コンテンツとは?基準はGoogleの定義
重複コンテンツとは、「タイトル」「テキスト」「画像」などの要素が他ページの内容と重複している状態を指しており、扱いは「コピーコンテンツ」と同じです。
Googleの公式サイトでは、重複コンテンツの定義について以下のように解説されています。
一般に、重複するコンテンツとは、ドメイン内または複数ドメインにまたがって存在する、他のコンテンツと完全に同じであるか非常によく似たコンテンツのブロックを指します。
※引用元: Search Console ヘルプ
つまり、サイト内外を問わず複数の異なるURLから「全く同じ」または「コンテンツの一部」が類似したページにアクセスできる状態であれば、製作者の意図にかかわらず重複コンテンツだとみなされてしまうのです。
サイト内のページ数が多いほど発生する確率が高くなり、世の中の30%は重複コンテンツだと言われています。
重複コンテンツの種類
重複コンテンツを大きく分類すると、同一ドメインの「サイト内部」で発生するタイプと、別ドメインである「外部サイトとの間」で発生するタイプの2種類に分けられます。
ここからは、サイト内部と外部それぞれについて重複コンテンツが発生しやすい具体例を見てみましょう。
サイト内部の重複コンテンツ
サイト内部の重複コンテンツは、その多くが「やむを得ない仕様上の問題」で発生してしまいます。
そのため、下記のような重複コンテンツとみなされやすいページが存在していても、気が付かないサイト運営者が多いのです。
▼サイト内部で発生しやすい重複コンテンツ
- URLの表記に一貫性が保たれてない
- wwwが自動で生成されている
- Web用の印刷ページ
- PC用とスマホ用で別々のURLにしている
- ECサイトなど画像がメインのページ
- 商品の説明がメーカーなどから提供されている定型文を引用している
- 全国向けポータルサイトなど、類似ページを地域別に発信している
- 関連性の高いKWごとにページを作成した結果、内容が似てしまう
特にありがちなのが、URLの表記に一貫性が保たれていないケースです。
下記のように微妙に異なるURLから全く同じコンテンツへとアクセスできる場合、たとえWeb制作者が存在に気づいていなくても重複コンテンツの対象となり得ます。
【一貫性のないURL】
・http://pecopla.com/
・https://pecopla.com/
・https://www.pecopla.com/
・https://www.pecopla.com/ index.php
・https://www.pecopla.com/ index.html
外部サイトとの間で発生する重複コンテンツ
外部サイトとの間で重複コンテンツが発生する主な原因として、下記の3つが挙げられます。
- 他サイトのコンテンツを参考にした結果、内容が似てしまう
他サイトのコンテンツをコピーしていない場合でも、他サイトのコンテンツを参考に自サイトのコンテンツを作成すると、内容が類似してしまうことがあります。意図せずとも重複コンテンツ(コピーコンテンツ)と判断されてしまうため注意しましょう。
- 他サイトにコンテンツを提供している
他サイトにコンテンツを提供しており、他サイト内のコンテンツが他のサイトでも利用されている場合、契約に基づいたコンテンツ提供であっても、検索エンジンには重複コンテンツだと判断されてしまいます。
- 他サイトにコンテンツを盗用されている
他サイトにコンテンツを盗用された場合、通常自サイトがオリジナルコンテンツと判断されるため、悪影響はありません。しかし自サイトのWebページよりも早く他サイトのコンテンツがインデックスされた場合、オリジナルである自サイトのウェブページが重複コンテンツだと検索エンジンに認識されることがあります。
重複コンテンツがSEOに与える影響
そもそも、なぜ重複コンテンツはSEOにとって不利なのでしょうか?
仮に、重複コンテンツがオリジナルコンテンツと同等の評価を得てしまうと、検索結果に似たようなページばかりが表示されてしまいます。
この状態では検索ユーザーに価値のある情報を提供できないため、検索エンジンは「重複コンテンツ=価値のないモノ」と捉え、オリジナルコンテンツと区別しているのです。
ここからは、重複コンテンツがSEOに与える代表的な3つのリスクについて見てみましょう。
Googleのペナルティ対象になる
かつてGoogleに在籍していたマット・カッツ(Matt Cutts)氏は、重複コンテンツがあるだけで即ペナルティの対象にはならないと発言しました。
しかし、現在Googleでは原則的に2つ以上の重複コンテンツを同時に検索結果に出さないようにすべきだとアナウンスしており、特に「パンダアップデート」が実施された2012年7月以降はジャッジが厳しくなっているようです。
重複コンテンツはGoogleが定義する低品質コンテンツに該当するため、どんなに有益な情報が書かれていようと高く評価されることはありません。
また、低品質コンテンツを含むWebサイトの検索順位を下げる働きをするパンダアップデートについては、下記の記事で詳しく解説しています。
ここからは、悪意の有無がGoogleの判定基準に影響するのか、また実際にペナルティを受けた場合の影響について個別に解説します。
悪意のある重複コンテンツ
下記のような無断で複製された重複コンテンツは、明らかにGoogleの品質ガイドラインに違反しています。
そのため、悪意のある重複コンテンツとみなされて即刻ペナルティを受けても反論の余地はありません。
無断複製されたコンテンツの例としては、次のようなものが挙げられます。
・他のサイトのコンテンツをコピーし、独自のコンテンツや付加価値を加えることなく転載しているサイト
・他のサイトのコンテンツをコピーし、(語句を類義語に置き換えたり自動化された手法を使用したりして)若干の修正を加えた上で転載しているサイト
・何らかの独自の体系付けやユーザーへの利便性を提供することなく他のサイトからのコンテンツ フィードをそのまま掲載しているサイト
・ユーザーに実質的な付加価値を提供することなく、他のサイトの動画、画像、その他のメディアなどのコンテンツを埋め込んだだけのサイト
引用元:Search Console ヘルプ
悪意のない重複コンテンツ
一方、下記のような重複コンテンツは意図的ではなく偶発的に発生するケースが多いため、明らかな品質ガイドライン違反とは言い切れません。
多くの場合、偽装を意図したものではありません。悪意のない重複コンテンツの例には、以下のものがあります。
・通常ページとモバイルデバイス用の簡易ページの両方を生成するディスカッション フォーラム
・複数の異なるURLで表示またはリンクされる商品
・ウェブページの印刷用バージョン
引用元:Search Console ヘルプ
ただし、Web制作者に悪意があろうとなかろうとユーザーの利便性が損なわれる可能性があるうえ、検索エンジンは悪意の有無が判別できません。
そのため、Googleからユーザビリティが低いサイトだと評価された場合は、たとえ悪意のない上記のようなケースでもペナルティの対象となります。
ペナルティの影響
では実際に、ペナルティを受けたコンテンツがどのような不利益を被るのか、Google公式サイトの解説を見てみましょう。
ごくまれなケースとして、Google でのランキングの操作やユーザーへの偽装を意図した重複コンテンツが表示される可能性が認識された場合も、Google では関係するサイトのインデックス登録とランキングに対して適切な調整を行います。その場合、該当するサイトはランキングが低下するか、Google インデックスから完全に削除されて検索結果に表示されなくなる可能性があります。
引用元:Search Console ヘルプ
このように、重複コンテンツによってGoogleからペナルティを受けると「検索順位の低下」や「インデックス削除による非表示」など、甚大なSEOリスクが生じてしまいます。
検索結果に表示されない
重複コンテンツは通常、同時に検索結果に表示されることはありません。検索結果に表示されるのは、オリジナルと判断されたコンテンツ1つのみです。
検索結果に重複コンテンツを同時に表示してしまうと、類似の内容のWebページが検索結果に表示されることになります。そうなれば、1つ目のWebページにアクセスして疑問や悩みが解決できなかったユーザーが、2つ目のWebページにアクセスしても内容が類似しているため、疑問や悩みを解決できないということになりかねません。
ユーザーがキーワード検索を通して疑問や悩みを解決できるように、検索エンジンは多様性を担保しようとします。同じ内容のコンテンツではなく、独自の付加価値をユーザーに与えられるオリジナルのコンテンツが上位表示されるため、重複コンテンツを含むWebページは上位表示されません。
被リンク評価が分散される
サイト内部に重複コンテンツが存在する場合、被リンク評価が分散されることも考えられます。例えば本来ならば被リンク評価が100もらえるはずが、重複コンテンツを含むWebページがサイト内に2つ存在するため5:5に評価が分散されてしまう可能性があるのです。
中には、検索エンジンが自動的に処理して評価をいずれか1つのWebページにまとめることもありますが、必ず行われるという訳ではありません。つまり、重複コンテンツによる被リンク評価の分散は上位表示を逃す要因になるのです。
被リンクを増やすコツについては下記の記事でも解説しています。
重複コンテンツのチェック方法
「自サイト内で重複コンテンツが発生していないか」「他サイトに盗用されていないか」と心配している方に、代表的なチェック方法を3つご紹介します。
Search Consoleの「インデックスカバレッジ」でチェック!
自社の管理サイト内で重複コンテンツがある場合、テキストなどの重複の他にHTML構造の問題やサイト構築時または移行時の設定ミスなどが要因として挙げられます。
このようなケースで活躍してくれるのが、Search Console内にある「インデックスカバレッジ」という機能です。
旧バージョンを廃止されて新バージョンへと統合された2019年9月以降、従来のインデックス数加え重複ページも調査できるようになりました。
Search Consoleの新バージョンについて詳しく知りたいという方は、下記の記事を参考にしてください。
Google検索のフィルタ機能を解除するコマンドでチェック!
こちらの方法は、公開されているWebページであればサイト内外を問わず重複コンテンツの存在をチェックできるのが魅力です。そもそも、Google検索には類似ページが同時に表示されないようにフィルタ機能が備わっています。
言い換えれば、このフィルタ機能を解除することで重複コンテンツの有無が検索結果で確認できるようになるのです。
▼Googleのフィルタ機能を解除する手順
- Googleの検索窓口に調べたいURLを入力し
- 入力したURLの末尾に「&filter=0」を追加して検索する
- 除外されていたコンテンツを含めた検索結果が表示される
無料のチェックツール3選!
外部サイトとの間で重複コンテンツが発生した場合、自社管理サイト内のHTML構造や設定ミスなどが要因ではなく、テキストや画像といったコンテンツの内容自体に問題があるケースがほとんどです。
膨大なWebサイトから重複コンテンツの存在を確認するには、便利なチェックツールを活用してみましょう。
有料の「影武者」や「コピペルナー」などもありますが、ここでは無料で使えるチェックツールを3種類ご紹介します。
こぴらん
フォームに文章をコピペして検証するチェックツールです。フォームに入力されたテキストを句点(。)や疑問符(?)など適度な位置で区切り、その分が使われているページ数を表示します。仕様は、Google検索で文章を完全に一致させたい時に入力する「“ ”」と同じです。

こぴらん
なお、最大文字数は4,000文字となっており、比較的長いページでも対応できるのがメリットです。
剽窃(ひょうせつ)チェッカー
剽窃(ひょうせつ)チェッカーも、こぴらんと同じくコピーした文章をフォームにペーストしてチェックします。 フォームに入力された文字を文節単位で区切り、ウェブ上に同一の文字列がないかをチェックする仕組みです。

剽窃チェッカー
最大文字数は2,000文字とこぴらんの半分ですが、中国語やロシア語にも対応しているため、来日外国人向けに多言語展開をしているWebサイトに適しています。
sujiko.jp(スジコ)
上記でご紹介した2サイトとは異なり、特定のコンテンツ同士を検証するチェックツールです。調査対象のURLを2つ入力すると ページごと比較できるので、わざわざ文字をコピペする必要はありません。
下記画像のように、本文チェックの他に「HTML類似度」や「canonical属性」の有無も判定結果に表示してくれます。

sujiko.jp
なお、非会員でも5回までなら調査することができますが、利用回数の制限を解除するには無料の会員登録が必要です。
重複コンテンツの対処法!基本編3つ
サイト内部もしくは外部サイトとの間で重複コンテンツが存在することでSEO上の問題が発生します。問題を回避するためには、次の3つの対処法が有効です。
301リダイレクトで適切に転送をかける
301リダイレクトを利用することで、検索エンジンはURLが転送されたことを理解します。サイトのURLを変更した際に用いられることが多いですが、重複コンテンツを避ける手段としても有効です。
例題として、同一ページが4種類のURLで表示されているケースを見てみましょう
- http://www.example.jp
- http://example.jp
- http://example.jp/index.html
- http://www.example.jp/index.html
これらの4つのURLに重複コンテンツが存在しても、即刻ペナルティを受けるとは考えにくいですが、被リンク評価が分散する可能性が高いです。301リダイレクトを利用して、いずれか1つのURLへ転送をかけておきましょう。
rel=”canonical”でURLを正規化する
rel=”canonical”はURLを正規化するために利用するものです。オリジナルのコンテンツを含むAというWebページと、Aの重複コンテンツを含むBというWebページがあったとします。その際にWebページB上にrel=”canonical”を設定することで「WebページBはWebページAと同じだよ」と検索エンジンに伝えることができるのです。
さらに、rel=”canonical”でURLを正規化することでインデックスして欲しいWebページが適切にインデックスされ、同時に被リンク評価の分散も防ぐことができます。
一方、他サイトにコンテンツを提供しており、サイト外部で重複コンテンツが発生している場合は、rel=”canonical”で正規化を行ってもらえるよう提供先に問い合わせてみるのも有効です。
canonicalについては下記の記事でも解説しています。
meta設定する
noindexを設定することで、検索エンジンがWebページをインデックスするのを防ぐことができます。インデックスされていないページはSEO上問題になることはありません。ただし、rel=”canonical”で代用できるものは、rel=”canonical”を優先的に使うことをおすすめします。
なぜならrel=”canonical”を利用した場合、検索エンジンは両方のWebページの情報を利用できる反面、noindexを設定しているページの情報は検索エンジンが利用できないからです。例えばページBにリンクがある場合、rel=”canonical”を利用することで検索エンジンはリンクを認識しますが、noindexでは認識しません。
noindexについては下記の記事でも解説しています。
状況に合わせた対処法!HTML記述例つき
重複コンテンツを整理したうえで検索エンジンに適切な情報を伝えることで、ユーザビリティが増し、被リンクの獲得や上位表示が期待できます。それでは、どのようにしてコンテンツを整理していけば良いのか順番に見ていきましょう。
複数のURLから1つの画面にアクセスできる場合
こちらのケースはURLの正規化が必要となり、正規ページ以外からアクセスがあった場合は301リダイレクト処理によって解決します。
ただし、301リダイレクト処理の方法はいくつかありますのでサイトに適した設定を選びましょう。
Apacheと.htaccessが利用できる場合
この場合、.htaccessに以下ように記述してください。
▼test.comをwwwありに統一する場合
Options +FollowSymLinks
RewriteEngine on RewriteCond %{HTTP_HOST} ^test\.com$
RewriteRule ^(.*)$ http://www.test.com/$1 [R=301,L]
Apacheのmod_Rewriteが利用できない場合
こちらは.htaccessに記述するところまでは同じですが、記述方法が異なります。
▼wwwあり・なしをwwwありに統一する場合
Redirect 301 / http://www.test.com/
▼ドメインが移転し、かつ他のページのURLが変わらない場合
Redirect 301 / http://www.test.com/
▼ディレクトリごと移転した場合
Redirect 301 /shop/ http://www.test.com/shopping/
▼個別ファイルのみ移転した場合
Redirect 301 /doc/old.html http://www.test.com/doc/new.html
phpにリダイレクト設定を記述する
phpにリダイレクト処理を記述する場合、該当するphpファイルに以下の設定を行います。
<?
Header( “HTTP/1.1 301 Moved Permanently” );
Header( “Location: http://www.test.com/new.html” );
?>
なお、使用しているサーバによって上記設定が使用できない可能性もありますのでご注意ください。
タイトルだけ変えて中身が同一のページが存在する場合
ポータルサイトにある市町村ページや、ECサイトで見られる色違いのページなどが該当します。 こういったページは、例え重複コンテンツでもユーザーに見せる価値がありますので、 検索エンジンにはcanonical属性を使って正規のページを伝える必要があります。
例えば、商品A(https://www.test.com/itemA)と商品B(https://www.test.com/itemB)があり、商品Aを正規のページとした場合は、商品Aと商品Bのヘッダータグに以下を追記します。
<head>
<link rel="canonical" href="https://www.test.com/itemA">
</head>
なお、その他canonical属性を設置する上での注意点については、Googleウェブマスター向け公式ブログに記載されている「rel=canonical属性に関する 5 つのよくある間違い」を参照して下さい。
PCとスマホで別のページを用意している場合
PCやスマホで別のページを用意している場合は、デバイス毎に最適化されたURLがあることを、検索エンジンにも認識できるよう明示する必要があります。
PC版のページ(https://www.test.com/)とスマホ版(https://www.test.com/sp)があった場合、以下のように設定します。
▼ステップ1:PC版のページにスマホ版があることをヘッダータグ内に追記する
<head>
<link rel="alternate" href="https://www.test.com/sp">
</head>
▼ステップ2:スマホ版のページにPC版が正規ページあることをヘッダータグ内に追記する
<head>
<link rel="canonical" href="https://www.test.com/">
</head>
画像がメインのサイトの場合
テキスト情報がなく、ほぼ画像だけで構成されているサイトの場合、検索エンジンにとっては参考となる情報が不足している状態です。 このように、検索エンジンがどんなサイトであるか識別できないようなサイトは検索順位も低くなりがちです。
この場合、画像にalt属性を設定して画像がどんなものであるか検索エンジンに知らせる必要があります。
<body>
<img src="https://www.test.com/contents/img/test.png" alt="これはテスト画像です" />
</body>
上記のように、altを設定することで、検索エンジンはtest.pngはテスト画像であることを認識することができます。
alt属性については下記の記事でも解説しています。
記事の内容が重複している
自社サイト、他サイトに限らず執筆した記事が増えていくほど、どうしても重複コンテンツが発生する確率は高くなってしまいます。そんな時は、以下の対処法を試してみましょう。
- ページ内の重複記事を削除し、類似コンテンツを統合する
- robots.txtを使用して、重複コンテンツとなっているURLに対してクロールを拒否する
- noindexメタタグを設定し、インデックス非表示にする
重複コンテンツに関するQ&A
この段落では、重複コンテンツに関するよくある質問と答えを2つご紹介します。
重複コンテンツを避けるために商品説明文はリライトすべき?
結論から言うと、商品に関するWebページが重複コンテンツとみなされる可能性が高い場合、リライトによる手直しは有効な手段です。
そもそも不動産やECサイトに限らず、商品説明をメーカーなど提供元から引用している場合、検索エンジンはより信頼性のあるメーカーサイトの商品説明ページを高く評価します。
反対に、商品説明を引用しているサイトは重複コンテンツとして扱われる恐れがあるのです。
こうした場合は、骨が折れる作業ではありますが、メーカーの商品説明にはない独自の情報を追記しながらリライトすることで、重複コンテンツだと評価されにくくなっていきます。
ニュースを紹介する場合はどのように重複コンテンツを避けるべき?
ニュースを紹介しているだけのWebページは重複コンテンツと判断されて検索結果に表示されない可能性があります。そのため、そのニュースに対する追加情報などユーザーに付加価値を与えることができるコンテンツを加えることが重要です。
まとめ
これは弊社の一例ですが、8月に工事系サイトの重複コンテンツを整理(似た記事の洗い出し・削除)し、続いて9月にも某企業のサイトで同様の対処法を試したところ、いずれも10位以内に表示されるようになりました。
結果として、今まで検索順位が上がらなかったキーワードも「重複コンテンツの整理」によって検索上位にランキングされる可能性があると実証できたのです。
一度、自サイトに重複コンテンツが含まれていないか整理してみてはいかがでしょうか。
関連