Googleのクロール・キャッシュリンク・インデックス 巡回促進方法

2017年7月6日

Googleがあなたのウェブサイトを見つけるには、外部サイトのリンクを辿って来る方法と、サイト運営者やリクエストを通して巡回する方法の二つがあります。


Googleの巡回ロボットがあなたのウェブサイトの各ページを見つけていく事をクロールと言います。


キャッシュ(cache)とは、Googleがページをクロールした際にGoogleのサーバー内にページを保存することを意味します。Googleは、ページがサーバー障害などによって一時的にクロールしたページが表示されない場合でも、検索ユーザーの為に最近キャッシュしたページを表示させることができます。


インデックスは、検索ユーザーのキーワードの関連性にふさわしいものを表示させる為にクロールしたページをデータベースに登録し利用できるようにする事を指します。


検索エンジンのクローラーが頻繁に来るサイトは、コンテンツの強化や、新規ページ作成時に素早くインデックスされ、順位に反映されます。
訪問者の満足度を上げて、検索経由のトラフィックを向上させるのであれば、コンテンツの質を高め、最新の情報を含めて定期的にメンテナンスを行いましょう。


※頻繁に更新するページがSEOに良いという噂もありますが、新しい情報が何もない状態で日付だけを更新したり、一文だけ修正しても意味がありません。Googleが重要ではないページと判断すれば、逆にクロール頻度が落ちていくでしょう。





Googleにウェブサイトをクロールしてもらう意味

SEOで最も基本であり、必ず行わなければならない事を上げるとすると、ウェブサイトのページをきちんとクロールできるように設計しておく事です。
素晴らしいコンテンツを作ってもGoogleがクロールできなければ検索結果には表示されないでしょう。


Googleは世界中のウェブサイトの情報を集めようとしてクロールしています。


GoogleBotは、サイト間のリンクを辿ったりウェブマスターからの通知によってウェブサイトを巡回していますが、ウェブサイト内の全てのコンテンツを確実にクロールするわけではありません。


ほとんどのケースでは気にする必要がありませんが、GoogleBotはウェブサイトの状態や、必要性を考慮してウェブサイトごとにリソースを割り当てて(一般的にはクロールバジェットと呼ばれます)クロールします。
Googleのクロールバジェットの定義は「クロールの必要性(クロールディマンド)があり、かつ Googlebot がクロール可能な URL の数(クロールレート)」とされています。

クロールの速度(クロールレート)

クロールの速度が速すぎればサーバーに負荷をかけ、他の訪問者のウェブサイト表示が遅くなってしまいます。
その為、GoogleBotは他のウェブサイト利用者の利便性を損ねないように、クロールレートの最大値を制限しているようです。
クロールレートとは次のように説明されています。


“単純化を恐れず言えば、クロールレートは、Googlebot でサイトのクロール時に使用する同時並行接続の数、および次回のフェッチまでに必要な待ち時間を表します。”

※フェッチはここでは取得しにいくこと

クロールの必要性(クロールディマンド)

人気の高いURL(おそらく被リンク)やURLの鮮度によってクロールを決定するようです。人気があるURLはクロールの頻度が高くなり、Googleのインデックスした内容が古くならないように定期的にクロールします。

Googlebot のクロール バジェットとは?


なお、クロールバジェット自体はランキングファクターではありません。多く割り当てられているからといって、特に順位には影響はないようです。また、新しいウェブサイトに関しては大小の規模に関わらず、一定の初期値がクロールバジェットに割り当てられます。


GoogleBotになるべく効率よくクロールしてもらう為には、XMLサイトマップを作成してGoogleに登録したり、ウェブサイト内の階層構造を見直すといった事が重要です。
XMLサイトマップは、sitemap.org準拠で正しく作成する必要があり、誤ったXMLサイトマップを登録するとGoogleが認識できずに無視してしまうこともあるようです。
無料のプラグインやウェブサービスの場合は、正しいXMLサイトマップが生成されているか確認する必要があります。


Googleがクロール中止を判断する2つのシグナル

正しいXMLサイトマップを作成したとしても、Googleはクロールしにくいページはクロールをやめてしまう事もあります。
Search Engine LandのBarry Schwartzの記事(Google On How They Know When To Slow Or Stop Crawling Your Web Site)によるとSMX EastでGoogleのウェブマスタートレンドアナリストのGary Illyes氏が「Googleのクローラーがウェブサイトのクロールをスローダウン、または停止する際に使用している二つのシグナル」について発言していました。


Googleはあなたのウェブサイトのクロールを停止するかどうか判断する為に、リンク否認ツールや、robots.txtnofollowなどの多くのシグナルを使用しています。
その他にGoogleにとって2つの重要なシグナルがあります。


接続時間

Googleは、サーバーへの接続時間がどのくらいになるかを見ています。
接続時間が長ければ長いほど、Googleはスローダウンしたり、ウェブサイトのクロールを停止するようになります。
Googleは、あなたのウェブサーバーに負荷をかけたくないので、接続時間はクロール要素の一つとして使用しています。


HTTPステータスコード

Googleは、サーバーステータスコードが5xxの範囲である場合、クロールをストップしたりスローダウンしたりする事があります。
5xx範囲のステータスコードはサーバーレスポンスに問題がある事を意味します。
これらのコードをGoogleが見た場合、サーバーに更なる問題を発生させないようにクロールを中止します。


どちらのケースであっても、GoogleBotはその後に再びクロールしにきますが、これらのシグナルを発見した場合はクロールを継続しません。




キャッシュの更新頻度と削除方法

キャッシュされる頻度は、頻繁にクローラーが来ていれば大体1週間以内の間隔で更新されます。遅いと2週間から1ヶ月ぐらいかかる場合もあります。
キャッシュの削除は、こちらのURLで申請可能です。

キャッシュの更新

頻繁にサイトを改善し、訪問者向けに考えたページを作っていればキャッシュも頻繁に更新され、SEOを行った際に、短期間で効果が出る場合もあります。


下の画像は、Googleの検索結果に表示されたキャッシュリンクです。キャッシュをクリックすると、Googleが直近にこのページをキャッシュしたページ情報を見ることができます。これが頻繁に(週1回程度)キャッシュの日付が変化するぐらいにクローラーが来ていれば安心です。


キャッシュイメージ



クローラーがこない場合 最短で検索に反映させるには?


1.既存コンテンツの改善や新規コンテンツの作成を定期的に行う(放置しない)

キャッシュは、Googleがページをクロールした際に収集します。Googleは、更新頻度(ページコンテンツの新規追加や、既存のページへのコンテンツ追加)が高いサイトには頻繁にクロールする傾向があります。
クローラーの巡回頻度が高いとSEOを行った内容が検索結果に反映されるスピードも早くなるため、クローラーが頻繁に来るページのほうがSEOには有利です。


2.XMLサイトマップの作成

XMLサイトマップを作成して検索エンジンに通知する事でインデックスまでの期間が大幅に短縮されるという実験結果もあります。Search Console(旧ウェブマスターツール)を活用して、「sitemap.xml」を登録してクローラーを呼び込みましょう。


3.RSS/Atomフィードの登録

Search Console上にXMLサイトマップに加えて、RSS/Atomフィードも登録します。
CMSでウェブサイトを管理されていればおそらくどちらかのフィードURLがあるはずです。
このように設定すると、最新のコンテンツを作成した際や、古いコンテンツの情報をアップデートした際にRSS/Atomフィードを通じて素早くGoogleに認識させる事ができます。
詳しくは「XMLサイトマップとRSS/Atomフィードの組み合わせ」をご参照ください。


4.人気のあるサイトからリンク

例えばアメブロでブログをされている場合は、そこからリンクを付けてあげると、アメブロ経由でクローラーを呼び込めるかもしれません。クローラーの通り道を作ってあげる事も一つの手段です。


5.Fetch as google

それでもクローラーが巡回しない場合は、Search Console上に、「Fetch as google」といったメニューがあります。それを使って巡回するように仕向ける事もできます。


Fetch as Google

FetchasGoogle

Search Consoleの左メニューに「クロール」というものがあり、「Fetch as Google」があります。この「Fetch as Google」をクリックします。
クローラーを呼び込むページのURLを入力し、「取得」、または「取得してレンダリング」のどちらかをクリックして、「インデックスに送信」をクリックするだけの操作です。


ページにSEOを施しても、クローラーが来てくれないことには検索結果に反映されることはありません。

作成済みのコンテンツをきちんとメンテナンスし、訪問者にメリットのある新規コンテンツも平行して提供していきましょう。
それとともに検索エンジンがウェブサイトの全体像を把握しやすいようにXMLサイトマップやRSSフィードの登録や定期更新も忘れないようにしましょう。


特に大きな規模のウェブサイト、頻繁に記事を作成・更新するブログの場合には、検索エンジンにウェブサイトの構造や更新情報を素早く伝える為にXMLサイトマップは重要です。
XMLサイトマップの効果や記述方法については、「XMLサイトマップとは 効果的な作成・登録方法」で解説しています。



このエントリーをはてなブックマークに追加


野澤洋介
野澤洋介

この記事を書いた人

アレグロマーケティング代表

SEOツールのプロジェクト担当者でもあり、自社のSEO担当でもあります。
SEOは考え方はシンプルですが、いざ実践するとなかなか思うようにいきません。
当ブログでは、読者の方に成功も失敗も合わせて情報を共有し、同じような悩みを解決できればという思いで運営しています。

follow us in feedly


関連記事


SEO管理ツール Spresseo(エスプレッセオ)

コンテンツが増えてきたらランキングの管理をツールで効率化しましょう。
ページごとの内部最適化や、キーワードの順位取得や競合比較、獲得した被リンクのレポートを自動化できます。



▲ ページトップ ▲
自動XMLサイトマップ管理ツールトライアル版配布中