Googleのクロール・キャッシュリンク・インデックス

クロール最適化

SEOで最も基本であり、必ず行わなければならない事を上げるとすると、少なくともウェブサイトのページをきちんとGoogleボットがクロールできるように設計しておく事です。
なぜならいくら素晴らしいコンテンツを作ってもGoogleがクロール・インデックスできなければ検索結果には表示されないからです。

クロールとは?

Googleの巡回ロボット(Googlebot)があなたのウェブサイトを巡回する事を意味します。

キャッシュとは?

キャッシュ(cache)とは、Googleが取得したページをサーバー内に保存することを意味します。サーバー障害などによって一時的に表示されないページがあった場合でも、キャッシュリンクをクリックすれば検索ユーザーの為に最近キャッシュしたページを表示します。

インデックスとは?

インデックスは、検索ユーザーのキーワードの関連性にふさわしいものを表示させる為にクロールしたページをデータベースに登録し利用できるようにする事を指します。

Googleボット(Googlebot)とは?

Googleボットとは、インターネット上のウェブサイトの情報を収集する為にGoogleが使用しているウェブクローラーの総称です。
2019年5月のGoogleのアナウンスによると、今後は最新のChromeをベースにウェブページをレンダリングできるようになり、最新のウェブプラットフォームをサポートするようになります。

The new evergreen Googlebot

目次

ウェブサイトの状況によってクロールの量が割り当てられる

Googleは世界中のウェブサイトの情報を集めようとしてクロールしています。
GoogleBotは、サイト間のリンクを辿ったりウェブマスターからの通知によってウェブサイトを巡回していますが、ウェブサイト内の全てのコンテンツを確実にクロールするわけではありません。

ほとんどのケースでは気にする必要がありませんが、GoogleBotはウェブサイトの状態や、必要性を考慮してウェブサイトごとにリソースを割り当てて(一般的にはクロールバジェットと呼ばれます)クロールします。

クロールバジェットとは?

クロールバジェットとは、Googleでは「クロールの必要性(クロールディマンド)があり、かつ Googlebot がクロール可能な URL の数(クロールレート)」と定義されています。
なお、クロールバジェット自体はランキングファクターではありません。多く割り当てられているからといって、特に順位には影響はないようです。また、新しいウェブサイトに関しては大小の規模に関わらず、一定の初期値がクロールバジェットに割り当てられます。

クロールバジェットを管理すべき対象者

クロールバジェットの管理に関しては、上級者向けの施策となります。主に以下のようなケースでクロール管理が必要となります(それ以外のケースではそれ程気にする必要はありません)。

  • 大規模なサイト(100 万ページ以上)で、コンテンツの更新頻度が中程度(1 週間に 1 回)の場合
  • 中規模以上のサイト(10,000 ページ以上)で、(日常的に)コンテンツがめまぐるしく変更される場合

クロールの速度(クロールレート)

クロールの速度が速すぎればサーバーに負荷をかけ、他の訪問者のウェブサイト表示が遅くなってしまいます。
その為、GoogleBotは他のウェブサイト利用者の利便性を損ねないように、クロールレートの最大値を制限しているようです。クロールレートとは次のように説明されています。

“単純化を恐れず言えば、クロールレートは、Googlebot でサイトのクロール時に使用する同時並行接続の数、および次の取得までに必要な待ち時間を表します。”

クロールの優先度

規模の大きなサイトが素早くクロールされがちに見える点について、John Muller氏のコメントが興味深いです。
クロールの優先度はサイズというよりも、ページで提供される価値の重要性や追加される独自性に基づいて判断されるだろうと発言しています。

クロールの必要性(クロールディマンド)

人気の高いURL(おそらく被リンク)やURLの鮮度によってクロールを決定するようです。人気があるURLはクロールの頻度が高くなり、Googleのインデックスした内容が古くならないように定期的にクロールします。

Googlebot のクロール バジェットとは?

クロール時の1ページあたりサイズ上限

以前は1ページあたり10MBと言われていましたが、現在では数百MBに増えています。

English Google Webmaster Central office-hours hangout

サーバーレスポンスが早い程多くのページをクロールする

サーバーレスポンスを含めてページ表示速度を改善していく事は、ユーザーの利便性だけでなく、Googlebotの処理速度向上にも繋がります。
John Mueller氏の発言では、レスポンスが早ければ、クロール速度も上がり、より多くのページをクロールします。

サイトに割り当てられるクロールバジェット

サイト内のページや画像の他、以下のような項目もクロールバジェットの対象となるようです。

  • AMPやhreflangのような代替URL
  • CSS、JavaScript、AJAX(XHR)コールといった埋め込みコンテンツ
  • 長いリダイレクトの連鎖もクロールに悪影響

GoogleBotになるべく効率よくクロールしてもらう為には、XMLサイトマップを作成してGoogleに登録したり、ウェブサイト内の階層構造を見直すといった方法もあります。

XMLサイトマップ

Googleがクロール中止を判断する2つのシグナル

Googleはあウェブサイトのクロールを停止するかどうか判断する為に、リンク否認ツールや、robots.txtnofollowなどの多くのシグナルを使用しています。
その他にGoogleにとって2つの重要なシグナルがあります。

接続時間

Googleは、サーバーへの接続時間を見ています。
接続時間が長ければ長いほど、Googleはスローダウンしたり、ウェブサイトのクロールを停止するようになります。
Googleは、あなたのウェブサーバーに負荷をかけたくないので、接続時間はクロール要素の一つとして使用しています。

HTTPステータスコード

Googleは、サーバーステータスコードが5xxの範囲である場合、クロールをストップしたりスローダウンしたりする事があります。
5xx範囲のステータスコードはサーバーレスポンスに問題がある事を意味します。
これらのコードをGoogleが見た場合、サーバーに更なる問題を発生させないようにクロールを中止します。

どちらのケースであっても、GoogleBotはその後に再びクロールしにきますが、これらのシグナルを発見した場合はクロールを継続しません。

Google On How They Know When To Slow Or Stop Crawling Your Web Site

ステータスコードが5xxの範囲の場合に、クローラーがスローダウンしてしまうという事はJohn Mueller氏も同様の発言をしています。

自身で管理するウェブサイトの全ページのステータスコードを確認したり、スピード改善に必要な項目をチェックしたり、その他SEOで問題となる箇所をチェックする場合には、SE Rankingの「サイトSEO検査」機能が便利です。

サイトSEO検査

この機能では、実際にツールがウェブサイト内のページを巡回し、問題点を検知してレポートしてくれます。

サイトSEO検査

キャッシュの情報と削除方法

キャッシュ

下の画像は、Googleの検索結果に表示されたキャッシュリンクです。キャッシュをクリックすると、Googleが直近にこのページをキャッシュしたページの情報や日付を見ることができます。

キャッシュ

キャッシュの日付はGoogleがクロールした日付ではなく、最近インデックスされた、または再インデックスされた日付を意味します。インデックスに関しては、古いページの再利用を決定することもあるようです。これは更新されない古いページは常に再インデックスする必要が無いからと推測されます。

キャッシュの削除は、以下のページで申請可能です。

Google 検索から古くなったコンテンツを削除する

お役に立ちましたか?シェアして頂けると嬉しいです!

機能豊富なSEO管理ツール

企業のウェブ担当者・コンサルタントに最適
貴社の予算に合わせた柔軟な料金体系
サブアカウントを作成して情報共有の効率化

この記事を書いた人

SEOは考え方はシンプルですが、いざ実践するとなかなか思うようにいきません。
当ブログでは、読者の方に成功も失敗も合わせて情報を共有し、同じような悩みを解決できればという思いで運営しています。
著書:「最強の効果を生みだす 新しいSEOの教科書」(技術評論社)

コメント

コメントする

目次
閉じる