クローラーとは?検索の仕組みや重要なSEO対策を解説 クローラーとは?検索の仕組みや重要なSEO対策を解説

【監修】株式会社ジオコード SEO事業 責任者
栗原 勇一

Googleを始めとした検索エンジンで自社のWebサイトが検索結果に表示されるには、Web上を巡回しているロボット「クローラー」に存在を見つけてもらい、インデックスされる必要があります。多くのユーザーにWebサイトを見てもらうには、検索エンジンで上位表示されたいところですが、そのためにはクローラーがどのようなものかを知る必要があります。

本記事ではクローラーの概要や上位表示されるポイントなどについて解説します。

SEO経由からコンバージョン獲得までをしっかりと追う成果追求型SEO!SEOサイト無料調査実施中

クローラーとは?

Webサイトやコンテンツを作成する際は、検索エンジンのクローラーを意識する必要があります。
クローラーとは、インターネット上のWebサイトを巡回し、情報を取得して検索データベース化するロボットのことです。Webサイトの文章や画像などの情報を取得して検索データベース化するために巡回し、ロボットやボット(Bot)などとも呼ばれています。

クローラーが巡回し情報を集めることをクローラビリティと呼びますが、クローラリビティの結果が悪ければ、検索エンジンにインデックスされなかったり、不完全なまま情報が表示されたりしてしまうため注意が必要です。

クローラーの仕組みを理解していると、SEO対策にも大いに役立てられるでしょう。

Googleの検索エンジンにおけるクローラー

Googleでも常にクローラーが巡回し、適切だと判断したページを検索結果に表示します。日本ではGoogleの検索エンジンが圧倒的なシェアを誇るため、Googleのクローラーを意識する必要があります。

クローラーがWebサイトを巡回する工程には以下があります。

  • クローリング(crawling)
  • パーシング(parsing)
  • インデックス(index)
  • クエリプロセス(query process)

クローリングはクローラーがWeb上を巡回している状態を指し、パーシングは発見したWeb上のページを解析する工程です。Webページを検索エンジンのデータベースに登録することをインデックスと言い、クリエプロセスと呼ばれる段階でWebページがランク付けされ検索結果に表示されます。

これらの工程を、Googleは大きく「クロール」「インデックス登録」「検索結果の表示」に分類し、「Google検索セントラル」ではそれぞれの工程や目的についてより詳しく説明しているので、チェックしておくと良いでしょう。

クローラーの種類

クローラーには検索エンジンごとに名前が付けられています。Googleの場合にはGooglebotです。他にも、さまざまな種類のクローラーがあります。

  • Googlebot/Google
  • Bingbot/マイクロソフト社のBring
  • Baiduspider/中国の百度
  • AppleBot/Apple

日本でWebサイトを運営するならば、上述のようにGooglebotを意識しておけばほぼ問題ありません。

SEOではクローラーへの対策が重要!

SEOではクローラーへの対策が重要!

SEOにおいてクローラー対策はとても重要です。せっかくユーザーにとって有益なコンテンツを作ってもクローラーに巡回されインデックス化されない限り、検索結果に表示されないため、ユーザーの目に留まることもありません。

SEOとは検索エンジンからサイトに訪れる人を増やすための施策です。ユーザーが特定のキーワードを使って検索した際に、上位に表示されることに大きな意味があります。

もちろんSEOの最終目的は、ユーザーにとってより良いコンテンツを提供することですが、それ以前に、クローラー対策をすることが必要です。

クローラーはWeb上を巡回し、複数回に分けてサイト内の情報を解析しています。訪れるたびに最新情報が更新されていたり、常に正確な情報が掲載されていたりする有益なサイトは、何度もクローラーが訪れ、結果としてコンテンツが高い評価を得ることができます。そのため、有益なコンテンツを継続して公開し続けることも重要なポイントです。

サイト運営者はクローラー対策をしっかりとして、コンテンツを高く評価してもらうようにしましょう。

クローラーが取得するファイルの種類

クローラーが取得するファイルはさまざまです。代表的なものには次のようなものがあります。

  • HTML
  • 画像、動画(MP4など)
  • PDF
  • 音声
  • JavaScript
  • Word、Excel、PowerPoint
  • CSS

クローラーはテキストだけでなく、HTMLから画像・動画・文書ファイルまでさまざまなデータをクローリングしていることが分かります。

そのため、コンテンツを制作する際にはテキストに関連する画像や動画、文書ファイルを活用したり、HTMLやCSSにクローラーへの指示を記載したりするなど、クローラーの巡回を促すさまざまな工夫ができます。

クローラーの巡回を促す施策とは

クローラーの巡回を促す施策とは

クローラーの巡回しやすさを表す指標に「クローラビリティ」があり、これを向上させるための施策を行うと良いでしょう。クローラビリティを向上させるには、以下のようにさまざまな方法があります。

  • クローラー向けにXMLサイトマップを設置する
  • URLをシンプルで分かりやすいものにする
  • 内部リンクを設定する
  • ソフト404をなくす
  • 重複ページをなくす
  • ファイルや画像を軽量化する
  • 被リンクを増やす
  • サーバーを最適化する
  • 必要に応じてクロールを拒否する
  • 不要なアクセスをブロックする
  • URL検査ツールの使用する
  • 質の高いコンテンツを揃える

それぞれの方法について解説します。

XMLサイトマップを設置する

サイトマップとはユーザーや検索エンジンにWebページを認識させられるファイルです。サイトマップにはXMLサイトマップとHTMLサイトマップがありますが、HTMLサイトはユーザー向けで、検索エンジン向けがXML形式となります。XMLサイトマップの活用次第では、クロール頻度が上がってSEO効果が期待できるでしょう。

サイトマップを設けなくてもクローラーはほとんどのWebページを検出しますが、規模が大きいサイトや複雑なリンク構造のサイトの場合はクローラビリティが低下する可能性があります。そこで、XMLサイトマップの設置がおすすめです。

シンプルなURLを設定する

URLはできるだけシンプルで短い方がクローラビリティが向上する傾向があります。

GoogleがSEOについて解説している「Google検索セントラル」でもURL構造をシンプルにすることを推奨しています。短くするポイントは論理的であることと、人間が理解しやすい単語にすることです。

例えば

であれば、gc(ジオコード)のSEOに関する記事が読めるサイトだと理解できます。

意味のない長いID番号や文字列、非ASCII文字をURLに使用するのも避けた方が良いでしょう。単語をつなぐ際はアンダーバーではなくハイフンが推奨されています。

内部リンクを最適化する

内部リンクとは同一サイト内で関連するコンテンツ同士をリンクでつなぎ、それぞれのページへ遷移できるようにする手法です。内部リンクがあることでユーザーはサイト内を回遊しやすくなります。

内部リンクの設置もSEOでは重要な施策の一つです。クローラーはリンクをたどってサイト内を巡回するため、多くの内部リンクが張り巡らされていれば、それだけクローラーの巡回が期待できます。

とはいえ、なんでも内部リンクすれば良いわけではなく、関連のあるコンテンツ同士で、ユーザーの興味を惹くものでなければ意味がありません。

リンクを貼れる箇所は多くありますが、まず、トップページから下層のコンテンツにリンクを貼るようにします。

また、パンくずリスト、グローバルナビゲーションを設置することもおすすめです。

パンくずリスト

パンくずリストとはユーザーやクローラーが、今、どのページにいるかが分かるようにした道しるべです。ページの上部に表示されることが多く、トップページから下層カテゴリにかけてページ階層をリスト化しています。

パンくずリストにリンクを貼っておけば、ユーザーはすぐに行きたい階層に行ったり、戻ったりすることが可能です。パンくずリストは、クローラビリティだけでなくユーザビリティの向上にもつながります。

グローバルナビゲーション

グローバルナビゲーションのグローバルには全体的、包括的という意味があります。Webサイトの全てのページに共通して設置され、他の各ページへのリンクをまとめたものです。リンクが設定されている項目には、サービス、会社概要、お問い合わせなどがあります。

グローバルナビゲーションがあることで、ユーザーはWebサイトの構造が分かりやすくなり、ストレスなく興味のあるページを訪問できることがメリットです。

Googleのクローラーは内部リンクが集まっているWebページを重要なコンテンツと認識する傾向があり、グローバルナビゲーションを設置しておくと、SEOの効果を期待できるでしょう。

ソフト404エラーをなくす

ソフト404エラーのページがあると、クロールが遅れたりクロールの頻度が少なくなったりします。そのため、早いタイミングでソフト404エラーの存在に気付き対応が必要です。

ソフト404エラーでは、ページを開くと「ページが見つかりません」と表示されます。ただし、リンク切れや存在していないページに表示されるカスタム404エラーと異なり、ソフト404エラーは通常のページと同様にクロールが行われる状態です。

有限であるクローラーのリソースを無駄に使うことになり、本来クロールされるべきコンテンツに対してクロールが遅れたり、クロールの頻度が少なくなったりするなどの悪影響が出てしまいます。

ソフト404エラーに気付くには、Googleサーチコンソールを使って確認するのが便利です。

ソフト404エラーにかかわらず、Webサイト内のリンク切れはSEOへの悪影響やユーザーの離脱につながるため、定期的にチェックする必要があります。

重複ページをなくす

重複ページがあるとGoogleは一つのページを正規版としてクローリングし、他のページは重複版としてクロールの頻度を減らします。

同じようなページがあると、それぞれのページにSEO評価が分散してしまう可能性がある他、似たようなコンテンツはユーザーにとっても混乱を招く要因となり悪影響です。

また、一つのページに複数のURLでアクセスできたり、異なるページのコンテンツが類似したりしている場合も重複版とみなされるため注意しましょう。

重複コンテンツの対策としては、.htaccessファイルで301リダイレクトを実施し、Googleni新しいページを正規ページとして認識させる、定型文の繰り返しを避けるなどの方法があります。

htaccessファイルのリダイレクトについて、詳しくは以下の記事をご覧ください。

.htaccessを使ったリダイレクト方法
記事【説明書DL】.htaccessのリダイレクト – 書き方・設置場所・設定方法を解説します

ファイル・画像を軽量化する

画像はWebサイトを訪問者に印象付けることに役立ちます。また、テキストの補足として活用すればユーザーの理解度も深められるため積極的に取り入れるのがおすすめです。

しかし、画像を入れすぎると容量が重くなりWebページの表示速度を遅くしてしまいます。表示が遅いとWebサイトのパフォーマンスを下げ、クローラーからの評価を下げる原因となるため、適度な枚数を心掛けましょう。

対策として、ファイル・画像を圧縮して軽量化することがおすすめです。

画像ファイルにはPNG形式とJPEG形式があります。PNG形式の方が画像の輪郭がくっきりしているという利点がありますが、圧縮率が低くなる(ファイルが重くなる)傾向があります。一方、JPEGは圧縮率が高いので、通常はJPEG形式を使用し、きれいに見せたい場合にはPNG形式を使うのがおすすめです。

画像を表示する大きさは、モバイル端末を意識すると良いでしょう。スマートフォンなどで表示しやすい大きさにすると、多くのユーザーはストレスなく閲覧できます。

AMP化

AMP(Accelerated Mobile Pages)は、モバイルのページ表示を高速化する手法です。AMP化することでWebページの表示が速くなり、ユーザビリティが向上してクローラーからの評価を上げることにつながります。

AMPはGoogleが推奨しており、AMP HTMLの仕様に沿ったWebページ(AMPページ)を作成して対応できます。ワードプレスを使っている場合は、プラグインを有効化するで簡単に実装可能です。

被リンクを増やす

被リンクとは、外部のWebサイトからリンクを張られていることをいいます。Googleのクローラーはリンクを伝ってページを訪問します。そのため、被リンクが増えるとGoogleに高い頻度でチェックしてもらえるようになるでしょう。

同じ分野で信頼性の高いサイトから被リンクされることや、SNSで多くシェアしてもらうことも効果的です。

ただし「Google 検索セントラル(旧称 Google ウェブマスター)」に準拠していないリンク」を増やしてもクローラビリティの向上につながりません。特にGoogle 検索セントラルにあるリンクスパムと認定されるようなリンクを増やすと、ペナルティの対象となる場合もあるため注意が必要です。

※参考:Google検索セントラル. 「Google 検索の基本事項」.  (2023-6-15). 

サーバーを最適化する

サイトの規模やユーザー数が増えてきたらサーバーの最適化をした方が良いでしょう。サーバーの負荷を減らし応答速度を上げることで、正常にクローラーが巡回できるようになります。

最適化するにはディスクやメモリの容量を増やす、CPUの性能を高めるなどの方法が一般的です。また、サーバーを分散せたりWebコンテンツを配信するのに最適化されたネットワークのCDN(content delivery network/コンテンツ配信網)などを活用したり、データベースやPHPのバ―ションを改善したりする方法もあります。

robots.txtでファイルのクロールを止める

robots.txtファイルを使ってクロールを止めるのも、SEOに役立つ場合があります。

robots.txtファイルは、サイトの URLを指定することにより、クローラーがどのサイトにアクセスして良いのかを伝えるファイルです。必要に応じてクロールを拒否したり、早く巡回してもらったりすることもできます。

robots.txtファイルを活用すれば、重要ではないページへのクロールを制御し、重要なコンテンツに頻繁にクロールさせられることが可能です。

ただし、robots.txtはサイトでのリクエストのオーバーロードを避けるために使用されるもので、指定したコンテンツがGoogleにWebページが表示されなくなるわけではありません。Google にWebページが表示されないようにするには、noindexを使用することになります。

robots.txtファイルについて、詳しくは以下の記事をご覧ください。

robots.txtの書き方と確認方法
記事robots.txtとは?作り方・書き方・確認方法を解説します

不要なアクセスをブロックする

Webサイトに目立った変更を加えていないにもかかわらずアクセス数が急増した場合、不要なアクセスが発生している可能性があります。不要なアクセスが急増するとサーバーに負担が掛かるため処理速度の遅延を引き起こし、結果としてクローラビリティが低下するかもしれません。

こうした時は、不要なアクセスをブロックする必要があります。Googleアナリティクスでアクセス元を特定し、アクセス元のドメインまたはIPアドレスを拒否するコードを記述することで対応可能です。

アクセスが不自然に増えているときは、まず不要なアクセスが発生していないか確認しましょう。

URL検査ツールを使う

URL検査ツール(旧Fetch as Google)を活用することで、クローラリビティを向上させることが可能です。URL検査ツールとは、Googleサーチコンソールの機能の一つで、個々のページのインデックス状況を確認できます。新しいページを作成したりリライトしたりしたときに、インデックス登録のリクエストも可能です。

URL検査ツールの使い方は、Googleサーチコンソールにログインした後、メニューの「URL検査」を表示させ、クロールを促したいページのURLを入力して「インデックス登録をリクエスト」をクリックします。

URL検査ツールでURL情報をGoogleに伝えることで、一時的にクローラーの巡回を希望するページへと誘導できます。

Webサイトを更新したときには、URL検査ツールでクローラーの巡回を促すと良いでしょう。

質の高いコンテンツを制作する

URL検査ツールのように、クローラーに巡回をリクエストする方法は一時的な効果のため、継続した効果は見込めません。やはりSEOに重要なのは質の高いコンテンツを継続して制作し続けることです。

ユーザーの検索ニーズをしっかりと把握し、疑問や課題を解決できるコンテンツを目指しましょう。

ユーザーにとって有益で質の高いコンテンツは、狙っているキーワードで検索し上位表示されている競合サイトをチェックし参考にするのがおすすめです。また、十分な情報量や独自性、信憑性などを加えれば、よりユーザーの満足度が高まるコンテンツにできます。

質の高いコンテンツを継続して発信していると検索エンジンからの評価が上がり、より、クローラビリティが良くなるという好循環が生まれるでしょう。

クローラーがサイトを循環したか確認する方法

クローラーがサイトを循環したか確認する方法

Googleの検索エンジンにおける上位表示を目指す際に、最初の段階として気になるのが、クローラーが自社サイトを巡回したかどうかです。

クローラーが巡回したかを確認する方法には「seite:」で検索する方法とGoogleサーチコンソールで確認する方法があります。

「site:」で検索

検索エンジンの検索窓に「site:自社サイトのURL」を入力することで、インデックスされているかどうか簡易的に調べることが可能です。クローラーが正常に巡回しインデックスされていれば、検索結果に自分のサイトが表示されます。

パソコンから検索する場合は、ブラウザの「ツール」からインデックスの期間を絞り込むと、指定の期間内にインデックスされたページの件数を調べられます。

通常の検索と同様の手順で確認できる手軽な方法です。

Googleサーチコンソール

インデックス登録やクローラーの巡回について調べるならばGoogleサーチコンソールが便利です。

Googleサーチコンソールで自社サイトがインデックスされているかを調べる手順は以下のとおりです。

  1. Googleサーチコンソールにログイン
  2. 画面上部の検索窓に、自社サイトのURLを入力
  3. 「URLはGoogleに登録されています」と出れば、インデックス済み

「URLはGoogleに登録されていません」の結果が出た場合、インデックスを促すためにインデックスのリクエストを送信しましょう。

またクローラーの巡回頻度はGoogleサーチコンソールの「クロール統計情報」から確認可能です。設定画面から「クロール統計情報」をクリックしレポートを開くと、統計情報やクロールリクエストの詳細について把握できます。

クローラーの巡回を促すなら内部・外部・コンテンツSEOの対策が必要

クローラビリティを向上させるには、内部施策・外部施策・コンテンツSEOの3つのSEO対策を並行して行う必要があります。

内部施策はコンテンツの充実度や頻度、内部リンクの構造などWebサイトに対する施策で、外部施策は良質な被リンクを獲得するために外部サイトに対する施策です。コンテンツSEOは、キーワード選定からユーザー分析、制作、リライトなど良質なコンテンツにするための施策を重点的に行います。

どれか一つだけに力を入れても継続的にクローラビリティを高い水準で維持することはできません。

リソースの確保や技術面で自社で行うことに不安がある場合は、SEO対策を専門に行う外部の事業者に依頼することも有効な手段です。

SEO対策・SEO内製化支援はジオコード

ジオコードはSEO対策やSEO内製化支援など、SEOに関わる業務を広くサポートしているWebマーケティングの専門会社です。SEOに関しては、Web制作と対策の両面をサポートし、複雑で難しいSEO対策で必要なコンテンツの提案や、内部対策チェックなども行います。

現在のサイトのリライトや、推奨のテーマ・タイトル・文章構成のコンサルティング、新たな記事の作成、UI・UXのためのデザイン改善などをすることで、CVの向上を目指すことも可能です。

SEOを活用した集客アップを目指したいが、知識や経験がなく不安な方はぜひ一度、ご相談ください。

クローラーの巡回を促し、SEOの効果を高めよう

クローラーは検索エンジンにWebサイトを表示させるために、各Webサイトを巡回しているロボットです。Webサイトを作成したら、クローラーに訪問され高評価を受けて検索エンジンの上位に表示されることが、SEOでも重要なポイントとなります。

そのためにはさまざまな施策をしてクローラビリティを高めることが必要です。

クローラーの巡回を促しSEO効果を高めるには専門知識も必要となるので、外部のプロに対策を依頼することも検討してみてはいかがでしょうか。