クローラーとは？

クローラーとは、インターネットを体系的に閲覧するために設計されたインターネット・プログラムのこと。クローラーは、検索エンジンがインデックスを作成し、検索結果に表示するためにページを発見し、処理する手段として最も一般的に使用されています。

HTMLを処理するクローラーに加え、画像や動画をインデックスするための特殊なクローラーもある。

現実の世界では、世界トップの検索エンジンが使用しているウェブクローラーが主なものである：Googlebot、Bingbot、Yandex Bot、Baidu Spiderなどだ。

良いクローラーと悪いクローラー

優れたクローラーは、主に検索インデックスにコンテンツを追加したり、ウェブサイトの監査を支援したりすることで、あなたのサイトを助けるボットだと考えてください。優れたクローラーの他の特徴は、自分自身を識別し、あなたの指示に従うこと、そしてサーバーに過負荷をかけないようにクロール速度を調整することです。

悪質なクローラーとは、ウェブサイトのオーナーにとって何の価値ももたらさないボットのことで、悪意を持っている場合もあります。悪質なクローラーは、自分自身を特定できず、あなたの指示を回避し、サーバーに不必要な負荷を与え、コンテンツやデータを盗むことさえあります。

クローラーの種類

クローラーには大きく分けて2種類ある：

常時クロールするボット：24時間365日クロールを行い、新しいページを発見し、古いページを再クロールする（例：Googlebot）。
オンデマンドボット：限られた数のページをクロールし、要求されたときだけクロールを実行する（例：Ranktracker Site Auditボット）。

なぜウェブサイト・クローリングが重要なのか？

検索エンジンのクローラーの主な目的は、あなたのウェブサイトに何があるかを見つけ出し、その情報を検索インデックスに追加することです。もしあなたのサイトがクロールされなければ、あなたのコンテンツは検索結果に表示されません。

ウェブサイトのクロールは1回限りのイベントではなく、アクティブなウェブサイトにとっては継続的な作業です。ボットは定期的にウェブサイトを再クロールし、新しいページを見つけて検索インデックスに追加すると同時に、既存のページに関する情報を更新します。

ほとんどのクローラーは検索エンジンに関連していますが、他の種類のクローラーも存在します。例えば、Ranktracker Site Auditボットは、あなたのウェブサイトのSEO上の問題点を確認するのに役立ちます。

クローラーの仕組み

簡単に説明すると、Googlebotのようなウェブクローラーは、サイトマップ、リンク、Google Search Consoleを介した手動送信によって、ウェブサイトのURLを発見します。そして、それらのページの「許可された」リンクをたどります。

これは、robots.txtのルールや、リンクや個別ページの「nofollow」属性を尊重しながら行われる。

定期的に更新される100万ページ以上のウェブサイトや、毎日更新される1万ページのコンテンツなど、一部のウェブサイトでは、"クロール予算 "が限られている場合があります。これは、ボットが1回のセッションでウェブサイトに割くことができる時間とリソースの量を指します。

クロールの優先順位

クロールバジェットの容量には限りがあるため、クローラーはクロールの優先順位を決めて活動している。例えば、Googlebotは次のように考えている：

URLのページランク
ページの更新頻度
ページが新しいかどうか

こうすることで、クローラーはサイトの最も重要なページを最初にクロールすることに集中できる。

モバイル版とデスクトップ版クローラー

グーグルボットには主に2つのバージョンがある：Googlebot DesktopとGooglebot Smartphoneである。最近のGoogleはモバイルファーストインデックスを採用しており、スマートフォンエージェントがページのクロールとインデックスに使用される主要なGooglebotであることを意味します。

これらの異なるタイプのクローラーには、異なるバージョンのウェブサイトを提示することができます。技術的には、ボットは、HTTPリクエストヘッダUser-Agentと一意の識別子を使用して、ウェブサーバに自分自身を識別します。

クローリングフレンドリーなウェブサイトのためのベストプラクティス

ウェブサイトをクロールできる状態にするには、いくつかのステップを踏むことをお勧めします。重要なページがインデックスされ、ランキングされる可能性を最大限に高めるために、以下の手順に従ってください。

1.Robots.txtファイルをチェックする

robots.txtファイルは、一連のクローラー指令を使用して、これらのボットと通信するウェブサイト上のファイルです。インデックスさせたいページやセクションから善良なボットを排除していないことを確認してください。Googleのrobots.txtテスターのようなツールを使って、エラーがないかチェックしましょう。

2.サイトマップの提出

サイトマップの提出は重要なステップです。サイトマップには、インデックスさせたいウェブサイトのすべてのページがリストアップされています。Google Search Consoleでは、Index > Sitemapsでサイトマップを送信できます。このプロセスは、Bingウェブマスターツールのような他の検索エンジンでも同様です。

3.クローラーディレクティブを賢く使う

robots.txtファイルは、ディレクティブを使ってクローラーにクロールを許可するページと許可しないページを指示します。サイトナビゲーションの重要なページがクロールされるようにすることが重要です。robots.txtファイルでクロールが許可されていないコンテンツは、ページレベルのディレクティブは表示されません。

4.ページ間に内部リンクを張る

内部リンクは、検索エンジンが各ページの内容を理解し、クローラーが最初にページを発見するのに役立ちます。また、内部リンクは、PageRankがサイト全体にどのように流れるかを形成するのにも役立ちます。

5.4xxと不要なリダイレクトを減らす

4xxエラーは、そのURLのコンテンツが存在しないことをクローラーに知らせるものです。Ranktracker Site Auditのようなツールを使ってこれらのページを修正するか、ライブページへのリダイレクトを設定しましょう。また、スムーズなクロールのために、不要なリダイレクトやリダイレクトチェーンを排除しましょう。

6.Ranktrackerサイト監査でクローラビリティとインデクサビリティの問題を見つける

RanktrackerSite Auditツールは、あなたのサイトのすべてのnoindexページとnofollow付きリンクをチェックするのに役立ちます。リダイレクトチェーンやループを含む、壊れたページや過剰なリダイレクトを発見し、孤児ページを指摘することができます。

よくあるご質問

クロールとインデックスは同じものか？

クローリングとは、一般にアクセス可能なウェブページやその他のコンテンツを発見するプロセスを指す。インデックスとは、検索エンジンがこれらのページを分析し、検索インデックスに保存することを指します。

最も活発なクローラーとは？

最も人気のある検索エンジンのクローラーには、Googlebot、Bingbot、Yandex Bot、Baidu Spiderなどがあります。詳しくは、Impervaのボットトラフィックの調査をご覧ください。興味深いことに、リンクデータベース全体を動かすAhrefsBotは、Googlebotに次いで2番目にアクティブなクローラーであることが判明した。

クローラーはウェブサイトを傷つけるか？

ほとんどのクローラーはウェブサイトに害を及ぼすことはありませんが、悪質なクローラーも存在します。悪質なクローラーは帯域幅を占有し、ページの表示速度を低下させたり、サイト内のデータを盗んだり、コンテンツをスクレイピングしようとしたりします。

クローラー