Robots.txtとは何で すか?
robots.txtファイルは、検索エンジンのボットなどのウェブクローラーが、ウェブサイト上の特定のURLにアクセスすることを制限します。また、一部のウェブ・クローラーのクロール速度を調整するためにも使用できます。
すべての "善良な "ウェブ・クローラーは、robots.txtファイルで指定されたルールを遵守する。しかし、robots.txtファイルを完全に無視する、しばしばスクレイピング目的で利用される「悪質な」未登録クローラーも存在します。
robots.txtファイルは、ウェブサイトへのクローラーのトラフィックを減らす/最適化するために使用されなければならず、ウェブページのインデックスを制御するために使用すべきではありません。robots.txtで禁止されているURLであっても、外部リンクから発見された場合はGoogleにインデックスされる可能性があります。
Robots.txtの構文
robots.txtファイルの構文には、以下のフィールドが含まれる:
- user-agent:ルールが適用されるクローラー
- disallow: クロールしてはならないパス
- allow: クロール可能なパス (オプション)
- sitemap: サイトマップファイルの場所(オプション)
- crawl-delay: クロール速度を制御する (オプション。GoogleBot ではサポートされていません)
例を挙げよう:
ユーザーエージェントRanktrackerSiteAudit Disallow:/resources/ 許可する:クロール遅延: 2 サイトマップ: https://example.com/sitemap.xml
このrobots.txtファイルは、RanktrackerSiteAuditのクローラーに対して、「/resources/」ディレクトリ 内のURLは「/resources/images/」ディレクトリ内のURL以外はクロールしないように指示し、リクエスト間の遅延を2秒に設定します。
なぜRobots.txtファイルが重要なのか?
robots.txtファイルは、ウェブマスターがウェブサイト上のクローラーの動作を制御し、クロールの予算を最適化し、一般からのアクセスを意図していないウェブサイトのセクションのクロールを制限することができるため、重要です。
多くのウェブサイト所有者は、著者ページ、ログインページ、会員制サイト内のページなど、特定のページをインデックスしないことにしています。また、PDFやビデオなど、アクセスにEメールのオプトインが必要なゲーティングされたリソースのクロールやインデックスをブロックすることもあります。
WordPressのようなCMSを使用している場合、/wp-admin/
ログインページは自動的にクローラーのインデックスからブロックされることは注目に値する。
しかし、Googleはrobots.txtファイルだけに頼ってページのインデックスを制御することを推奨していないことに注意することが重要です。また、「noindex」タグの追加など、ページに変更を加える場合は、そのページがrobots.txtで許可されていないことを確認してください。そうしないと、Googlebotはそのページを読み取ることができず、インデックスをタイムリーに更新することができません。
よくあるご質問
robots.txtファイルがないとどうなりますか?
ほとんどのサイトでは、robots.txtファイルは絶対に必要というわけではありません。robots.txtファイルの目的は、検索ボットに特定の指示を伝えることですが、小規模なウェ ブサイトや、検索クローラーからブロックする必要のあるページがあまりないウェブサイトの場合は、必要ないかもしれません。
とはいえ、robots.txtファイルを作成し、ウェブサイトに常駐させることにデメリットはありません。これにより、将来ディレクティブを追加する必要が生じたときに、簡単に追加することができます。
robots.txtを使って検索エンジンからページを隠すことはできますか?
検索エンジンからページを隠すことは、robots.txtファイルの主な機能の1つです。disallowパラメータとブロックしたいURLでこれを行うことができます。
しかし、robots.txtファイルを使ってGooglebotからURLを隠しただけでは、インデックスされないという保証にはならないことに注意が必要です。場合によっては、URL自体のテキスト、外部リンクで使用されているアンカーテキスト、URLが発見された外部ページのコンテキストなどの要因に基づいて、URLがインデックスされる可能性もあります。
robots.txtファイルをテストするには?
robots.txtファイルを検証し、Google Search Consoleのrobots.txtテスターや、Merkleのような外部バリデーターを使用して、特定のURLで指示がどのように機能するかをテストすることができます。