イントロ
Robots Exclusion Protocol (REP) は、ロボットに指示を出すためのウェブマスター用ファイルです。この指示は、ロボットが様々なウェブサイトのウェブページをクロールし、インデックスを作成するのに役立ちます。このREPは、Robots.txtと呼ばれることもあります。最も有用となるように、ウェブサーバのディレクトリの最上位に配置される。例:https://www.123abc.com/robots.txt
REPグループは、ボットの動作や検索エンジンのインデックスの動作を規制するWeb標準として使用されています。1994年から1997年にかけて、オリジナルのREPはrobots.txtのためにボットの動作を 定義しました。1996年、検索エンジンは追加のREP X-robotタグをサポートしました。検索エンジンは、値に「follow」が含まれているリンクを、マイクロフォーマットrel-no followを使って処理しました。
ロボット・チートシート
ウェブクローラーを完全にブロックするには
ユーザーエージェント を*
不許可/
特定のフォルダーからのクローラーをブロックするには
ユーザーエージェントGooglebot
不許可/no-google/
特定のウェブクローラーを対象ページからブロックするには
ユーザーエージェントがGooglebot
不許可/no-google/blocked-page.html
User-agent:*
不許可。
サイトマップ: https://www.123abc.com/none-standard-location/sitemap.xml
除外する特定のロボットプロトコルタグ
URI、REPタグは、特定のインデクサータスクに適用され、いくつかのケースではnosnippet、noarchiveとnoodpqueryエンジンや検索クエリ。除外タグが付けられたリソースは、BingのSERPリストのような検索エンジンがこれらの外部リンクを禁止されたURLとして表示します。クローラーによる指示の他に、特定の検索エンジンはREPタグを異なる方法で解釈します。この例として、BingはSERPで外部参照を禁止するようにリストアップすることがあります。一方、Googleは、同じリストを取り上げ、SERPs上でURLとODPの参照を消去します。X-Robotsは、META要素と衝突するディレクティブを無効にすると考えられています。
マイクロフォーマット
特定のHTML要素は、マイクロフォーマットのインデックスディレクティブでページ設定を上書きします。この方法のプログラミングは、ウェブサーバーとHTTPプロトコルを非常によく理解した上で、スキルを必要とします。このプロトコルの例としては、特定の要素のリンクを持つX-Robotタグのページで、followの後にrel-nofollowと書かれているようなものがあります。Robots.txtのインデクサには通常ディレクティブがありませんが、サイトレベルでサイドスクリプトを持つサーバーがあるURIのグループインデクサを設定することは可能です。
パターンマッチング
ウェブマスターは、ページの除外を示すために、2つの別々の表現を利用することができます。その2つの文字とは、アスタリスクとドル記号である。アスタリスクは、任意の文字の組み合わせを表すことができることを表します。ドル記号は、URLの終端を表します。
制限のない情報
ロボットファイルは常に公開されているので、ウェブページに添付されたロボットファイルは誰でも見ることができることを認識しておくことが重要です。また、ウェブマスターがサーバー上のエンジンをブロックしている場所にもアクセス可能な情報です。これらの公開ファイルは、プライベートな個人情報を含む可能性のあるユーザーデータへのアクセスを残します。それは、訪問者や他の人がインデックスされるべきではない分類されたページを表示しないよう にパスワード保護を追加することが可能です。
追加ルール
- indexやfollowコマンドのような単純なmetaロボットパラメータは、ページのインデックスやクロールを防ぐためにのみ使用されるべきです。
- 危険なボットはこれらのコマンドを確実に無視するので、セキュリティ対策としては役に立たない。
- 各URLには1行の "disallow "コマンドが許されるのみです。
- 各サブドメインに別々のロボットファイルが必要です。
- ロボットのファイル名は大文字と小文字を区別します。
- スペースで検索パラメータを区切らない
トップSEOタクティクスRobot.txt
ページブロック - 検索エンジンがウェブページやドメインをインデックスしたりアクセスしたりするのを防ぐには、いくつかの方法があります。
ロボットを使ってページをブロックする
この除外は、検索エンジンがページをクロールしないように指示しますが、SERPのリストに表示するためにページをインデックスする可能性があります。
インデックスしないページブロック
この除外方法は、検索エンジンがそのページを訪問することは許可されるが、そのURLを表示したりインデックスに保存したりすることは許可されないことを伝えます。これは好ましい除外方法です。
ページをブロックするためのリンクをたどらない
これはサポートされていない方法です。検索エンジンはこのコマンドを使ってもページにアクセスすることができます。検索エンジンがページを直接たどれない場合でも、ブラウザの解析機能や他のリンクされたページを使ってコンテンツにアクセスすることは可能です。
メタ・ロボット vs. Robots.txt
ウェブサイトのrobots.txtファイルの例は、このプログラムのプロセスを明確にするのに役立ちます。この例では、ロボットファイルがディレクトリをブロックしています。特定のURLをGoogleで検索すると、2760ページがディレクトリから拒否されていることがわかります。この例では、エンジンはURLをクロールしていないため、従来のリスティングのようには表示されません。これらのページは、リンクが付けばリンクジュースが蓄積されます。ランキングのパワーに加え、検索に表示されることで人気と信頼を得るようになります。クロールされていないため、サイトにとって有益なページにはなりえません。この問題を解決し、ページに無駄なランキングパワーを持たせないためには、別の方法で個々のページを排除することが賢明です。コーディングは次のように表示されます:meta tag この方法は、以前の方法よりも良いパフォーマンスを示すでしょう。