什么是HTTP状态代码

介绍

Robots Exclusion Protocol（REP）是一个用于指示机器人的网站管理员文件。这些指示有助于机器人抓取网页，并为各种网站建立索引。这个REP有时被称为Robots.txt。它们被放置在网站服务器目录的最顶层，以发挥最大作用。例如：https://www.123abc.com/robots.txt REP组被用作网络标准，规范机器人的行动和搜索引擎的索引行为。在1994年和1997年之间，最初的REP定义了机器人行为的robots.txt。在1996年，搜索引擎支持额外的REP X-robot标签。搜索引擎使用微格式rel-no follow来处理价值中包含 "follow "的链接。

机器人小抄

要完全阻止网络爬行者

用户代理。* 
不允许。/

要阻止特定的网络爬虫进入目标文件夹

User-agent:Googlebot   
不允许。/no-google/

要阻止特定的网络爬虫进入目标网页

用户-代理。Googlebot   
不允许。/no-google/blocked-page.html
用户-代理。
不允许。   
网站地图: https://www.123abc.com/none-standard-location/sitemap.xml

排除特定的机器人协议标签

URI，REP标签适用于某些索引器任务，在某些情况下，nosnippet，noarchive和noodpquery引擎或一个搜索查询。用排除标签标记的资源，搜索引擎，如Bing SERP列表显示这些外部链接为禁止的URL。除了爬虫指令，特定的搜索引擎会以不同的方式解释REP标签。这方面的一个例子可以看出，Bing有时会在他们的SERP上将外部参考资料列为禁区。谷歌采取相同的列表，并在他们的SERP上抹去了URL和ODP参考。我们的想法是，X-Robots会推翻与META元素冲突的指令。

###微格式化

特定的HTML因素会在微格式化的索引指令中推翻页面设置。这种编程方法需要技巧和对网络服务器和HTTP协议有非常敏锐的把握。这种协议的一个例子是，一个有特定元素链接的X-Robot标签的页面，说是follow然后rel-nofollow。Robots.txt索引器通常缺乏指令，但有可能设置组索引器的URI，这些URI在网站层面上有一个带侧边脚本的服务器。

###模式匹配

网站管理员仍然可以利用两个独立的表达式来表示页面的排除。这两个字符是星号和美元符号。星号表示可以代表任何字符的组合。美元符号是表示URL的结束。

###不受限制的信息

机器人文件总是公开的，所以要注意，任何人都可以查看附在网页上的机器人文件。它也是网站管理员在服务器上阻止引擎的可访问信息。这些公共文件留下了对用户私人数据的访问，可能包括个人隐私数据。可以添加密码保护，以防止访问者和其他人查看不应该被索引的分类网页。

额外规则

简单的元机器人参数，如index和follow命令，应该只用于防止页面索引和抓取。
危险的机器人肯定会忽略这些命令，因此是一个无用的安全计划。
每个URL只允许一个 "禁止 "行。
每个子域都需要单独的robots文件
机器人的文件名是区分大小写的
空格不分开搜索参数

顶级SEO战术。Robot.txt

封锁页面 - 有几种方法可以防止搜索引擎索引和访问一个网页或域名。

###使用机器人来阻止网页

这种排除法告诉搜索引擎不要抓取该网页，但它仍可能对该网页进行索引，以在SERP列表中显示它。

没有索引的页面屏蔽

这种排除方法告诉搜索引擎，它们可以访问该网页，但不允许显示该URL或将该网页保存为其索引。这是首选的排除方法。

无跟随链接屏蔽页面

这不是一种被支持的策略。搜索引擎仍然可以通过这个命令访问网页。即使搜索引擎不能直接跟踪页面，它也可以通过浏览器分析或其他链接页面来访问内容。

Meta Robots vs. Robots.txt

一个网站的robots.txt文件的例子可以帮助澄清该程序的过程。在这个例子中，机器人文件是封锁目录的。当在谷歌搜索特定的URL时，它显示有2760个页面被禁止进入该目录。在这个例子中，引擎没有抓取这些URL，所以它们不会像传统的列表那样出现。这些页面一旦有了链接，就会积累链接汁。除了它们的排名能力外，它们也将开始从出现在搜索中获得人气和信任。由于这些页面不能成为网站的好处，因为它们没有被抓取。解决这个问题的最好方法是，不要在一个页面上浪费排名权力，谨慎的做法是使用另一种排除法来删除个别页面。编码将显示为：元标签这种方法将表现出比前一种方法更好的性能。

什么是HTTP状态代码

介绍

机器人小抄

要完全阻止网络爬行者

要阻止特定的网络爬虫进入目标文件夹

要阻止特定的网络爬虫进入目标网页

排除特定的机器人协议标签

额外规则

顶级SEO战术。Robot.txt

没有索引的页面屏蔽

无跟随链接屏蔽页面

Meta Robots vs. Robots.txt

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

什么是HTTP状态代码

介绍

机器人小抄

要完全阻止网络爬行者

要阻止特定的网络爬虫进入目标文件夹

要阻止特定的网络爬虫进入目标网页

排除特定的机器人协议标签

额外规则

顶级SEO战术。Robot.txt

没有索引的页面屏蔽

无跟随链接屏蔽页面

Meta Robots vs. Robots.txt

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

开始使用Ranktracker...免费的!