介绍
Robots Exclusion Protocol(REP)是一个用于指示机器人的网站管理员文件。这些指示有助于机器人抓取网页,并为各种网站建立索引。这个REP有时被称为Robots.txt。它们被放置在网站服务器目录的最顶层,以发挥最大作用。例如:https://www.123abc.com/robots.txt
REP组被用作网络标准,规范机器人的行动和搜索引擎的索引行为。在1994年和1997年之间,最初的REP定义了机器人行为的robots.txt。在1996年,搜索引擎支持额外的REP X-robot标签。搜索引擎使用微格式rel-no follow来处理价值中包含 "follow "的链接。
机器人小抄
要完全阻止网络爬行者
用户代理。*
不允许。/
要阻止特定的网络爬虫进入目标文件夹
User-agent:Googlebot
不允许。/no-google/
要阻止特定的网络爬虫进入目标网页
用户-代理。Googlebot
不允许。/no-google/blocked-page.html
用户-代理。
不允许。
网站地图: https://www.123abc.com/none-standard-location/sitemap.xml
排除特定的机器人协议标签
URI,REP标签适用于某些索引器任务,在某些情况下,nosnippet,noarchive和noodpquery引擎或一个搜索查询。用排除标签标记的资源,搜索引擎,如Bing SERP列表显示这些外部链接为禁止的URL。除了爬虫指令,特定的搜索引擎会以不同的方式解释REP标签。这方面的一个例子可以看出,Bing有时会在他们的SERP上将外部参考资料列为禁区。谷歌采取相同的列表,并在他们的SERP上抹去了URL和ODP参考。我们的想法是,X-Robots会推翻与META元素冲突的指令。
###微格式化
特定的HTML因素会在微格式化的索引指令中推翻页面设置。这种编程方法需要技巧和对网络服务器和HTTP协议有非常敏锐的把握。这种协议的一个例子是,一个有特定元素链接的X-Robot标签的页面,说是follow然后rel-nofollow。Robots.txt索引器通常缺乏指令,但有可能设置组索引器的URI,这些URI在网站层面上有一个带侧边脚本的服务器。
###模式匹配
网站管理员仍然可以利用两个独立的表达式来表示页面的排除。这两个字符是星号和美元符号。星号表示可以代表任何字符的组合。美元符号是表示URL的结束。
###不受限制的信息
有效SEO的一体化平台
每个成功的企业背后都有一个强大的SEO活动。但是,有无数的优化工具和技术可供选择,很难知道从哪里开始。好了,不要再害怕了,因为我已经得到了可以帮助的东西。介绍一下Ranktracker有效的SEO一体化平台
机器人文件总是公开的,所以要注意,任何人都可以查看附在网页上的机器人文件。它也是网站管理员在服务器上阻止引擎的可访问信息。这些公共文件留下了对用户私人数据的访问,可能包括个人隐私数据。可以添加密码保护,以防止访问者和其他人查看不应该被索引的分类网页。
额外规则
- 简单的元机器人参数,如index和follow命令,应该只用于防止页面索引和抓取。
- 危险的机器人肯定会忽略这些命令,因此是一个无用的安全计划。
- 每个URL只允许一个 "禁止 "行。
- 每个子域都需要单独的robots文件
- 机器人的文件名是区分大小写的
- 空格不分开搜索参数
顶级SEO战术。Robot.txt
封锁页面 - 有几种方法可以防止搜索引擎索引和访问一个网页或域名。
###使用机器人来阻止网页
这种排除法告诉搜索引擎不要抓取该网页,但它仍可能对该网页进行索引,以在SERP列表中显示它。
没有索引的页面屏蔽
这种排除方法告诉搜索引擎,它们可以访问该网页,但不允许显示该URL或将该网页保存为其索引。这是首选的排除方法。
无跟随链接屏蔽页面
这不是一种被支持的策略。搜索引擎仍然可以通过这个命令访问网页。即使搜索引擎不能直接跟踪页面,它也可以通过浏览器分析或其他链接页面来访问内容。
Meta Robots vs. Robots.txt
一个网站的robots.txt文件的例子可以帮助澄清该程序的过程。在这个例子中,机器人文件是封锁目录的。当在谷歌搜索特定的URL时,它显示有2760个页面被禁止进入该目录。在这个例子中,引擎没有抓取这些URL,所以它们不会像传统的列表那样出现。这些页面一旦有了链接,就会积累链接汁。除了它们的排名能力外,它们也将开始从出现在搜索中获得人气和信任。由于这些页面不能成为网站的好处,因为它们没有被抓取。解决这个问题的最好方法是,不要在一个页面上浪费排名权力,谨慎的做法是使用另一种排除法来删除个别页面。编码将显示为:元标签这种方法将表现出比前一种方法更好 的性能。