优化SEO课程的搜索引擎,统一Robots文件的标准。

当前位置: 首页 > 常见问题

网络:SEO优化课程的搜索引擎统一了Robots文件的标准。

三大搜索引擎玩得很开心,但偶尔也会合作。去年,谷歌、雅虎和微软合作遵守统一的站点地图标准。两天前,三巨头同时宣布将遵守robots.txt文件的标准。谷歌、雅虎和微软各自在官方博客上发文,宣布了三家公司支持的robots.txt文件和Meta tag的标准,以及一些独特的标准。我们来做个总结。

三家公司支持的机器人文件记录包括:

不允许-告诉蜘蛛不要抓取某些文件或目录。例如,以下代码将防止蜘蛛抓取所有网站文件:

用户代理:*

不允许:/

允许——告诉蜘蛛他们应该抓取一些文件。当“允许”和“不允许”一起使用时,它们可以告诉蜘蛛,在某个目录中,它们中的大多数不会爬网,只有一些会爬网。例如,以下代码将使spider不抓取ab目录中的其他文件,而只抓取cd中的文件:

用户代理:*

不允许:/ab/

允许:/ab/cd

$通配符-匹配URL末尾的字符。例如,下面的代码将允许蜘蛛访问。Htm是一个后缀网址:

用户代理:*

允许:。htm$

*通配符-告诉蜘蛛匹配任何一段字符。以下代码将禁止蜘蛛抓取所有htm文件:

用户代理:*

不允许:/*。html文件的后缀

网站地图位置–告诉蜘蛛您的网站地图的格式:

网站地图:

这三家公司支持的元标签包括:

没有索引——告诉蜘蛛不要给网页编制索引。

不要跟随——告诉蜘蛛不要跟随网页上的链接。

无片段–告诉蜘蛛不要在搜索结果中显示描述性文本。

无存档–告诉蜘蛛不要显示快照。

NOODP-告诉蜘蛛不要使用开放目录项目中的标题和说明。


这三家公司现在都支持这些记录或标签。其中,通配符似乎之前并没有得到雅虎和微软的支持。百度现在也支持Allow、allow和两个通配符。Meta-tag我找不到百度是否支持的官方解释。

只有谷歌支持的元标签是:

当网页过期时,告诉蜘蛛。在此日期之后,它不应再出现在搜索结果中。

没有图像索引-告诉蜘蛛不要索引页面上的图片。

不翻译–告诉蜘蛛不要翻译页面内容。

雅虎还支持元标签:

爬行-延迟-允许蜘蛛延迟爬行的频率。

无Ydir–类似于NOODP标签,但指的是雅虎目录,而不是开放目录项目。

robots-无内容–告诉蜘蛛标记的html不是网页内容的一部分,或者从另一个角度告诉蜘蛛哪些部分是网页的主要内容(要检索的内容)。

MSN还支持元标签:

爬行-延迟

另外,请注意robots.txt文件不存在,返回404错误,表示允许蜘蛛抓取所有内容。但是抓取robots.txt文件时,会出现超时等错误,可能会导致搜索引擎不包含网站,因为蜘蛛不知道robots.txt文件是否存在,也不知道里面有什么,这和确认文件不存在是不一样的。

作者:徐州百都网络 | 来源:[db:出处] | 发布于:2022-02-11 13:00:48