robots.txt文件的编写

当前位置：首页 > 常见问题

Robots协议全称(也称爬虫协议、机器人协议等。)是“Web爬虫排除标准”。通过机器人协议，网站告诉搜索引擎哪些页面可以被抓取，哪些页面不能被抓取。Robots.txt是协议，不是命令。Robots.txt是在搜索引擎中访问网站时要查看的第一个文件。Robots.txt文件告诉蜘蛛程序哪些文件可以在服务器上查看。那么站长们对机器人了解多少呢？你知道怎么写机器人文件吗？下面网络小编就给大家介绍一下。

机器人协议原理

机器人协议是国际互联网领域的通用道德标准，它是基于以下原则建立的:

1.搜索技术应该为人类服务，尊重信息提供者的意愿，维护其隐私权；

2.网站有义务保护用户的个人信息和隐私不受侵犯。

机器人功能

Robots协议用于告诉搜索引擎哪些页面可以被抓取，哪些页面不能被抓取。可以屏蔽网站中一些比较大的文件，比如图片、音乐、视频等。，并节省服务器带宽；可以屏蔽网站的一些死链接。方便搜索引擎抓取网站内容；设置网站地图连接，方便引导蜘蛛爬页。

文档写作

用户代理:*这里*代表各种搜索引擎，*是通配符。

不允许:/admin/这里的定义是禁止对管理目录下的目录进行爬网。

不允许:/require/此处的定义是禁止对要求目录下的目录进行爬网。

不允许:/ABC/这里的定义是禁止对ABC目录下的目录进行爬网。

不允许:/cgi-bin/*。htm禁止访问所有后缀为“的URL(包括子目录)”。/cgi-bin/目录中的“htm”。

不允许:/*？*不能访问包含问号(？)的网站。

不允许:/。jpg$禁止抓取所有图片。网页上的jpg格式。

不允许:/ab/ADC . html禁止对AB文件夹下的adc.html文件进行爬网。

允许:/cgi-bin/这里的定义是允许对cgi-bin目录下的目录进行爬网。

允许:/tmp在这里定义为允许对tmp的整个目录进行爬网。

允许:。htm$只有带后缀的URL”。允许访问“htm”。

允许:。gif$允许捕获网页和gif图像。

网站地图:网站地图告诉爬虫这个页面是网站地图。

下面是如何编写robots.txt文件。当搜索蜘蛛访问一个网站时，它会首先检查该网站的根目录中是否存在robots.txt。如果存在，搜索机器人将根据文件内容确定访问范围。如果文件不存在，所有搜索蜘蛛将能够访问网站上不受密码保护的所有页面。Seo边肖提醒大家，只有当你的网站包含不想被搜索引擎收录的内容时，你才需要使用robots.txt文件。如果您希望搜索引擎包含网站上的所有内容，请不要创建robots.txt文件。

作者：徐州百都网络 | 来源：[db:出处] | 发布于：2022-01-31 13:22:46

robots.txt文件的编写

电话

微信

地址