robots.txt文件的编写

当前位置: 首页 > 常见问题

Robots协议全称(也称爬虫协议、机器人协议等。)是“Web爬虫排除标准”。通过机器人协议,网站告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。Robots.txt是协议,不是命令。Robots.txt是在搜索引擎中访问网站时要查看的第一个文件。Robots.txt文件告诉蜘蛛程序哪些文件可以在服务器上查看。那么站长们对机器人了解多少呢?你知道怎么写机器人文件吗?下面网络小编就给大家介绍一下。


机器人协议原理


机器人协议是国际互联网领域的通用道德标准,它是基于以下原则建立的:


1.搜索技术应该为人类服务,尊重信息提供者的意愿,维护其隐私权;


2.网站有义务保护用户的个人信息和隐私不受侵犯。


机器人功能

Robots协议用于告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。可以屏蔽网站中一些比较大的文件,比如图片、音乐、视频等。,并节省服务器带宽;可以屏蔽网站的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬页。


文档写作


用户代理:*这里*代表各种搜索引擎,*是通配符。




不允许:/admin/这里的定义是禁止对管理目录下的目录进行爬网。


不允许:/require/此处的定义是禁止对要求目录下的目录进行爬网。


不允许:/ABC/这里的定义是禁止对ABC目录下的目录进行爬网。


不允许:/cgi-bin/*。htm禁止访问所有后缀为“的URL(包括子目录)”。/cgi-bin/目录中的“htm”。


不允许:/*?*不能访问包含问号(?)的网站。


不允许:/。jpg$禁止抓取所有图片。网页上的jpg格式。


不允许:/ab/ADC . html禁止对AB文件夹下的adc.html文件进行爬网。


允许:/cgi-bin/这里的定义是允许对cgi-bin目录下的目录进行爬网。


允许:/tmp在这里定义为允许对tmp的整个目录进行爬网。


允许:。htm$只有带后缀的URL”。允许访问“htm”。


允许:。gif$允许捕获网页和gif图像。


网站地图:网站地图告诉爬虫这个页面是网站地图。


下面是如何编写robots.txt文件。当搜索蜘蛛访问一个网站时,它会首先检查该网站的根目录中是否存在robots.txt。如果存在,搜索机器人将根据文件内容确定访问范围。如果文件不存在,所有搜索蜘蛛将能够访问网站上不受密码保护的所有页面。Seo边肖提醒大家,只有当你的网站包含不想被搜索引擎收录的内容时,你才需要使用robots.txt文件。如果您希望搜索引擎包含网站上的所有内容,请不要创建robots.txt文件。

作者:徐州百都网络 | 来源:[db:出处] | 发布于:2022-01-31 13:22:46