Robots 协议

Robots协议（爬虫协议）的全称是“网络爬虫排除标准”（RobotsExclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。该协议是国际互联网界通行的道德规范，虽然没有写入法律，但是每一个爬虫都应该遵守这项协议。

在上面的robots文件中，淘宝网对用户代理为百度爬虫引擎进行了规定。

以Allow项的值开头的URL是允许robot访问的。例如，Allow:/article允许百度爬虫引擎访问/article.htm、/article/12345.com等。

以Disallow项为开头的链接是不允许百度爬虫引擎访问的。例如，Disallow:/product/不允许百度爬虫引擎访问/product/12345.com等。

最后一行，Disallow:/禁止百度爬虫访问除了Allow规定页面外的其他所有页面。

除了上述Robots协议之外，我们使用网络爬虫的时候还要对自己进行约束：过于快速或者频密的网络爬虫都会对服务器产生巨大的压力，网站可能封锁你的IP，甚至采取进一步的法律行动。因此，你需要约束自己的网络爬虫行为，将请求的速度限定在一个合理的范围之内。

Last updated 4 years ago