robots.txt 文件泄漏

漏洞简述

Robots 协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准( Robots Exclusion Protocol)，用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯，如果robots.txt文件编辑的太过详细，反而会泄露网站的敏感目录或者文件，比如网站后台路径，从而得知其使用的系统类型，从而有针对性地进行利用。

漏洞实例

1、检测形式多样，工具爬虫扫描得到敏感文件的路径，从而找到robots文件；
2、手工挖掘，直接在域名后输入/robots.txt进行查看。
3、利用搜索引擎进行搜索：inurl: /robots.txt

漏洞修复

1、删除该文件，或者正确设置权限，禁止用户访问

2、可根据实际情况，进行如下对应的修复：
User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
	2、 Disallow: / 这里定义是禁止爬寻站点所有的内容
	3、 Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
	4、 Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
	5、 Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
	6、 Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
	7、 Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
	8、 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
	9、 Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录
	10、Allow: /tmp 这里定义是允许爬寻tmp的整个目录
	11、Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
	12、Allow: .gif$ 允许抓取网页和gif格式图片
  13、Sitemap: 网站地图 告诉爬虫这个页面是网站地图。

Previous目标页面.Net 错误信息泄露 NextFlash 跨域访问

Last updated 4 years ago

Was this helpful?