robots.txt 文件泄漏
漏洞简述
漏洞实例
1、检测形式多样,工具爬虫扫描得到敏感文件的路径,从而找到robots文件;
2、手工挖掘,直接在域名后输入/robots.txt进行查看。
3、利用搜索引擎进行搜索:inurl: /robots.txt

漏洞修复
Last updated
1、检测形式多样,工具爬虫扫描得到敏感文件的路径,从而找到robots文件;
2、手工挖掘,直接在域名后输入/robots.txt进行查看。
3、利用搜索引擎进行搜索:inurl: /robots.txt

Last updated
1、删除该文件,或者正确设置权限,禁止用户访问
2、可根据实际情况,进行如下对应的修复:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
2、 Disallow: / 这里定义是禁止爬寻站点所有的内容
3、 Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
4、 Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
5、 Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
6、 Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
7、 Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
8、 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
9、 Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录
10、Allow: /tmp 这里定义是允许爬寻tmp的整个目录
11、Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
12、Allow: .gif$ 允许抓取网页和gif格式图片
13、Sitemap: 网站地图 告诉爬虫这个页面是网站地图。