什么是robots.txt文件,robots.txt文件有什么用

一、robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。
Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,
它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;
如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots规则:
· User-Agent: 适用下列规则的漫游器   
· Disallow:      要拦截的网页
二、常遇问题:
问题一
我网站上所有的文件都需要被蜘蛛抓取,那我就没必要添加robots.txt文件了。反正如果该文件不存在,
所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
:每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误文件(无法找到文件)。
每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误文件,
所以你应该在网站中添加一个robots.txt。

问题二
搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件中设置所有的搜索蜘蛛都不能抓取全部的网页。
:如果这样的话,会导致整个网站不能被搜索引擎收录。

问题三:
在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
:网站中的脚本程序、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会占用服务器存储空间。
因此必须在robots.txt文件里设置不要让搜索蜘蛛索引脚本程序、样式表等文件,具体哪些文件需要排除。

三、一般情况屏蔽的网站栏目:
一般网站中不需要蜘蛛抓取的文件有后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

四、robots注意事项:
robots.txt文件里还可以直接包括在sitemap文件的链接。
就像这样Sitemap: http://www.***.com/sitemap.xml
robots.txt必须放置在一个站点的根目录下。
一定要小写robots.txt。

评论

你必须 登录 才能发表评论.