网上随便看看,看到这篇文章,本来对于是不是要robots.txt没想那么多,不过先来看看,这个作者怎么写吧,他写了一个自己的robots.txt还附带了月光博客的robots.txt。
这个是作者自己的:(Disallow代表禁止抓取)
User-agent:*
#Directories(目录)
Disallow:/ADMIN/ //后台管理文件
Disallow:/SCRIPT/ //调用的SCRIPT文件,即使搜索引擎抓到了,也不读取
Disallow:/PLUGIN/ //插件目录
Disallow:/FUNCTION/ //不需抓取
Disallow:/DATA/ //数据库目录
Disallow:/CACHE/ //Zblog生成静态页的缓存目录,和正常文章基本一致,高重复
Disallow:/TEMPLATE/ //模板目录
Disallow:/CSS/ //CSS的一些调用文件目录
Disallow:/LANGUAGE/ //语言目录,不必抓取
#Files(文件)
Disallow:/login.asp //登录后台文件
Disallow:/cmd.asp? //这个是供别人引用通知时产生的页面
Disallow:/search.asp //搜索页,无人使用的时候,就是一个空页
Disallow:/atom.xml //支持ATOM的FEED页,高重复。
Disallow:/rss.xml //支持RSS的FEED页,高重复。
Disallow:/view.asp? //后台预览文章时生成的页面