Cheshirecat

2 干净的,温暖的


Meta元素是插入在head标签内部的标签,两个属性name和content,当name的值为robots时,是针对搜索引擎的设置.将w3官方的文档翻译一下,学习一下,顺便做一下引申阅读.
原文地址:http://www.w3.org/TR/html401/appendix/notes.html#h-B.4.1.1

META元素允许HTML作者告诉访问器网站的搜索引擎机器人是否能将一个文档索引,或者习惯性的去获取更多的链接,这并不是服务器管理员必须要设置的.
在下面的例子中,搜索引擎机器人既不索引此文档也不会去分析其链接.

<meta name=”ROBOTS” content=”NOINDEX, NOFOLLOW” />

content的内容可以为:ALL,INDEX,NOFOLLOW,NOINDEX
引申阅读:http://www.robotstxt.org/wc/meta-user.html
Meta标签语法规则:

content = all | none | directives
all = “ALL”
none = “NONE”
directives = directive ["," directives]
directive = index | follow
index = “INDEX” | “NOINDEX”
follow = “FOLLOW” | “NOFOLLOW”

注:”|”为管道符号,表示或(or).

Robots.txt 文件
当机器人访问一个站点时,以http://www.foobar.com/为例,它会首先检测http://www.foobar.com/robots.txt.如果能找到这个文本文档时,它将会分析其内容以确认其是否被允许查找此文档,你可以自定义robots.txt文件去指定机器人以及设置机器人不能访问的目录或文件.
这里有一个robots.txt的例子,这个例子阻止所有的机器人访问其站点内容.

User-agent: * # 应用到所有的机器人
Disallow: / # 不允许索引所有页面

一个站点只能设置一个robots.txt文件,特别指出,你不能将robots.txt文件放置在用户目录下,因为机器人从来不会去查看这些目录.如果你想让你的用户去创建他们专有的robots.txt文件,这时你只能将他们合并为一个文件.如果你不想这样做,你的用户可以使用Meta方法替代.

提示:URI是区分大小写的,并且robots.txt的文件名必须小写,另外在robots.txt文件中每个记录都是不允许空行出现的.
每个记录必须严密的设置User-agent,机器人在解析此设置是比较随意.推荐使用区分大小写的字符串去表示不带版本信息的机器人名称.
如果其值为”*”,这个记录表示默认允许任何没有匹配其他记录中的机器人有访问权限,在robots.txt文件不允许出现多个这样的记录.

Disallow指定可以被访问的相对URI,可以完整的路径,也可以是部分路径.任何以此为开头的值都是不允许被访问的.例如:

Disallow: /help #不允许访问 /help.html,/help/index.html
Disallow: /help/ #不允许访问/help/index.html

Disallow项的值是可以留空的,表示所有的URI都可以被访问,但是在robots.txt文件中至少要出现一个Disallow项.

引申阅读:
http://www.robotstxt.org/wc/norobots.html

Add Comment