当前位置:长沙SEO优化 > SEO教程 > SEO基础> seo名词解释:什么是Robots协议,标准写法

seo名词解释:什么是Robots协议,标准写法

导读:

Robots协议语法解析 User-agent: 是定义搜索引擎的,指定搜索引擎的爬取程序,如果想定义所有搜索引擎请用 * , 记住他不能单独使用,他要配合前面两个语法使用(随便一个就行了)

 什么是Robots协议


Robots是网站和搜引擎之间的一个协议。用来防止搜索引擎抓取那些我们不想被索引到的页面或内容。早期是为了防止搜索引擎抓取网站的一些隐私页面,不想公开展示的页面,Robots的作用已经不在局限于网页的隐私了,如今已经是作为学习SEO的一个最基础的范畴,能够有效提高网站的健康度、纯净度,降低网站垃圾内容收录

Robots协议语法解析

 

User-agent:  是定义搜索引擎的,指定搜索引擎的爬取程序,如果想定义所有搜索引擎请用 *
记住他不能单独使用,他要配合前面两个语法使用(随便一个就行了)

 

Disallow:是禁止搜索引擎抓取的路径。注意: / 表示根目录 (代表网站所有目录)。Disallow禁止搜索引擎把我们的网页放出来,就是我们不允许搜索引擎收录,请记住是不允许搜索引擎收录,并不代表他不能爬取了。这是两个概念,他还是能爬的,他不是命令,他只是协议

 

Allow:是允许的意思,但需要注意:  他的使用一般都是结合Disallow他不能单独出现,意思是禁止爬取那个内容,加上Allow后意思是,除了可以爬取这个外其余的都禁止!

 

常见的搜索引擎蜘蛛

 

由于互联网上蜘蛛有进200多种搜索引擎蜘蛛,但你需要知道的几个常见的蜘蛛:

百度蜘蛛:Baiduspider

谷歌机器人:Googlebot

360好搜: 360spider

SOSO蜘蛛:Sosospider

雅虎的蜘蛛 Mozilla

微软bing的蜘蛛:msnbot

 

Robots协议的应用

 

应用1: 屏蔽所有搜索引擎爬取网站的语法:

User-agent: *
Disallow: /

应用2:允许所有搜索引擎爬取网站所有内容

User-agent: *
Disallow:

应用3:只禁止百度抓取你网站的内容

User-agent: Baiduspider
Disallow: /

应用4:只允许百度抓取你网站的内容

User-agent: Baiduspider
Disallow:
User-agent: *
disallow: /

 

语法的细节使用

 

冒号后面有空格,这是要严格遵守的,语法的第一个字母大写

 

语法的搭配使用

 

User-agent  放在第一,起到定义搜索引擎,意思就是之后的语法是针对User-agent 定义所在的搜索引擎有效的文件夹的使用( 没有斜杠跟有斜杠他有什么区别)

知识点: /   单一的斜杠代表 根目录,辅助使用,就是具体的一个目录了

重   点:
Disallow: /SEO/  与 Disallow: /SEO  的区别?
Disallow: /SEO/  禁止搜索引擎抓取该网站的SEO目录 , /SEO/ 有斜杠的含义是代表蜘蛛不要来收录我们的SEO文件夹这个目录下面所以的页面

而 Disallow: /SEO  不带斜杠他代表的意义就多了,表示不但禁止搜索引擎抓取该网站的SEO目录,还能够禁止所有以SEO开头的目录名和文件名开头的网址

 

匹配符-[通配符两个要点]

 

—— $  结束符  [所有以他结尾的都能够进行匹配]
—— *  匹配符  [匹配零或任意多个字符]

通配符是整个Robots.txt里面的核心内容,通配符出现让Robots代码更加精简,用更少的代码能够达到同样的效果,可以匹配要屏蔽的N个路径,(通配符匹配案例

 

Allow或Disallow的值 URL 匹配结果
/tmp /tmp yes
/tmp /tmp.html yes
/tmp /tmp/a.html yes
/tmp /tmphoho no
/Hello* /Hello.html yes
/He*lo /Hello,lolo yes
/Heap*lo /Hello,lolo no
html$ /tmpa.html yes
/a.html$ /a.html yes
htm$ /a.html no

 

robots.txt文件用法举例

 

例1. 禁止所有搜索引擎访问网站的任何部分 User-agent: *
Disallow: /
例2. 允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt")
User-agent: *
Allow: /
例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
例5. 仅允许Baiduspider以及Googlebot访问 User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
例6. 禁止spider访问特定目录 
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 允许访问特定目录中的部分url User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8. 使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例9. 使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。
User-agent: *
Allow: /*.htm$
Disallow: /
例10. 禁止访问网站中所有的动态页面 User-agent: *
Disallow: /*?*
例11. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
例12. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13. 仅禁止Baiduspider抓取.jpg格式图片 User-agent: Baiduspider
Disallow: /*.jpg$

 

 

转载请保留本文链接:http://www.seocss.com/seojiaocheng/seojichu/247.html


您可能关注的内容:seo名词解释 robots协议

上一篇:seo名词解释:什么是404页面?

下一篇:seo名词解释:什么是百度点击原理

  • 网站优化如何做对网站有价值的外链
  • seo名词解释:404页面是客户端在浏览
  • seo名词解释:恶意关键字
  • 百度热门关键词和热门页面分别指什
  • seo名词解释:博客
  • 【平台工具】官网保护工具使用帮助
  • seo名词解释:虚拟主机是什么?
  • 初学者如何学习SEO?
  • seo名词解释:什么是页面活跃度
  • seo名词解释:什么是图片的ALT标签
  • 网站优化_搜索引擎技巧
  • seo名词解释:什么叫泛域名?
  • seo名词解释:代理服务器
  • 如何提交sitemap?阅读百度sitemap协
  • 百度站长:索引量变化追查投诉方法
  •