本站停止维护,已转移至laravel学习网;欢迎大家移步访问!

[ 科普 ] 深入了解robots协议,以及robots.txt的写法

有些时候你的后台入口被百度收录了你烦不烦?去年做网站简单接触seo的时候,了解到了robots协议和robots.txt,今天再次使用到,有写生疏了,所以决定整理一篇文章,来记录一下,以后用到可以来查查。

一. 描述:robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

二. 应用场景

在一般的网站当中,都会有robots.txt文件,laravel框架的robots.txt文件在public,我认识的很多朋友都是后端,估计不太注意这个,我们上线后或者搜索引擎怎么获取我们的robots配置呢?很简单,在哦们的域名上加上robots.txt即可,比如本论坛的为http://bbs.earnp.com/robots.txt,比如淘宝的为https://world.taobao.com/robots.txt  他拒绝了所有的爬虫访问

三. 简单实用

1. 允许爬虫有时候我们发现我们的网站怎么都不会被收录,这时候你可以去看看你的robots.txt文件,是不是禁用掉了爬虫,好的,我们来看看怎么配置允许爬虫访问:

a. 允许所有爬虫访问我们的全部目录

User-agent: *
Disallow: /

b.允许所有爬虫访问我们的特定目录

User-agent: *
Disallow: /bin/

c. 允许指定爬虫访问我们的站点,这里我们允许百度爬去我们的页面

User-agent: Baiduspider
Disallow: 

2. 比如我们开发的网站是后台,或者我们不希望他收录我们的网站,我们需要禁用掉所有的爬虫

a. 禁用所有的爬虫访问你的站点

User-agent: *
Disallow: /

b.禁用部分访问

User-agent: *
Disallow: /bin/

好的,就先描述到这里,更多用法,百度robots就可以找到了,这里只是初步的介绍 转载请注明 :一沙网络原文出处:http://bbs.earnp.com/article/327
问题交流群 :562864481

0
打赏
发布时间 :2017-02-09 15:59:26
分享

0 个评论

    还没有评论,感觉来抢沙发吧!

要回复文章请先登录注册