QQ爹の博客 QQ爹の博客

robots.txt书写错误导致的严重后果

in 人性思考 read (2176) 444汉字 文章转载请注明来源!

robots介绍

就是一个网站根目录的txt文本,需要自己建立的,目的就是告诉搜索引擎哪些页面可以抓取,哪些页面不准抓取。

事情的起因就是我建立了这个东西,下面就是我写的东西。

User-agent: *
Disallow: /a*/这个是不准抓的链接
Disallow:/install/这个是不准抓的链接
sitemap:https://qqdie.com/sitemap.xml

错就错在这个声明上了Disallow: /a*/,这个就是禁止http://qqdie.com/a带有这样格式的链接,而我的文章格式是https://qqdie.com/archives/demo.html这样的,因为每篇文章链接都含有http://qqdie.com/a,所以搜索引擎完全没有抓取我的文章。(容我哭一下)

创建robots.txt本身是优化收录的,结果我这么一写反而起了超级大的反效果,哭。

之前怀疑过https导致收录过慢,也怀疑过我自己修改文章链接格式导致的原因,现在我发现我错了,最大的原因居然是这个不起眼的txt文件。

robots文件写法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
jrotty WeChat Pay

微信打赏

jrotty Alipay

支付宝打赏

文章二维码

扫描二维码,在手机上阅读!

seorobots收录
最后由Jrotty编辑于2016-12-11 11:52
发表新评论
已有 25 条评论
  1. Shana
    Shana
    回复

    之前试过Disallow: /*/ 233333333

    1. Jrotty
      Jrotty
      回复

      @Shana 我的只是文章收录全无,收录的就是首页和分类页还有标签页,甚至谷歌丧心病狂的收录了页码页

    2. Shana
      Shana
      回复

      @Shana 收录全无,Google+Baidu 全没了233

    3. Jrotty
      Jrotty
      回复

      @Shana 那你比我还惨

  2. 王忘杰
    王忘杰
    回复

    qqdie.com的站点信息
    备案方:暂无数据
    该网站共有 345 个网页被百度收录

    1. Jrotty
      Jrotty
      回复

      @王忘杰 收录的都是标签页和分类页,没有文章页面,还有些死链

  3. ⑨BIE
    ⑨BIE
    回复

    真是一个北上的故事23333然而我的博客貌似因为涉嫌有不和谐内容导致百度收入十分慢hhhhhh

    1. 王忘杰
      王忘杰
      回复

      @⑨BIE 你的黄站呢

    2. ⑨BIE
      ⑨BIE
      回复

      @⑨BIE 好麻烦_(:з)∠)_。。。我倒是对收入不会太在意。反而还不希望太多人访问2333

    3. Jrotty
      Jrotty
      回复

      @⑨BIE 试试主动提交呢,我发现必应搜索主动提交收录特别快,虽然每天最多提交十个链接

  4. 友人C
    友人C
    回复

    这篇文章可以结合这篇文章《高产的我为何收录如此之差》一起食用#[狗]

    1. Jrotty
      Jrotty
      回复

      @友人C 这是一个伤心的故事

  5. 临时工阿k
    临时工阿k
    回复

    百度有自动推送的代码,你这个写在要主动推送的页面上就自动推了。。。何必折腾这个不安全的。。

    1. 临时工阿k
      临时工阿k
      回复

      @临时工阿k 和百度交易下,

    2. Jrotty
      Jrotty
      回复

      @临时工阿k 没事这个改好了也就没事了!也就可怜可我过去的那些篇文章了

  6. Asuhe
    Asuhe
    回复

    有robots会暴露一些隐私内容,比如我就看到了你的后台地址......

    1. Jrotty
      Jrotty
      回复

      @Asuhe 是啊,所以我要现在要改下,刚才网站被打死了ಥ_ಥ

前篇 后篇

评论提交中...

雷姆
拉姆
音乐加载中...
0:00