雅虎中国,I服了U

今天改动了一下Permalink结构,准备随时投入到Movable Type的怀抱。
于是用插件做原来链接的重定向,照例是301。
然后去看了一下log,惊住了。

雅虎中国的爬虫竟然还在用/年/月/日/标题/这样的结构访问着我的Blog,我至少在半年前就没有使用这种结构了。

你2秒爬一次我的站,我用robots.txt限制了。
你从没带来过任何流量,我也忍了。
我半年前就给你301的重定向,你难道是猪啊!

Tags: ,

4 Responses to “雅虎中国,I服了U”

  1. 万晓文 says:

    厉害,原来还可以监督爬虫的行动啊,我只知道从REFER里面看是哪个搜索引擎过来的,对如何看爬虫从来没接触过,是在网站空间日志里面看吗?

  2. [BLT]FQX says:

    厉害,原来还可以监督爬虫的行动啊,我只知道从REFER里面看是哪个搜索引擎过来的,对如何看爬虫从来没接触过,是在网站空间日志里面看吗?

    服务器的log里面当然会有。
    这次因为那个重定向插件有自己的记录,所以才注意到了。

  3. 路过 says:

    1、你确定没有使用年月日这样的文章结构吗?看看你右边Calendar里面的日期的链接,都是这种结构呀。
    2、如果你想限制雅虎的爬虫,只要设置好robots.txt文件就可以了。
    3、301的重定向对爬虫不一定有效。

  4. [BLT]FQX says:

    1、你确定没有使用年月日这样的文章结构吗?看看你右边Calendar里面的日期的链接,都是这种结构呀。
    2、如果你想限制雅虎的爬虫,只要设置好robots.txt文件就可以了。
    3、301的重定向对爬虫不一定有效。

    1.我说的是“/年/月/日/标题/”这样的固定链接,右边日历的URL里面,并不存在标题。并且,日历的链接是存档系统,并不是单独文章的页面。而且我已经用一个插件限制了存档系统被爬虫存档,如果那个插件没有坏掉而且Yahoo的爬虫识别noindex的话。
    2.我文章中有写到我已经用robots.txt限制了爬取速度,请你不要急着评论。
    3.我相信Google的网站管理员支持中心写了301重定向用于转移网站的链接(http://www.google.com/support/webmasters/bin/answer.py?answer=40151),我当然也有理由相信Google的爬虫支持这种重定向。如果Yahoo的爬虫不支持,我只能表示遗憾。
    4.Yahoo的爬虫效率之低还有其他例子,比如我一年前废掉的域名在Yahoo里面还可以用site命令搜索到。
    5.很高兴看到雅虎中国还有人负责Blog这块的公关,谷歌似乎没有。

Leave a Reply