傻傻的 SOHU 爬虫
davies 发表于 2005 年 12 月 23 日
Blog 的日历中会给出上下月归档文章的链接,比如2005年12月份的日历中会给出11月和2006年1月的链接,如果该链接对应的月份没有文章,则页面的左半部分是空白,而导航栏的内容是存在。
这应该是一个bug,对于无效的月份,不应该给出链接,或者要让链接无效,现在已经修正过来,如果链接是指向一个blog开始之前或者今后的月份,则服务器返回文档不存在。
有趣的是,在Apache 的 log 中,发祥了大量表识为“sohu agent”的SOHU爬虫记录,所爬的页面都是 /archive/200510 这种归档页面,而时间覆盖了从999年1月到3265年8月的所有月份!可怜的 SOHU 爬虫被欺骗得很惨,傻傻地顺着日历的链接往下爬,不到终点绝不罢休,也不管爬到的页面有没有内容。更有趣的是,当年份减少到999年12月时,由于XSLT里的另一个bug,导致前一月为9991年2月,于是爬虫又顺着这个时间往下爬,爬呀爬,直到9706年1月……为了帮SOHU节省点存储空间和网络带宽,我把这个BUG修正了,该让爬虫休息会了。
log中还有很多其它搜索引擎爬虫的记录,比如Googlebot、BaiduSpider等,唯独只有sohu agent在做这种傻事。BaiduSpider就很聪明,爬了很多/archive/下的链接,其中也尝试过一些没有实质内容的链接,不过它很快就停止了,时间跨度只在2003年10月到2006年2月,不知道Baidu是怎么做到这个的,估计是判断页面的内容,如果没有有效内容的话,就不继续爬该页面中的链接。Googlebot则更绝,一遇到空洞页面就打住,时间跨度只在2004年3月到2006年1月。
网友留言:
2. 发表于 2006 年 01 月 5 日 4:41 p.m.
哈哈,晕的
3. 发表于 2006 年 11 月 4 日 11:03 a.m.
严重讨厌SOHU的爬虫,他傻令我们付出不少的带宽和资源啊!你有服务器跑blog还好,我们用虚拟主机跑的就惨了。sohu agent和sogou的robot一天几兆的流量,还有常常同一秒10多个robot在爬。流量最大是他,收录页面最少的网站又是他。我等穷学生的虚拟主机只有4G流量,20个并发连接的小主机被SOHU如此强奸。我又没办法band了他的robot。凄惨啊!
4. 发表于 2006 年 11 月 6 日 12:57 a.m.
ban了呗,反正又带不来多少流量
或者隔几天开放一次
1. 发表于 2005 年 12 月 28 日 10:11 a.m.
昨晚翻阅blod.rainbud.net的apache log,发现sina的爱问iask也是傻得可以,爬到了2109年……