灵感的来临,没有任何预兆;灵感的消失,也不会有告别仪式;用文字记下她们吧,让灵感永存……

Gmail的反垃圾邮件系统

davies 发表于 2007 年 01 月 8 日

Gmail 的反垃圾邮件系统是目前我所见过的效果最好的,基本上所有垃圾邮件都被顺利地扔到了垃圾箱,误判率很低。

之前一直意味它是基于文本对比和分析实现的,与网页的相适度分析类似,大量相似的邮件判为垃圾邮件。这种方法是很难做到现在这样的效果的,“道高一尺,魔高一丈”,碰到将邮件内容放到图片里的垃圾邮件就没辙了。

其实与很多邮件系统的反垃圾策略类似,Gmail 也是通过白名单和黑名单对邮件发送者进行过滤,同时用基于内容的分析方法辅助判断,只是这个系统级别的黑白名单建立过程不一样。垃圾邮件可定义为用户不期望收到的邮件,垃圾邮件发送者会发送大量用户不想要的邮件,这一行为特征就是反垃圾邮件的依据。

第一步是要正确识别邮件发送者,Gmail 采用域名(不同于以往的IP)为识别单位,通过 SPF 和 DomainKey 等方式来识别邮件来源的域,分析各个域的邮件行为建立信用制度,来自信用度高的域的邮件被认为是正常邮件,放进收件箱;来自信用度的域的邮件则被认为是垃圾邮件,扔进垃圾箱而不是拒绝接收。对于不能判定域的邮件,或者该域的信用度处于中间模糊状态的邮件,则用基于内容的方式做分析,以此作为下一步学习的基础。

域的信用度是通过来自该域的正常邮件所占的百分比来定义,它的值通过用户不断提交误判的垃圾邮件来修正,逐渐趋于合理。训练良好的信用度一般趋于两个极端:极好和极差,通过设定不同信用阈值对邮件是否是垃圾作出判断。

这种以域为单位的信用评判方式,基于一个假定:即来自于同一个域的用户具有相似的行为。这就要求邮件服务提供商对垃圾邮件进行严格的管制,否则部分用户的垃圾行为会影响到正常用户的使用。比如以前163,sina,sohu等免费邮箱经常被人用来发送垃圾邮件,结果很多国外的邮件服务商直接拒绝它们的信件。Gmail 对用户的邮件发送频率进行了限制,似乎是每天300封,限制了被用来发送垃圾邮件的程度。Gmail 的注册也是受限的(目前在大部分地区仍是这样),需要邀请才行,也一定程度上抵制了垃圾邮件。hotmail 等只提供web界面,同样可以限制垃圾邮件的发送。目前的域的判定方法不能很好地区分转发邮件,Gmail 对被判为垃圾邮件的不进行转发,也是在保护它的信用度。

Gmail凭借稳定增长的用户量,以及用户的积极配合区分垃圾邮件,通过对海量数据的合理分析,已经建立起了合理的信用体系,才做到了现在这样的反垃圾效果。

同一封邮件,对不同的用户会有不同的效果,是否为垃圾邮件不能一概而论,因而还需要对每个用户建立特殊的白名单和黑名单,白名单通常是通讯录(被回复的地址会自动加入),黑名单通常是被举报的地址,这个功能在大多数邮件系统里都有了。

理论上,精确到邮件地址的信用制度效果会更好,但是目前来说这个太难实现,邮件帐号实在太多了,现在一个互联网用户经常会有多个邮箱,全世界的邮件地址多大几十亿,对这么大的对象建立信用度是很难的,或许以后可以实现。另一方面,信用度的建立依赖于对大量数据的统计熟悉,而大部分用户的邮件比较少难以获得好的统计效果。

以上只是我个人对 Gmail 的反垃圾系统的理解,更详细的内容请查看 Sender Reputation in a Large Webmail Service

网友留言:

我来留言