YT的反广告贴子的策略

广告帖子年年有,最近特别多
至少在几年前,广告帖子就已经存在,当时这些帖子主要是由程序自动登录论坛发布的。有这样的一些人,分析各大论坛程序的登录流程,并收集使用这些论坛程序的网站作为一个数据库,使用程序来批量访问这些网站,在上面发布广告。
对付这些注册机是相对简单的,只要设置一个比较好的注册问题就可以了,最常用的还是验证码。在以前,YT使用自己修改过的验证码机制,几乎挡住了所有的注册机器人(也许是所有的,不过没法精确计算)。在使用了信的验证码机制以后,YT的广告帖子数骤然下降。这种大好局面维持了一段时间以后,就被破坏了。
起初还以为是更新的注册机器人已经绕过了YT的验证码机制,不过据后来的情况分析,这些死灰复燃的垃圾帖子似乎并不是和以前一样是由注册机器人发布的,取代机器人的是——活人。
是活人的话,验证码就形同虚设了。到目前为止,我观察到的广告中QQ华夏的广告占了超过一半的份额。看来腾讯财大气粗啊,有如此多的钱来雇佣活人来发布广告。不过我不太清楚QQ华夏这种广告模式的运作过程,希望知道的人能介绍一下。
既然是活人,自然就不能在注册这一关上做手脚了,于是YT就使用了帖子认证机制。对于新发布的帖子,如果符合预设的条件,则这条帖子不能直接发表,必须审核通过以后才能发表。这样的做法关键就在于如何识别广告帖子。注册人数我倒不在意,发广告的用户总是少数的,我只想看到帖子列表中干干净净的,不要出现广告就好。
现在YT使用的帖子审核机制大致是这样的,一个帖子
1.必须 由发帖数不到20的用户发布
2.且 帖子内容大于一定的字数 (因为广告帖子一般都是长篇大论的)
3.满足以上两个条件后,必须再满足以下几个条件中的其中一个或多个
3.1.帖子中含有预设的关键字
在进行关键字查询时,要先把帖子内容转换成简体中文(或繁体,就看关键字使用的是简体还是繁体)。这是因为我观察到,有些发帖者在第一次发布失败以后,会使用繁体字再发一次,这样就能绕过没有进行繁简统一化的关键字查询程序。
其次,繁简统一化以后,还应该删除帖子内容中的符号和空格,包括全角和半角的。有些发帖者会在一些他们认为的敏感字(如“QQ华夏”)之间加上空格或符号,这也会让关键字查询程序漏过这些关键字
不必担心把帖子中正常的标点符号删除以后,符号前句末字和后句首字会正好组成一个关键词,出现这种情况的可能性是微乎其微的。
3.2 帖子中含有预设的网址
一般来说广告都会附上一个网址,我还没见过一个广告帖子中只说宣传的东西的名字,而不附上一个网址。毕竟没有网址的话广告的效果也没有多大。所以几乎是所有的广告帖子都会有一个网址。而对于同一个宣传对象,其网站的域名基本上都是唯一的,最多也就有几个分域名而已。只要把这个域名作为关键字,就能比较准确地识别出广告帖子。比如我就把“qqhx.qq.com”作为一个关键字。

完成以上的帖子审核机制以后,经过一段时间的观察,把论坛中出现的广告的宣传对象的关键字给加上,基本上就能识别出所有的广告帖子了。
其实YT在使用了上面的验证机制以后,到目前为止还是漏掉了两个广告,内容都是一样的。根据这个广告的内容,我想可以加上一条判断规则
4. 在进行关键字查找前,应该先把火星文替换成普通文字
请看图吧,这就是漏掉的两个广告其中之一,其实我很怀疑会有人去看这广告。当然如果你想连这些广告都封杀的话,可以找个火星文转换字库来写个函数来把火星文转换成普通文字,然后再进行关键字查找。

本文发表于 樱町专栏,并添加了 , , 标记。保存永久链接到书签。

发表评论

电子邮件地址不会被公开。