顶象学院首页>文章详情

反欺诈之被丢掉的黄金数据

2019-09-03|黄姐姐HJJ 3130

纵观传统银行反欺诈的战术,无外乎三个步骤:发现风险->校验风险->防范风险。

undefined

发现风险:通常是通过内部规则,将疑似高风险进件分发给案件调查人员去核验。

校验风险:通过内部的调查平台,关联关系分析和电话核验(话术)等方式,鉴别是否为真的欺诈进件/中介包装进件等;

防范风险:根据案件表现出来的特征,制定防范策略。

我们来看一个例子。

在2018年,想撸贷但是还想要脸的一批人,很担心自己的通讯录被借贷公司拿过去催收,自己在亲朋好友那里颜面扫地。于是乎,战争开始!

Round 1

撸贷:我们有一个虚假联系人的池子,用一键导入通讯录技术,把一堆假的联系人导入自己的通讯录,嘿嘿嘿,这样看你如何“诋毁”我;

风控:通过对通讯录的号码做关联分析,识别可能的虚假联系人,并积累虚假联系人池子;

黄姐姐:此方法会有一定的误伤。因为虚假联系人池里的号码可能的确是有人真实在用的。高级的黑产会通过自动外呼软件,识别到一些活跃的真实号码(不知道你是否有这个经历,一个电话进来,你刚接,对方就挂断了),而非全部用养卡号码作为虚假联系人池子。当然,也有特别笨的黑产,通讯录作假痕迹明显。例如,在一个项目上,黄姐姐看到一群来自湖北恩施的团伙,涉案人员7人,其手机号归属地和身份证所在地都在湖北恩施,彻头彻尾的“本地人”。此外,他们还有以下特征:

1) 申贷手机都是iPhone;

2) 都在同一个GPS登录过(经纬度精确到小数点后四位);

3) 同一个进件渠道;

4) 网络都为3G(黄姐姐画外音:时代倒退了吗?我是谁?我在哪?)

最有趣的是他们的通讯录表现如下:

Ø 通讯录昵称为四个字的个数都为21。比如:备注为【猫奴黄姐】

Ø 五个字的个数都为334 (比如:备注为【诗人黄姐姐】)

Ø 与自己手机号归属地不在一个城市的个数都是42个

Ø 没有任何亲属称呼,例如,没有“爸”,“妈”,“姨”,“叔”等关键字。(黄姐姐画外音:当然,直接存名字是最安全的通讯录存储方式,但数据显示,没有这类关键词的用户,坏人比例较高。)

Round 2

风控:好的,既然有误伤,那么我们利用运营商数据,通过你的通话行为来鉴别你的通讯录是否是真实的。你总不至于不把常用联系人存储在通讯录中吧?看你如何做假?

撸贷:so easy~~~我用苹果手机,你读不到我的通讯录,妈妈再也不用担心我暴通讯录啦!

Round 3

风控:你想得太美了!我拿到了你的通话详单数据,还怕找不到你的社交关系?不还钱的话,打爆你的联系人,等着名誉扫地吧!

撸贷:早知道你会来这一招,且看我放大招:

【招式一】卖惨:

想必前几天一个截图在圈里得到了一致好(chao)评(xiao),并给这个人颁予了最佳编剧奖,甚至有人把他的片名都想好了——《柬埔寨行动》,上截图:

undefined

是的,这一切都是为了让接到催收电话的亲朋好友以为这是一个意外事故导致的恶意催收,成功洗白!

【招式二】防爆:

我们在闲鱼上搜索“录通讯防爆”(是的,你没有看错,不是“通讯录”,是“录通讯”。不信邪的你搜个“通讯录防爆”试试?bazinga~啥都没搜到是吧!闲鱼:我们是一个合法合规的交易平台[微笑] [微笑] [微笑])

undefined

随便点开一个产品,里面的良心商家介绍了防爆原理,如下:

undefined

undefined

经过三轮攻防战的较量,撸贷团队和风控团队不断升级新装备和新技术,现场演绎了通讯录风控的进化论。这是一个与黑产较量很好的例子,同时也是一个典型的“发现风险->校验风险->防范风险”的反欺诈过程。

那么问题来了,这样不是很好吗?一来一往,其乐无穷!何来标题所谓的“被丢弃的黄金数据”之说?

原因是这样的,事实上,我们通常在做建模或者案件调查的时候,所采用的样本通常是已经通过的人群,或者是可能会被通过需要人工核验的人群。尤其是对已知欺诈进行分析时,一定是有表现的用户,所以毫无疑问,是授信用户。我们往往忽略了一类人群——那些已经被拒绝的用户。我们往往认为,被拒绝的用户是在我们能力范围内可以防范得了的,我们已经无需花时间在这部分用户上。举个例子,一群自以为聪明但实际傻不拉几的黑产来申贷,采用的是同一部手机。他们知道同一部手机的device id相同,所以做了刷机处理。但是我们通过sensor ID[i]技术,得知这就是同一部手机,所以统统拒绝掉了。于是乎,我们将这部分用户丢在一旁,着手研究我们的建模样本——授信用户。

本文中,黄姐姐不想多说建模样本的选择问题,单纯聊聊拒绝用户的价值。在今年6月初的一次线下交流会上,有人问道:我发现黄姐姐对特征的研究特别细致,我想知道,您是怎么想到要用这个特征的呢?为什么要对它做这个衍生?事实上,好用的特征并不都来自于授信用户,有些拒绝用户展现出来的特征可能更明显。所以,有一些攻击形式在还未在授信用户中暴露时,可能就已经在拒绝用户中暴露了。比如,你实际是用“同一部设备多次申请”这个规则拦截了一批人,但你通过分析,会发现其携带着更多信息,例如,你发现他们的通讯录也有异常,就像上面那个例子,所以,你想到要统计通讯录昵称的字符个数(这个特征并不常用)。

再举个?:对短信内容的研究。由于短信内容包含的信息太多,所以目前的研究可能仅限于短信号码的分析和基于关键词的拦截规则。而基于关键词的拦截,我们可能更多的使用例如“贷”、“款”、“最低还款额”、“逾期”等已经烂大街的关键词(事实上,聪明的撸贷团伙早就知道要删除掉这些关键词相关的短信)。在一个项目上,我们对短信内容做了如下处理:

1) 只选取发送短信内容,将其分成三个池子:已拒绝用户;授信并逾期用户(坏用户);授信并非逾期用户(好用户)。

2) 对内容进行最简单的切词操作,例如:2个字,3个字,4个字……

3) 统计三个池子中的词频。

4) 去掉极高的噪声信息,如运营商短信关键词。

5) 不断调整逾期用户:好用户的词频浓度,以及拒绝用户:好用户的词频浓度比例,直到得到满意的结果。

给大家看一下拒绝用户:好用户词频高于2倍,且浓度>=0.0001的结果:

undefined

undefined

Bingo~通过非常简单的操作,是不是一下子多了很多有趣的关键词?要不要在你自己的产品上试用一下呢?

再给大家分享两个我们发现的很有趣的词:“宏观调控”和“走工作”。经过验证,包含这两个词的全部是传销类上下线汇报短信,其逾期率也比平均风险高出3倍以上。

黄姐姐常说,做模型,做到最后都是在做特征。这句话也得到了很多同行的认可。而对特征的研究,除了深入卧底黑产和了解业务知识外,我们也可以单纯借助已有的数据做技术性分析。这样想想看,做模型的同学瞬间满满滴优越感。那么,是不是可以把我们历来都没有重视起来的丢在一旁的已拒绝用户拿来研究一番呢?这些数据在黄姐姐眼里,价值堪比黄金。或许你也可能跟我一样,发现很多有趣的特征哦!

加入社群

扫码进群领
【业务安全】资料礼包

在线咨询
400-878-6123