顶象学院首页>文章详情

直播回顾 | 关联网络如何反团伙欺诈这事儿终于有标准答案了

2022-11-15|小象 2603

11月10日下午15:00顶象数据科学家翼龙带来主题为《关联网络技术在业务安全中的应用》的直播。

直播内容包括常见的团伙欺诈场景、关联网络在反团伙欺诈中的作用、关联网络的技术框架,并就关联图谱构建和复杂网络算法展开了具体的讨论,最后以案例的形式形象地展示了如何将关联网络技术应用到实际的业务中去。

团伙欺诈具备哪些特征?

伴随着移动互联网等技术的发展以及新型支付方式的普及,出现了越来越多有着明确分工和缜密作战计划的欺诈团伙,他们娴熟运用各类技术升级欺诈手段,从线下到线上对各个业务场景展开立体化的攻击,对业务安全带来了挑战。

2019年3月,南京鼓楼警方通报称,近日警方打掉了一个专门骗取银行贷款的团伙,抓获嫌疑人7名,涉案金额近百万元。经调查该诈骗团伙已形成了完整的犯罪链条,该团伙中,上游主要负责给贷款人“洗脑”,让其同意向银行骗取车贷;中游负责伪造贷款材料,指导贷款人如何申请贷款;下游负责联系买家,快速将新车倒卖套现。

同年12月,海南警方成功破获“6.06信用卡诈骗案”,共抓获犯罪嫌疑人12名,查处犯罪窝点5处,扣押POS机300余部,银行卡1700余张,初步统计涉案金额达5亿元人民币。经查,该团伙从非法收集公民个人信息到违规办理信用卡到利用POS机非法套取现金再到“养卡”,整个过程层级分明、分工明确。

此前,我们曾在第五讲《保险代打卡对抗实战》中提到保险行业虚拟打卡的风险。为了提升业绩,保险公司往往对表现优异的代理人团队提供高额的奖励和佣金。为了骗取这些奖励和佣金,某些代理人团队就会铤而走险,以虚假增员、虚开保单、虚假打卡等手段来伪造业绩,给保险公司带来了巨额的经济损失。在第七讲、第八讲谈及的电商行业中,也涉及团伙欺诈:黑产团伙会利用其技术优势,抢取电商发放的大额优惠券,然后分销获利。

undefined

类似的案例数不胜数。在百度输入团伙欺诈,其相关案例多达74839条,且从以上案例不难看出,团伙欺诈往往具有组织团伙化、内外勾结化、攻击隐蔽化和手段复杂化的特点。

undefined

传统的反欺诈手段往往依赖于独立个体的反欺诈评分等方式,这些方式简单粗暴,非黑即白,没有充分利用个体与个体之间、个体在时间轴上的行为演变、个体在不同产品上的表现差异等更能反映全盘风险的信息,不能随着外部环境的变化而自动调整,无法对有潜在风险的用户进行动态科学判定,更无法对信用逐步恶化用户及时止损。

此外,传统的反欺诈手段往往是以专家驱动的形式进行的,他们主要依赖于业务专家的专家经验,这样的防控机制效率比较低。并且,传统的反欺诈手段往往过度依赖于外部数据,比如人行的征信数据和第三方数据等等,对于自身积累的客户数据反而利用和挖掘得不够。

undefined

为了克服这些局限性,更好地应对团伙欺诈带来的风险,人们开始把眼光投向了关联网络技术。关联网络技术指的是通过关联图谱识别团伙欺诈、补充个体风险的识别能力。所谓图谱指的是由节点和节点之间错综复杂的关系构成的拓扑网络。关联网络技术的精髓就在于能够利用复杂网络算法对复杂的关联关系进行非线性的建模。

undefined

关联网络的技术框架

一个基于关联网络的反团伙欺诈解决方案通常由关联图谱构建、关联关系挖掘、图谱展示查询和风险监测运营四个部分组成,通过充分挖掘客户自有数据的价值,建立起以数据和算法为驱动的风险防控机制。

undefined

从上图可以看到,整个关联网络的解决方案以业务数据为核心形成闭环。怎么理解呢?

首先,从业务数据出发,我们可以构建出关联图谱。在图谱之上,我们运用各类图算法进行关联关系的挖掘,输出风险名单,以图谱的形式进行展示,并提供可视化的操作界面来辅助风控人员进行风险的日常监测和运营。在这个过程中,又会不断的积累出新的业务数据。

此外,风控人员会对关联网络输出的风险名单进行人工确认。这些经过人工达标后的标签数据也会成为业务数据一部分,后续可用于优化算法,这便是一个闭环的路径。

以网贷进件申请为例,我们重点关注关联网络技术是如何和实际的业务流程相结合的。从图中可以看到,当一个网贷进件申请进入行内的时候,会通过一系列的审批规则进行自动化审批。在这个过程中,通过关联图谱可以判断该申请人是否和已知的团伙有关联,如果有,则会提取出相关团伙的欺诈指标。通过策略和模型的形式预测风险,对那些风险比较高的申请会进一步进入到人工审批环节。在人工审批的环节,审批人员能够实时查询关联图谱,以可视化、交互式的方式去排查风险,最终通过或者拒绝。

undefined

关联网络的技术流程

通常在应用关联网络技术时,第一步是构建关联图谱。在这一环节,我们需要设计图谱中包含哪些类型的节点以及它们之间的关系,然后将业务数据加工成所需要的节点。

undefined

在这个过程中,有时我们需要用到模糊匹配,特别是涉及到家庭地址、公司地址等一类地址信息的时候,有时我们还需要补全隐含关系。比如,两个客户如果都有同一个公司地址,那么他们很可能是同事关系,有时候,我们就需要把这种同事关系标注出来。

构建完图谱之后,就进入第二步——关联关系的挖掘。它有两类常见的场景:风险传播和团伙挖掘。所谓风险传播是指根据已知的欺诈节点进行风险的传导计算,识别出与风险节点相关联的节点。而团伙挖掘算法是利用社区发现等算法将网络中的节点划分成各个具有聚集性的社区。然后计算风险指标,这些风险指标大致分为两类,一类是跟网络的拓朴结构相关,如节点的一度关系;第二类指标是社区类指标,如社区内的历史逾期指标。计算指标之后,利用策略或者模型对之前算法挖掘出的风险节点和风险团伙进行进一步预测,识别出高风险的节点和高风险的团伙。

在关联关系挖掘完成之后,进入第三步——分析及应用。将关联关系挖掘出的结果,配制成风控策略;或者以图谱的形式展示风险名单,并提供查询、分析等功能,用于实时的风险监控和案件溯源。

那么,具体来看,关联图谱如何构建?又需要掌握哪些算法?

如何构建关联图谱?

在介绍关联图谱构建之前,我们还需要进一步明确什么是关联图谱,这就不得不提及到知识图谱。

知识图谱起源于20世纪70年代的专家系统和支持工程,直到2012年谷歌推出了面向互联网搜索的大规模知识图谱之后,才正式宣告诞生。

undefined

狭义的知识图谱特指一类知识表示本质上是一种大规模的语义网络。语义网络是一种通过点和边表示知识的方式,知识图谱中的边可以分为属性与关系两类。当实体的某个属性值也是一个实体时,这个属性实质上就是关系。

广义的知识图谱是大数据时代知识工程一系列技术的总称。2017年我国首次出现了知识图谱学科方向,其定位是“大规模知识工程”。

基于知识图谱可以进行完成搜索、推荐、问答和推理等工作。

根据覆盖知识范围的不同,知识图谱一般可以分为通用知识图谱和领域知识图谱。零售金融知识图谱就是面向金融机构零售业务的领域知识图谱,其核心在于以用户为中心,跨渠道、跨业务、跨产品、跨场景,基于业务逻辑整合全行级数据。

undefined

利用零售金融知识图谱,能够有效地帮助银行客户解决现有系统中数据分散、无法联动的问题,并以图谱的方式将数据与关系围绕着客户可视化方式展示出来,给予运营人员更加直观的数据探索模式,进而提高人工分析的效率与准确性。

那么,什么是关联图谱呢?关联图谱和知识图谱又有什么差异呢?

关联图谱,可以理解为以图的形式表示的知识图谱。知识图谱除了图以外,还有三元组、实值向量等表示形式。

undefined

相比之下,知识图谱覆盖面广,规模更大,更强调“知识”,即一个概念可以实例化出哪些实体、它们有哪些属性。而关联图谱往往是知识图谱的一个子集,仅覆盖一定的业务范围,并且更强调实体之间的关系,甚至可以是隐含的关系。

在实际运用算法挖掘关联关系之前,往往需要利用隐含的关系,将复杂的关系图谱进一步简化为同构图或二部图。

比如说在一个基本要素网络中,有身份证、手机号、设备等节点。根据同一个身份证关联的手机号和设备,可以构建出一个设备和手机号的共现网络。

对于交易数据,则可以把一笔交易的转出帐号和转入账号进行关联,从而形成一个资金流向的网络。

类似地,对于网贷申请,基于两份申请是否有同样的IP,或者是两个申请人是否就职于同一家公司等关联,我们可以构建出申请之间的关联网络,从中发现具有欺诈性的团伙。

关联网络有哪些复杂算法?

下图为常见的基于图数据的挖掘方向:

undefined

下面我们就其中常见的几类算法展开介绍。

1)社区发现指的是一类从关联图谱中自动挖掘出群聚社区的算法。社区发现既可以是半监督式的,但更常见的是无监督式的。在一般情形下,聚集并不一定意味着风险;但对于金融这种社交属性很弱的场景来说,聚集往往意味着风险。

undefined

对于一个好的社区发现结果,我们希望每个社区内部节点联系紧密,而社区之间的连接较为稀疏,因此定义模块度(Modularity)来衡量社区的紧密程度,用Q表示。模块度可以简单理解为社区内部节点的连接边数与随机情况下边数的之差,值越大越好。模块度的定义并不是唯一的。

以最大化全局模块度Q为目标,就有了经典的Louvain算法。Louvain分为两个阶段并且循环往复:

第一个阶段遍历网络中的节点,将各个节点分配到相邻社区使得模块度增益最大,直到所有节点都不再变化;

第二个阶段将生成的社区看作一个新的节点,边的权重重新计算为两个新的节点内所有原始节点的权重之和。

重复这两个阶段直到整个图的模块度稳定。
2)标签传播是基于关联图谱的半监督学习方式。主要目的是利用已标记的节点去预测为标记的节点的标签。在标签传播的过程中,各个节点根据周围节点标签的加权来更新自己标签的概率分布,当所有节点的概率分布趋于稳定之后停止更新。

标签传播算法也可以被用于社区划分,初始需要假设每个节点都各属于独立的类别。

undefined

3)节点中心度。在网络中,越是活跃或趋于网络中心的位置的人,在网络中的重要性越高。在社交网络中,活跃的节点通常意味着更强的社交能力;但在风控领域,活跃的节点通常意味着较大的风险。

undefined

计算该类中心度的图算法有PageRank、Laplacian Centrality 等等。其中,PageRank算法作为计算互联网网页重要度的算法被提出,如图所示,图中节点代表网页,箭头代表超级链接,百分比的大小代表网页的重要程度。PageRank值依赖于网络的拓扑结构,一旦网络的拓扑(连接关系)确定,PageRank值就确定。

4)图嵌入和图神经网络。

图嵌入旨在通过学习图的结构或节点之间的邻接关系,对节点进行编码,将所有节点映射为等维度的向量,使其能够方便地应用于下游的聚类、分类等任务。

图嵌入属于无监督学习算法,常见的图嵌入算法包括DeepWalk和Node2Vec等,前者的主要思想是通过随机游走生成节点序列,然后采用类似Word2Vec的计算方法,计算节点的嵌入式表示;后者是对前者的优化。

undefined

图嵌入有以下几点不足:

1)节点表示学习过程中,没有共享的参数。因为训练过程中,其参数的学习与网络的节点数量相关。

2)图嵌入算法训练过程中,图嵌入利用图的拓扑结构信息为节点训练表示,没有考虑节点的属性信息。

3)图嵌入算法属于直推式学习,而非归纳式学习。因而其要求所有节点在训练学习期间存在,因此,不适用于图中节点不断变化的动态图。

在这之后,受于卷积神经网络在图像处理取得巨大成功的启发,加上图嵌入的思想,图嵌入算法逐渐过渡到图神经网络时代,涌现出一大批优质的图神经网络模型,在工业界大放异彩。

从此,基于神经网络的图嵌入算法不再仅仅局限于节点的邻接信息,而开始将节点本身的特征纳入模型考量,并逐渐从静态的直推式(transductive) 学习向动态的归纳式 (inductive) 学习演变,无论是拟合能力还是泛化能力,都大大提升。

图神经网络的主要思想,是聚集某节点邻居的特征信息,并通过聚合函数学习该节点的embedding。图神经网络的最大贡献是将卷积计算扩展到图数据中,使卷积神经网络可以应用到“不规整”的数据结构上。所谓“不规整”,指的是在图中一个节点可以有任意多个邻居节点;而在图像中,一个节点的邻居节点数目是固定的,例如当采用3╳3的卷积核时,中间的节点一定有8个邻居节点。

undefined

由于可解释性、计算复杂度等限制,图神经网络尚未被广泛地应用于业务安全领域。

关于关联网络技术在实际业务中的应用案例,后续可关注顶象视频号获取,这里就不再赘述。

最后再给大家简单介绍下顶象业务安全大讲堂。

顶象业务安全大讲堂汇集了业内大咖,分享万亿级业务安全攻防经验,打造时下最专业的业务安全直播课,通过“技术+方案+实践”三大核心专题,带您全面了解金融、互联网、航旅出行、跨境电商以及目前大热的NFT等各类业务风险及防范手段,深入解析背后的产品技术,抽丝剥茧攻防实战,助您打造零风险的数字业务。

undefined

下期将由顶象人工智能专家&研发总监无常带来主题为《业务安全平台核心模块解析——智能模型平台》,敬请期待!

加入社群

扫码进群领
【业务安全】资料礼包

在线咨询
400-878-6123