ZRobot乔杨:不仅要关注“黑”,更要服务好“白” | CCF-GAIR 2019

0×251C

雷锋网:,第四届全球人工智能与机器人峰会(CCF-GAIR 2019)在深圳正式举行。本次峰会由中国计算机学会主办,雷锋网和香港中文大学(深圳)主办,深圳人工智能与机器人研究所协办。它受到深圳市政府的大力指导,是国内学术界和机器人行业。产业三大领域和投资界的顶级交流展,旨在打造中国人工智能领域强大的跨境交流合作平台。

0×251d

在7月13日的“人工智能金融会议”上,京东数字生态中心信贷管理部总经理兼Zrobot首席执行官杨乔作了题为“数字技术驱动的信用反欺诈技术”的演讲。

Joyang所在的Qrobot成立于2016年11月。他说,公司最初的目的是利用大量高维数据资源,结合业内先进的数据挖掘技术和模型算法,结合jd.com的金融和非黄金业务场景,向银行、保险、信托机构提供数据。中小贷款公司、特许黄金金融租赁公司提供各种数据产品支持和智能风险控制、智能营销解决方案、近300家合作机构。

下面是由雷锋编辑组织的主题演讲全文。

今天的主题是反欺诈,关于人工智能,数据挖掘技术,模型算法和在这个领域的应用。在这一领域有许多探索,但很少有取得实际成果并取得良好效果的案例。

反欺诈意味着滞后,旧模式很难预警新风险

每个人都经常在媒体上看到一些与欺诈有关的骇人听闻的新闻报道,如医疗美容中介欺诈、黑中介欺诈、洗钱等。

随着中国消费信贷和互联网的快速发展,信用产品的种类越来越丰富,欺诈手段也在不断发展。欺诈人群是一群高度智慧和勤奋的人。再加上欺诈预防方法滞后,欺诈案件层出不穷,可谓一高一高。从早期传统的欺诈手段来看,它已逐渐演变成一种新的,更难以发现的新型欺诈手段,如员工早期引诱到目前的潜行机构,我申请信用包装等等。在欺诈领域,通常存在“高度为一英尺,高度为一英尺”的情况。如何实现“魔法高度为一英尺,道路高度为一英尺”,实现欺诈的有效防范?

风控从业人员知道,在信用风险领域,我们最关心的是信用风险和欺诈风险。信用风险得到了很好的理解,最多的是从还款能力和意愿的两个维度来判断。然而,在?壅┓缦樟煊颍嗟淖⒁饬性谝环剑椒剑胶投喾交旌掀壅┥希馐沟闷壅┓缦崭痈丛雍屠选?

由于中国移动互联网的发展,它比欧美一些国家更快,更发达。这导致了欺诈手段的出现,这使得我们在这一领域的反欺诈技术相对滞后。在美国,欺诈损失的比例不到20%,而在中国则为50%甚至更高。因此,在中国,整体信贷环境更加恶劣,防范欺诈风险的重要性更高。在建模方法方面,我们通常定义已知的欺诈案例库,然后构建反欺诈模型,很难进行有效的预警。

例如,当我在美国进行反欺诈时,一位客户在拉斯维加斯的线下BestBuy商店买了一台液晶电视。购买之后,我在周围的麦当劳Drive-Through买了一个汉堡。

我们的交易反欺诈模型实时在线运行,每次用户刷卡时,系统都会计算它是否可以通过。该用户通常在线消费,并且在线消费很少,因此该交易被定义为高度欺诈性的交易。当用户购买麦当劳汉堡时,他的交易遭到拒绝。

用户致电投诉。他说:“如果你怀疑我是骗子,我买电视时为什么不拒绝我的交易呢?相反,当我买2个钱包时,我会拒绝?”说明我们的模型有一定的滞后。

如何识别欺诈环境中的交易对手

对于不同类型的欺诈,我们需要考虑三个方面:了解客户,了解员工以及了解对手。但是,防止欺诈风险必须了解交易中的所有参与者,否则会有遗漏。例如,如果我们只了解员工和反对者,我们将错过第一方欺诈的风险;只知道客户和员工,我们会给黑货,帮派。欺诈等第三方欺诈机会。

右边的不同颜色是与不同类型的欺诈相对应的预防措施。例如,建立健全的内部控制合规系统可以有效地防止内部欺诈。但是,黑色产品识别是反欺诈领域最关键的环节。在这个阶段,ZRobot进行了大量的试验和探索。我们相信通过复杂的技术和复杂的网络+机器学习技术(我们称之为“网络”技术)和欺诈模型识别的点对点组合,特别是我们提出的“斑马”扩散技术是最有效的防御三方欺诈。

首先,反欺诈的核心是证明对方是客户本人。这是第一步也是最关键的一步。

中国移动互联网的高度发展为许多金融机构提供了一个非常有效的工具,可以在捕获有效数据节点的同时与用户进行交互。例如,现在非常成熟的移动应用程序拥有200多个可由前端抓取的用户标签。在此基础上进行一些功能扩展是非常富有想象力的。通过轻量级前端SDK生物探测器部署,捕获用户的多维生物行为以及云中的实时计算和判断,结合传统的人脸,指纹和声纹识别,可以在确保客户体验的同时实现欺诈。风险防范的目的。

这种方法的优点非常明显。例如,不需要硬件支持,不能感知验证过程,不需要用户交互,可以进行连续判断,实现实时风险决策。

与Google的图形学习类似,识别用户的全方位关系,包括设备关联,通信关联等,构建用户关系网络地图,并通过无监督算法将未分化用户划分为不同的组。判断力量和弱点是否设定权重。网络的优势非常明显,在反欺诈领域取得了显着成效。

反欺诈建模的挑战和解决方案

与传统的信用模式相比,欺诈模型的构建具有很大的挑战性。

首先,根据业务知识和丰富的案例识别功能,确定哪些交易被归类为欺诈性交易。在稳定案例库和欺诈数据标记之后用作目标定义。特征工程设计具有大量的数据和计算。近实时数据挖掘包括同时浏览数据,网络行为挖掘,网络借贷和设备环境特征。由于欺诈方法更加多样化,信用风险主要来自还款能力和还款意愿,因此更具体,因此设计了多特征多子模型,模型更新迭代必须跟上变化对于欺诈环境,因此模型部署还应考虑到这一问题,如高频周期模型效应监测,如何构建自适应模型等。

我们在这个领域尝试和探索了什么?

在电子商务领域,用户将在页面上留下很多联系人,例如点击浏览不同级别的页面,但几乎所有深度页面都将转到SKU或单个产品页面,因此我们提出了item2vector概念,类似于文本挖掘领域中的text2vector或Word2vector将文本分类为矢量矩阵,例如高频低频文本,然后执行情感分析,语义分析等。因此,我们在电子商务领域中提取项目并将用户浏览路径转换为矢量形式。我们可以使用向量来描述用户可以在浏览会话中查看的类别或项目。由于浏览按时间顺序排列,我们将整个页面浏览时间序列和向量放入卷积神经网络模型中的处理训练特征中。通过RNN方法,我们改进了大量原始方法,这些方法无法通过人类业务经验或其他建筑特征方法进行细化。特点。这些功能作为机器学习模型的训练功能可以大大提高模型效果。

这是我们深度学习的突破。凭借这种理论基础和我们深入挖掘整个用户肖像标签的能力,我们可以让自己积累经验。

另外,我们来谈谈RNN和LSTM的概念。

RNN的输入维数是样本数,时间序列数,每个时间序列点的维数,输出维可以根据不同的应用场景在一个或多个序列时间点输出不同维的结果;对于XT总T + 1个时间点,每个时间点的维度可以是多维向量。

但是,当序列长度很长时,RNN会出现诸如梯度消失和长期记忆被屏蔽的问题。 LSTM为每个单元添加一个门机制,以确定先前单元信息的范围和单元的新输入信息。单元的输入和输出到下一个单元的程度有效地解决了上述问题并有效地过滤了无用的特征。

具体如何申请?例如:

下图左侧是基于地理位置轨迹的样本数据,主要包括不同时间点不同设备的位置纬度和经度,位置类型和居民分类。通过一系列数据清理和功能处理,可以获得一整套功能。然后通过序列截断,填充,特征标准化,重塑和其他过程输入LSTM模型。左下角是我们使用的LSTM神经网络结构的一个例子。在LSTM LAYER(包括MASK LAYER)之后,输出结果通过两个密集层获得。

这种建模对训练集的影响是什么?

基于以上数据和模型,我们最终评估了对测试集的影响。基于上述地理定位数据,经过清理,处理和建模,KS在我们的风险模型中可以达到0.23。 KS地图和预测分数平均分为10组。测试装置上的升力值如下图所示,效果非常明显。

金融领域的特征工程和建模方法经历了传统的逻辑回归。基于大量统计特征的机器学习方法也被集成到深度学习模型中,这些模型广泛用于自然语言处理,语音和图像领域。地理位置轨迹数据的LSTM模型是金融部门的成功应用。

您可以怀疑这只是理论测试集上的模型结果,那么在实际应用中是否有任何良好的性能?在我们的内部实际数据中,这种建模方法已被用于实际风险中。欺诈分数用于对识别出的人进行分组。欺诈分数最高的群体确定的欺诈群体的欺诈率接近平均比率的4倍。最低组的平均比率为0.05,因此接受的前20%可以将欺诈率降低一半,这是实际效果。

在中国有一句老话叫做“靠近朱哲池,近黑墨水”。我们通常使用的关系在黑场中传播,并且已知欺诈组或用户之间的关系被传播。确定了高风险社区,并且可以将相同的概念应用于白人用户。因此,我们提出的概念不仅要注意黑色,还要服务白色,因为已知的信用非常高,非常好的客户,与他们有非常密切关系的群体,概率也是非常好的质量。客户或潜在的优质客户。

将此概念应用于额外信贷和精准营销领域也可以取得非常好的结果。特别是,获得客户的成本目前很高,并且该技术的前景非常广阔。

刚才我说欺诈分数可以有效识别高风险群体。上述斑马扩散技术通过网络的传播,可以使极端人群成为有效补充,以更好地识别高风险和低风险群体。

实际效果如何?前14%的人散布,欺诈率是平均水平的3.3倍,而后13%只是平均水平的0.3倍。因为他们选择不同的尺寸,所以可以将它与我刚才提到的建模方法结合起来。欺诈分数可以更有效地识别这些高风险和高质量的客户。