内容简介:正如吴恩达在他关于应用 triplet loss 函数的演讲中指出的那样,在深度学习文献中总是会用到“__Net”或者“Deep__”这样的取名。所以,本着这种“传统”,我也将本文命名为Fraud Net或者Deep Fraud。言归正传,我们还是开始讲欺诈检测吧。
正如吴恩达在他关于应用 triplet loss 函数的演讲中指出的那样,在深度学习文献中总是会用到“__Net”或者“Deep__”这样的取名。所以,本着这种“传统”,我也将本文命名为Fraud Net或者Deep Fraud。
言归正传,我们还是开始讲欺诈检测吧。
图1:包括金融公司常规交易和欺诈交易的图
我们其实关注的是欺诈预测(预防欺诈发生),这个后续我们会说到。今天我们讲,如何把一些先验行为归于二分类目标,换句话说欺诈/非欺诈目标。我们将研究确定某个实体是否进行了交易欺诈的两种方法,第一是使用图的嵌入;第二是使用一些图的Topology Metric。
这里大家可能会有一个疑问,如果交易欺诈已经发生了,那么谁会在乎识别结果?通过学习这篇文章,你会知道这很重要。2015年我曾经提到过,假正(False Positive ,被模型预测为正的负样本)欺诈标签导致了118 billion dollars的损失,而实际欺诈案件的成本为90 亿美元。虽然90亿美元很多,但是只占总成本的7%。所以,准确标记欺诈交易和建立空间站一样重要。
图嵌入——个体欺诈
场景一:提高信用卡欺诈分析 工具 的准确性。
首先,要将你的数据组织成graph。将个人客户和商家作为节点,并将其财务历史作为节点属性。使用节点属性(比如交易时间戳和交易金额)构建表示这些实体之间金融交易的边。
然后,将graph嵌入到低维空间,这样我们才可以使用较为简单的模型来分析它。为什么不直接将graph data输入到模型中呢?因为几何形状不兼容(你可以通过学习Kipf他们的论文《Semi-Supervised Classification with Graph Convolutional Networks》了解我说的意思)。
正如上面所说,节点表示拥有信用卡的个人客户和与他们交易的商户。注意下面的三维结构,大量的边表示金融交易。这真是一个非常需要嵌入的图。
边表示金融交易
embedding的策略有很多,我主要介绍两个常见的,一是主成分分析降低维度(PCA);二是通过特征值分解的spectral embedding(eig)。
图3:这是图2经过两种embedding方法后的呈现,蓝色是PCA;橙色是特征值分解。
最后,我们可以构建一个模型,对经过嵌入的graph进行建模就和普通的深度学习建模一样了。这包括了节点(实体),边,还有上述的坐标信息。建一个分类模型,进行训练就好了。
相关的信用卡欺诈检测数据集:http://mlg.ulb.ac.be
关于上述两个方法,也为大家找来了两种方法的详述内容:
The Principal Components Analysis of a Graph, and its Relationships to Spectral Clustering
https://www.info.ucl.ac.be/~pdupont/pdupont/pdf/ecml04.pdf
Spectral embedding of graphs
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.2297&rep=rep1&type=pdf
使用 Topology metric——团伙欺诈
场景二: 从大量的交易记录中找出洗钱的团伙。 这个问题比分析单个交易记录更有趣。 这不是看离散样本,而是要分析金融交互。 这也是图真正的魅力所在。
看下图,这是一组在财务上互动的公司。颜色代表他们的“community”,由无监督学习算法确定。任务是分析黄色的公司真的是洗钱团伙的幌子吗?
图4:黄色的公司真的是洗钱团伙的幌子吗?
第一步:将数据定义为图结构;
第二步:构建一个算法,提取感兴趣的子图(上图中的彩色社区),并计算每个社区的Topology metric;Topology metric是描述子图形状的,比如一种流行的Topology metric是边的数量,在黄色的子图中,有25条边。这里有很多何种Topology metric,我们为每个子图计算了几十个;
第三步:为每个子图构建这些topology metric的特征向量,以另一种方式连接节点属性。这里是计算子图中所有节点的平均节点属性;
第四步:构建已知标签的目标向量(或者多分类目标矩阵),然后构建模型训练。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。