内容简介:基于时间和地域构建一个网络诈骗形势模型
*本文原创作者:西角边的MR,本文属FreeBuf原创奖励计划,未经许可禁止转载
电信诈骗,网络诈骗层出不穷,花样翻新,是当前公安部重点打击的对象。本文从网络中爬取相关的新闻,通过对时域和数量的统计与分析,实现对网络诈骗模型中时间参量的优化,进而达到提高对于网络诈骗的识别效果的目的。
一、数据的准备
对于网络电信诈骗的发生率,作者要通过新闻中对其提及的次数和对应日期进行统计,以此来表示当前社会对电信网络诈骗的关注热度。首先作者确定统计的参量——时间和地域。对于时间参量,作者以月为分度值,对于地域参量,作者以省为分度值。作者使用正则表达式并计算匹配的次数来对文本进行统计,正则表达式的构成是由设置的时间列表和地域列表单独和两两组合构成。
具体文本可以参照前两篇文章:
下面是统计结果和部分代码:
统计的总内容:
二、数据分析及模型构建
作者对获取的数据进行了归纳,并以月份为单位计算同比增长率,环比增长率,以此来分析网络电信诈骗的特性,从而通过对增长率的分析来构建一个关于时间序列和增长程度的模型。
这是实现增长率统计的部分代码和结果:
图表的具体内容可以参见tableau public中的图表: tableau public
为了能够更加精确的确定电信网络诈骗不同月份之间的相互联系,作者决定对环比增长率进行聚类分析,对时间序列进行回归分析。
首先作者对增长率进行了聚类分析,将其分为五类,对应四级预警模式,由低到高分别为正常、蓝色预警、黄色预警、橙色预警和红色预警。由于在网络诈骗案件中,当前月份和前一月份之间存在一定的联系,所以作者使用无监督聚类的Kmeans算法,保留数据之间的相关性。具体实现方法是将增长率为负的月份确定为正常类别,将增长率大于0的月份分为低速增长,中速增长和高速增长,并进行聚类,下图是实现代码:
对于时间序列的模型构建,首先作者对不同月份增长之间的相互影响进行了分析
通过分析作者发现当正增长率大于1的时候,在下一个月往往会出现负增长情况,当负增长率绝对值大于0.5时,在下一个月往往会出现正增长。因此,作者对比使用了普通最小二乘法(OLS)模型和加权最小二乘法模型(WLS)模型。在WLS模型中,经过不断测试,确定约束条件为当正增长率大于1和负增长率绝对值大0.5时将 其权值缩小为原来的100倍,对于其他情况则以当月增长率为权值,下图为测试结果:
下面是实现代码:
经确定,WLS模型更接近统计平均值,预测值为0.21左右。
三、数据可视化
图表数据不能直观的反映出电信诈骗的地域分布特点,为了确定电信诈骗的分布地域情况,作者使用了excel中的power map和tableau进行可视化统计。Power map和tableau的使用方法可以参照它们的说明。下面是作者的可视化模型:
不同颜色深度代表了网络电信诈骗不同的关注程度。
接下来作者对预警模型进行可视化处理:
四、结论
通过模型反映的趋势,我们发现:
1、从时间模型来看我国当前网络诈骗短期内将呈现低速增长的态势。
2、从地域角度分析南部沿海省份和京津冀是网络诈骗案件的主要受灾区域。
3、从地域角度分析网络电信诈骗高发区域逐渐由南部沿海省份向中部和北部沿海省份,由东部沿海省份向内陆迁徙的趋势。
五、总结
作者通过构建时间序列的回归模型和地域模型,在一定程度上确定了时间和地域对网络诈骗的影响,目的是优化计算诈骗概率时的时间参量,同时增加地域参量,提高反诈骗模型对于信息判断的准确性。在构建时间模型的时候,着重要注意的是不同时间之间的相互影响,改变不同增长率月份对于回归模型的影响权值,通过参数调节来得到一个较为合理的值。在地域分析的时候,着重使用不同的可视化 工具 对数据进行展示,以便于直观的发现数据的变化趋势。
*本文原创作者:西角边的MR,本文属FreeBuf原创奖励计划,未经许可禁止转载
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- [跨地域复制系列](二) Apache Pulsar 的跨地域复制实践
- DLA实现跨地域、跨实例的多AnalyticDB读写访问
- 如何设置根据不同的IP地址所在地域访问不同的服务?
- 第一批 AI 已经开始诈骗
- 堪称奇葩的BTC诈骗案例分析
- 工信部:“机票改签”成电信诈骗新手法
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。