内容简介:金色财经讯本期金色沙龙将以区块链行业数据挖掘和解读为主题,邀请Chaindigg创始人/CEO 叶茂、BTC.com CEO 庄重、PeckShield创始人蒋旭宪、TokenInsight CEO 呼涛、同济金融人工智能协会会长乔烨、链塔智库CEO张翔、港盛科技CTO&联合创始人史亮、拾斗量化创始人牛神、库神COO,联合创始人 张玉等业内知名人士进行观点分享。Chaindigg创始人/CEO 叶茂
金色财经讯本期金色沙龙将以区块链行业数据挖掘和解读为主题,邀请Chaindigg创始人/CEO 叶茂、BTC.com CEO 庄重、PeckShield创始人蒋旭宪、TokenInsight CEO 呼涛、同济金融人工智能协会会长乔烨、链塔智库CEO张翔、港盛科技CTO&联合创始人史亮、拾斗量化创始人牛神、库神COO,联合创始人 张玉等业内知名人士进行观点分享。
Chaindigg创始人/CEO 叶茂
Chaindigg创始人/CEO 叶茂在金色沙龙进行了《数据助力区块链生态健康发展》主题演讲。叶茂是一名连续创业者,北京大学计算机专业博士后,曾就职于Oracle及方正集团。在人工智能、自然语言处理及区块链领域有丰富的经验,已发表高水平学术论文20余篇,申请国内和国际发明专利20余项。以下是叶茂的精彩发言整理:
关于如何用数据助力区块链生态的发展,叶茂首先分享了一组数据:大家知道公链最有名的叫比特币,除了比特币,还有EOS、以太坊等等。这些公链我们做了一个简单的统计,BTC的文本数据,通过节点同步过来,在电脑上看到的文件有240GB大小,EOS有236GB,以太坊195GB。其中195GB只是部分节点的数据,去年以太坊全节点的量已超过1.4T数据。BCH是164GB,LTC是23GB,所以可以看到数据量随着不同公链的加入,数据是不断增长的。
我们以BTC作为例子,BTC的总地址数将要达到5亿个地址,总交易数将要达到4亿条交易,这些地址和交易还在不断的增长,所以这里面的数据是非常丰富的。
接下来,叶茂讲解了数据上怎样去做数据获取、数据清洗,还要把数据进行挖掘和关联。叶茂与Chaindigg团队主要做的服务包含下面四个方面:
第一是对交易平台的KYT服务,让交易平台知道每一条交易是不是有风险,这样就能够让交易平台的安全性得以提升。
第二是对用户,用户包括普通用户和机构,当他的数字资产被盗了或者丢失的时候,通过我们的服务把他的数字货币资产给找回来。
第三是对监管机构,根据我们的数据分析结果,给他做监管的报表和数据决策支持,让监管机构能够更好地去监管区块链行业。因为大家认识到监管是让这个行业健康发展很重要的一个环节。第四方面是对研究机构和量化机构,能够让它们更容易地去使用数据。比如讲到这么多数据,每一个量化团队都要对数据做统计分析,代价非常高。通过我们的工作,使这种底层的工作可以调度化起来。
一、 KYT服务
KYT是风控安全,能够让交易所知道每一笔交易的来龙去脉。比如用户在交易所交易的时候,首先会在交易所里面充币,交易所就要知道充的币有没有风险。比这个币是从暗网充过来的,还是从一个盗币的嫌疑地址过来的。这个币到了交易所以后的风险,可能交易所后续会被追责,或者跟踪到交易所之后,包括公检法机构会到交易所去调证,会有一些事情。交易所希望能够对有问题的数字货币,能够很好地进行处理,这样能够让整个平台比较安全。然后是提现,当用户提现的时候,假设提到暗网购买枪支、毒品,通常带有犯罪的性质,交易所也要了解这里面的风险,提前做一些规避。
看一下数字货币的安全事件,这是跟交易平台相关的。在2017年的时候,安全事件跟2018年对比,已经增长了2.5倍,达到了9亿美金的数量级。这意味着交易所有这种需要,去对交易进行更好的进行监控,避免风险的发生。或者在问题发生之后,能够很好规避或者解决这些问题。我们知道交易所是区块链生态里面很重要的环节,如果交易所出现了盗币行为,会让整体的市场信心受到打击。同时也会涉及到交易所用户的资产,比如之前的门头沟事件,门头沟的币被盗以后,用户的索赔变得非常麻烦,用户的资产会有损失。所以对于市场头部企业,怎样能够将安全做好,不仅是关系到交易所本身,也关系到这个行业里的每一个用户的利益,也与相关企业有关联。
通过KYT,怎样帮交易所提高安全能力呢?我们会在数字货币这条链里面,实时去跟踪,并且解析链里面的数据。解析完以后,就会有不同的交易详情信息出来了,我们会跟踪详情信息,跟内部高风险的地址库进行关联。地址库里面有盗币的地址、暗网的地址,还有一些诈骗地址、赌博地址、涉黑地址,都会在库里面。
有了这个库,跟交易所链上的交易相结合,我们会发现是不是有暗网用户向交易所去充币了,或者有没有用户把交易所的币提到暗网,或者提到一些有风险的盗币地址里面去。这样就从链上的环节,帮交易所做了风控工作。除了这些环节以外,交易所的风控还有内部的服务器安全,这些一块儿结合起来以后,能够整体把安全能力提升起来。
刚刚讲到了高风险的地址库。这个地址库它使用的时候,能够让我们看到在这条区块链上的转账交易,有没有跟有问题的地址发生过关系。或者说这笔交易有没有风险。这个地址库非常重要,在这个上面之前有一些交易所说,能不能开放一些端口,调用这些工作。我们把这些地址做了一些风险的分类,比如这是勒索地址,它的风险等级是多少。把这些信息就可以通过接口接出去,这些接口交易所、钱包方都可以用,监控钱包的出入金或者交易所的出入金有没有问题。
我们还在链上做了监控功能,什么意思呢?比如在比特币的链上,现在有没有发生过一笔大的交易,从外面的一个大户转到了一个交易所,从大户向交易所转一个很大额度的账,本身这个事件就是有参考意义的。因为转账进去以后,通常用这笔资金购买另外的币种或者做另外的事情,会导致行情的变动。
刚刚讲了KYT,包括对风险交易的监控,以及根据风险监控去做这方面的服务。这些服务对于交易所来讲,它可以做成日常的例行检查。比如每周都形成一个报告,在这周里面这个交易所跟多少的暗网地址有交易,跟多少盗币地址有交易,有多少币是有问题的币,是到了交易所里面,又有多少币充到暗网里面去。有了这些信息以后,交易所可以更好地风控。一方面是提前预防,比如当有一些盗币地址跟交易所发生关联的时候,提前在币被盗走之前,就开始关注币的操作。一旦发生盗币行为的时候,及时阻断这方面的路径。
还有一块是做日常的运维分析,有多少黑客盯着交易所,并且在做实验,可以有一些相应的措施。通过这些手段可以使得交易所的安全得以提高,交易所的安全提高,实际上在这个区块链生态里面,降低的盗币的风险,用户的损失也可以进而避免掉。
二、如何追踪与找回被盗的数字货币
刚刚讲了针对交易所的KYT,以及KYT是怎么做的事情。下一步讲一下数字货币的追踪怎么做,如果万一币丢了,被盗了,怎么发现它流到哪里去,甚至把它找回来呢?这个事情通常来讲很难做,因为数字货币本身就是匿名的。比如比特币,比特币几个特点,一个是去中心化,第二是匿名性。它是匿名的,怎样可以知道这些币去了哪,并且追回来呢?
这是我下面要讲的部分。这是一个图,通过这个图可以看到如果有一个地址,这个地址的币被盗走了。通过它可以看到,这个币跑到了哪些钱包。跑到这些钱包以后,后来又跑到了哪些地方。比如刚刚看到的火币、OK、币安,就是一个大的交易所。还会有一些钱包,有一些个人地址。有了这些信息以后,就可以做币流的追踪和追回了。
在整体上,数字货币的公链上会把数据全部拿过来。拿过来以后,会形成一张很大的图谱,这个图谱表现出来的是钱包和钱包的关系,以及钱包里面币的流向关系。这是一张非常大的图,有几亿的顶点,边也有几亿条边。当有一个盗币行为发生了,或者要追踪一个币的信息流的时候,就从大库里面把一张图抽出来,抽出来的子图就是这张图。再配合上刚刚的高风险地址和内部一些已有的地址信息,就能够把这条路径给还原出来。
除了能够追踪币之外,如果数字货币跑到了另外一个地址,黑客再没有动过,怎么办呢?因为他没有动过,意味着在区块链里面,就没有这条路径。我们的做法是把地址给监控起来,监控区块链里面所有的交易,一旦发现从这个地址向其他地址开始转账了,就把这个信息给提醒出来。
看一个具体的例子,是一个交易所被盗币的例子。在去年6月份,韩国最大的数字货币交易平台被盗了价值2亿的数字资产,包括比特币和其他代币。那怎样发现一个交易所被盗呢?就是下面的方法。这里面有很多模式,当一个交易所被盗币的时候,这边列了几个。一个是它会产生一些异常的交易费,因为黑客去盗币的时候,通常希望它的交易尽快被确认。他愿意付比较高的手续费,这样矿工打包的时候,这笔交易会被优先打包,币会回到黑客的钱包。一旦币到了黑客钱包,追回来的可能性就变小。所以交易的时候,可以看到有一些异常的交易,这些交易都是黑客产生的,他盗币的时候为了快速到账,给了高的手续费。第二点,会发现一些高频的交易在里面。什么意思呢?交易所它有很多钱包地址,为了将这些钱包地址的币快速转走,在里面就会很快去形成很多的转币交易,甚至把这些交易跟很多热钱包的地址进行规避,比如会到100个钱包,这样快速把币给转走。
通过这种方式,我们分析出来的结果,跟Bithumb的交易所进行确认,准确率达到了90%以上。我们还原的过程,基本上就是他们被盗币的过程,包括金额也是基本相吻合的。黑客把币盗走以后,没有直接充到别的地方去,而是沉淀到盗币的钱包里面。也就是把这个币放到了一个黑客钱包里面,一直没有动过,从6月份到8月2号前没有任何操作。在8月2号的时候,黑客把70个币转到一个交易所,这个交易所是俄罗斯的交易所。有了这个信息以后,就可以找俄罗斯交涉,有没有可能把这比笔给阻断,看能不能追回,这样就提升了交易所盗币以后的安全性。
讲了数字货币丢失以后怎么追回来,这个工作也是为了能够让区块链很好地去健康发展。如果盗币事件频发,大家的信心会有很大的影响。交易所的利益和个人利益,也会受到很大的影响。
三、数据分析对 数字货币监管的协助
监管部门,特别是中国国内,即使在官方,它一直是关注区块链这个生态的。在前一段时间还出来一些关于区块链行业的规定,但是官方在关注的时候,它们有一个很强的动力去引导往健康的方向发展,但是又需要数据作为支撑。所以我们给官方提供了很多数据支持作用,我们把我们解析出来的数据和报告提供给官方去使用,他们在这个基础上形成了一些决策的参考,很好地引导行业健康的发展。
四、 数据服务如何促进行业发展
在区块链上面有一类数据叫币的数据,也就是链上的数据。我们做数字货币投资的时候,会关注行情数据。比如比特币现在卖2万块钱,再过一段时间卖5万块钱,再卖10万,这些数据是投资者关注的。这些数据之间有没有关联性呢?也就是链上的数据跟行情数据,有没有相关性呢?另外链上的数据,相互之间有没有相关性。我们在这上面做了一些分析和尝试,也会把结果跟大家分享出来。结论是相关性是有的。
先看行情数据,它包含了两类数据。一类是市场行情数据,也就是从交易所获取到的行情。现在我们从五大交易所,包括币安、火币等等,把这些价格拿过来做平均,再跟成交的交易量数据结合,出来一个数据。第二个数据,是我们把数字货币区块链上,比如比特币链上的区块链数据拿过来,把统计分析以后的数据拿过来做行情,后续会看相关度。
除此之外,我们把链上的一些交易所充提币的信息拿过来,我们为什么能知道交易所今天充了多少币,提了多少币呢?这也是刚刚讲到的,我们能够把一些信息给标注出来,这个交易所是OK的,那个交易所是币安的,有了这些信息以后,就知道这个交易所币的流入流出情况。这些信息拿过来以后就可以进行分析,基于这些数据我们做了一些对应的指标,这个指标包含市场换手率,也就是一些新的币发行了,它对交易量的比例情况。还有交易所充币和提币,还有大额地址和小额地址。
2018年之后,从2017年12月份最高点到2018年的时候,我们能够感受到行情是一个不断下降的趋势,价格从2018年初不断的下行,这是从五大交易所拿过来的价格数据平均以后的结果,成交量也是不断的有波峰和波谷。这时候换手率跟行情就有了相关度了,从2017年底开始,陆续有阶梯性的价格,到2018年的时候基本上已经到了底部了。它跟行情数据,就有相关度了,这是链上了数据。怎么把数据用好,去预测价格,是大家可以思考的。充提币的相关系数,这个系数的意思是说,充币更多的时候,提币会变得更多吗?或者充币的额度更大的时候,提币的额度会更大吗?从数据来看,基本上相关度在80%以上。也就是充币和提币的相关度很大,这个数据也是根据五大交易所的数据统计出来了,它避免了特定交易所的影响。
这是财富地址分布,可以看到一个剪刀差的效果。可以看到大额的地址,所谓的大额地址就是这个地址里面的存币量大于某一个币量,比如几千个比特币。小额地址是这个地址里面的比特币小于100个。这两类地址的变化情况能够反映出一些趋势的,小额的地址随着2018年不断攀升,后来又不断变少了。大额地址的量和存币额度,不断的变多了。这一方面意味着很多散户在这种行情下太煎熬,开始逐渐离场,把币抛售了。大户或者长期投资者和机构,在这种情况下开始筑底,把币收过来,大户在这种情况下逐渐的进场。这是从这个维度上看到的结果。
链上活跃度分析,我们可以看到在链上数据跟行情价格数据有很强的相关性。这是链上面的平均交易量跟价格的相关性。这是新增地址的变化,它代表了这个行业的新增的动量,它随着价格的变化,它也有类似的效果。
另外是技术稳定性分析,就是全网的算力、区块的出块时间、交易费、新增区块数量的变化情况。这也是一个剪刀差,也就是全网的算力跟比特币的平均价格是个剪刀差。理论上的解释,随着算力的提升,挖币的速度会更快。随着供应量变大,会导致价格在心理上被挤压。这是新增区块的出块时间,这是平均的交易费,链上数据的交易费跟交易所里面的币的行情高度相关,它是什么原因呢?因为随着行情的变弱,大家在市场里面的积极性都会变弱。比如行情一来,大家又开始转币去交易所卖,这时候平均交易费用就会提升。这里面有一个典型的,2018年6月份有一个异常的点,这个点前面讲过,是在韩国最大交易所的币被盗。被盗以后,很多黑客愿意用很高的交易费去支付转账,所以导致了这么一个小的峰值。
再提一下信心指数,信心指数表明了在这个行业里面,因为行业里面的价格的变化是由资金量驱动的。有更多的资金入场了,价格就会攀升。资金出场了,价格会下降。资金是由什么驱动的呢?资金是由信心驱动的。大家的信心更强了,就愿意用资金去购买数字货币。所以我们编制出来这么一个指数,这里面包含很多指标,包括即期信心指数包含的指标,还有远期信心指数包含的指标。即期和远期分别代表当前情况下用户的信心,和长远对链是不是看好的信心。通过即期信心指数和远期信心指数的编制,我们就得出来最终的综合信心指数。综合的信心指数,即期占了60%,原因是二级市场的行情对即期的信心更加敏感,所以这块的权重会更大一些。这个指标标出来以后,它的取值范围是0到100,50是中位数,小于50代表信心不足,大于50,代表用户信心偏足,越接近100,信心越大。越接近于0,信心越小。
我们发现信心指数它对整个行情是有较好的解释作用的,也就是当即期和远期信心指数下降的时候,通常价格也开始往下走。当这两个指数都往上走的时候,它的价格通常也往上走。我们还看到当即期指数和远期指数出现背离的时候,这时候价格呈现了一种横盘趋势。我们在编制这个指数过程中,因为时间比较短,里面还有很多东西没有调研到。所以在这个指数后续还会不断完善起来,大家入场的时候,拿到了一本数据画册,这里面也有这方面的信息可以参考。另外有了这个指数以后,在后续根据它再做出其他指数,帮助量化基金和投资者拿到一个很丰富的参考。因为纯链上的数据,大家参考意义不是很大。但是有了综合的指标以后,就有参考作用了。
以上就是叶茂所讲的四个方面,一个是对交易所的KYT,一个是对个人机构用户丢币以后,我们可以追踪和找回,然后是针对政府和机构,帮他做监管的数据支持。第四部分,是在这个行业里面,通过我们的数据能力,为行业分析数据结果。通过这四个方面,促进这个行业,用数据让这个行业更健康稳定地去发展。
以上所述就是小编给大家介绍的《Chaindigg创始人叶茂:数据分析可提升交易所安全性 追回被盗数字货币》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 数据分析是什么,如何完善数据分析知识体系
- 大数据分析工程师入门(二十):数据分析方法
- 蚂蚁数据分析平台的演进及数据分析方法的应用
- 数据分析的准备工作:从问题分析到数据清洗
- 数据分析:基于智能标签,精准管理数据
- [译] 每位数据分析师应该要知道的基本数据分析技术
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
HTML 编码/解码
HTML 编码/解码
RGB HSV 转换
RGB HSV 互转工具