内容简介:专访|如何打造世界级商用数据
【财新网】(记者张宇哲) 益博睿在海外提供的个人征信服务服务,类似于央行征信中心在国内提供的服务。 益博睿 (Experian)信用服务业务大中华区总经理王蔚峰在接受财新记者采访时表示,在国内的数据行业还处在早期初创的阶段,比较缺乏系统、战略性的行业发展规划,包括数据领域的法治基础设施建设也处于早期,“整个行业出现了不同的市场主体,摸索不同的商业模式。”
在王蔚峰看来,征信行业要取得发展,数据环境是不是准备好了,这是前提。数据环境通常是指根据每个国家不同的经济发展阶段,经济发展越高的国家和地区,银行账户普及率高,数据可见度越好,数据环境越丰富。其中一个是数据质量问题,一个是数据自动化问题。
益博睿脱胎于英国一家百货公司赊销客户的审批部门。这些个人客户是优质客户,彼时该百货公司建议对优质客户不用现金交易,可以赊销。随着计算机技术的发展,益博睿创始人John Peace作为一个程序员,把这样的赊销决策以及逻辑数理化、程序化的模式复制出来,同时将这部分业务独立拆分出来,经过在英国、北美、巴西等全球各国的业务扩张,最终成为今天的益博睿。
目前益博睿作为全球最大的个人征信公司,拥有全球10亿个人信用历史数据,在17个国家设立了个人征信局,包括印度。益博睿年收入45亿美金,是英国的上市公司,总部在都柏林,是英国富时100(FTSE-100)指数的成份股之一。在全球37个国家设有办事处,业务网络伸到80个国家,建立了对当地的公共领域各种信息的监察和实时监控能力,在全球市场具有超过125年的经验积累和37个国家市场的覆盖。
王蔚峰表示,大数据的概念非常庞杂,包括好几个维度,首先数据质量有没有达到可以商用的水平,这里有市场发育和培育过程;另外对于数据环境比较差的非结构化数据,有没有一个技术可以把有用的数据开发出来,这些数据开发出来如何投放到不同的用户场景中,这也是全行业都在寻找的。
益博睿的业务逻辑就是数据搜集、清洗、挖掘、筛选以及大数据的非结构化和结构化、格式化,即通过决策分析工具以及反欺诈 工具 的模型,使得“数据能说话,数据就是益博睿的DNA,核心技能都是围绕数据来构建。”益博睿决策业务分析大中华区总经理郭伟表示。
国内数据库质量很低
在数据质量方面,王蔚峰指出,目前中国的互联网公司本身拥有大量数据,存在许许多多零散的数据库,但数据库的质量很低,充斥着大量垃圾数据、杂芜数据,这些数据库往往是以复制、拷贝的初级形式来融合,造成的结果是数据质量差、重复率高,利用率低,“国内很多大数据公司觉得自己数据库非常好,其实离数据库的商用化还有非常大差距。”
初级的做法是把数据复制来复制去,“但这个做法很落后或者说没有办法可持续发展,因为每次拷贝都会多留一份数据库,但一旦拷贝复制进来之后,数据源的真实性如何?数据源的采集是否合法合规?覆盖面、时效性如何?是否具有相关性?这些因素都决定了数据质量,需要通过很好的数据清洗工具来促进融合,把多个数据库整合成唯一数据库。”王蔚峰表示,这个行业面临很多问题,数据互联互通是其中的一个重要问题。
郭伟亦告诉财新记者,在中国,很多数据是割裂的,“包括政府部门各有各的数据,怎么把它形成合力很关键。”
数据库的互联互通其实是全世界范围都有的问题的,但这并不是简单的互联互通。“这些数据库本来是孤立的,怎么能够把不同的数据库嫁接在一起,以一个通用的标准进行交互,形成一个高覆盖面、可供查询的数据库?”王蔚峰解释称。
他举例说,有一些数据是陈旧的信息,覆盖面是重复的,数据之间没有一个清晰的逻辑,只是堆到一块。这些数据如何进行有效的清洗整合,比如排重或者判定矛盾取舍,这是数据库要达到商用级别时必须解决的问题,“如果不解决这个问题,谈不上数据的互联互通;这涉及另一个重要问题是数据清洗,如何加工数据原材料达到商用级数据质量的数据库,这个问题也亟待解决。”
在中国,中小企业信贷投放难,比较大的问题就是缺乏中小企业的基本信息,中国基本数据的收集还很缺乏。“这是另一个非常有潜力的市场,”王蔚峰介绍说,在中国,数据覆盖面很低,即便是几大电信运营商,最多只覆盖了全国30%—40%的基本征信数据信息。
王蔚峰表示,数据库的融合整合是信息服务提供商的一个必由之路,因为只有强有力的数据环境才能够孕育出强有力的数据分析产品。他援引益博睿的例子称,“益博睿成为全世界最大的个人征信局走的就是一条数据库融合之路,把各国的数据库融合在一起之后,形成了今天世界级的产品。”
在数据自动化方面,郭伟介绍说,小额贷款、消费贷款和小企业贷款的特点是,额度小、业务频繁、期限短,那么这些放贷机构要赚钱就要做到一定规模,“只有让其放贷审批方式做到自动化,90%以上是通过机器审批,甚至债务催收也是机器自动催收,通过这种自动化的审批过程才可以节省很多人力成本。”
比如澳洲联邦银行, 90%以上的信贷业务是自动审批的,这是基于当地的征信环境,澳大利亚征信公司的基础设施环境很好,信息是全面、可靠的。“但在发展中国家,比如中国,个人征信系统还不完整,机构放贷时对个人身份无法识别,必须要有反欺诈手段以及决策分析手段。”
个人征信不应混业经营
在全球范围,益博睿的个人征信是最大的业务板块,在其营收版图中占将近一半,益博睿的数据决策分析业务则来自于个人征信业务。据财新记者了解,目前在国内益博睿尚未取得个人征信服务的牌照,不能收集个人数据,所以在国内需要和当地的一些合作伙伴来合作,从而获得更多的数据支撑。“益博睿严格遵守国内规定,外资企业对合规要求很高。”益博睿决策分析业务大中华区总经理郭伟告诉财新记者。
据王蔚峰介绍,益博睿在中国主要经营四类业务,信用服务、决策分析、反欺诈和身份认证业务、数据质量业务。
王蔚峰表示,以益博睿在国外开展个人征信业务的一百多年的经验看,其前提是业务是独立第三方,同时在世界上各国开展个人征信业务采取以个人明确授权为起点。
其中有一点比较明确,即不能混业经营、跨界经营,对公众进行产品营销或者对公众提供借贷,必须要分开经营,“一旦混业、跨界经营,一是监管难度大,监管不知道里面内含了什么样的业务;二是有很多利益冲突的业务。”王蔚峰称。
王蔚峰指出,中国现在的个人征信行业并不是基于明确的、名正言顺的个人授权,“而是采取背后征信或者是打擦边球的方式。”
背后征信就是不通过被征信主体同意的情况下收集其信息,或者同意不完整、不充分、不明确的情况下收集个人信息,一是涉嫌个人隐私保护问题;二是这种情况下信息的采集可能不全面,“因为它不可能放开手脚去收集各方面的信息;如果一家公司既进行个人征信业务,也提供产品促销和放贷,同时不是一个正面的由个人授权发起的个人信息搜集的征信业务,就有很大的内在结构性的业务风险。”王蔚峰强调。
谈到目前中国的消费者使用各种APP登录时,很多条款并未明确、充分告知个人消费者其搜集的个人信息的用途,个人消费者通常不会去细看那些条款,为了达到一时的便利就点击了“同意”。如果消费者不同意就没办法使用。王蔚峰强调说,“这不是一个充分的授权行为,存在混业问题。一方面提供比如说该APP的主要服务功能,另一方面其在从事个人信息采集,这两方面的业务是混在一起的。这就是为什么益博睿一直强调征信服务应该独立经营,不能混业经营。这个行业的发展一定是基于个人主体授权明确的情况。”
至于如何才是明确授权,王蔚峰表示,首先个人征信是要经过个人授权的,明确说明个人信息系的用途;如果用途范围扩大,通过技术的手段再推送一个第二次授权申请,“比如您的某种个人信息要用于其他某个用途地方,您同意吗?消费者明确同意接受之后,个人征信机构才能用于约定的用途范围。”
王蔚峰介绍说,征信行业的基础设施,包括个人征信政策是否明朗,数据保护立法是否明确?一旦界定下来执法是否严格?部委的规章之间是否平滑衔接?以及各个地区法院的判罚尺度是否一致?“中国现在的情况是技术上已经走在世界前沿了,但是从立法环境上来说可能还处于美国上个世纪的水平,这会制约整体行业发展,公众不能享有更好的征信服务。”■
以上所述就是小编给大家介绍的《专访|如何打造世界级商用数据》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 东风商用车 – IT服务运营中枢一期
- 华为网络人工智能引擎(NAIE)正式商用发布
- 人工智能落地新零售 “刷脸支付”步入成熟商用
- 实体店里体验“刷脸”支付 今年有望迎来大规模商用
- 5G 是时候商用了?| 程序员硬核评测
- 昆腾直击GPFS和Lustre进军商用HPC市场
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
算法:C语言实现
塞奇威克 / 霍红卫 / 机械工业出版社 / 2009-10 / 79.00元
《算法:C语言实现(第1-4部分)基础知识、数据结构、排序及搜索(原书第3版)》细腻讲解计算机算法的C语言实现。全书分为四部分,共16章。包括基本算法分析原理,基本数据结构、抽象数据结构、递归和树等数据结构知识,选择排序、插入排序、冒泡排序、希尔排序、快速排序方法、归并和归并排序方法、优先队列与堆排序方法、基数排序方法以及特殊用途的排序方法,并比较了各种排序方法的性能特征,在进一步讲解符号表、树等......一起来看看 《算法:C语言实现》 这本书的介绍吧!