内容简介:专访|如何打造世界级商用数据
【财新网】(记者张宇哲) 益博睿在海外提供的个人征信服务服务,类似于央行征信中心在国内提供的服务。 益博睿 (Experian)信用服务业务大中华区总经理王蔚峰在接受财新记者采访时表示,在国内的数据行业还处在早期初创的阶段,比较缺乏系统、战略性的行业发展规划,包括数据领域的法治基础设施建设也处于早期,“整个行业出现了不同的市场主体,摸索不同的商业模式。”
在王蔚峰看来,征信行业要取得发展,数据环境是不是准备好了,这是前提。数据环境通常是指根据每个国家不同的经济发展阶段,经济发展越高的国家和地区,银行账户普及率高,数据可见度越好,数据环境越丰富。其中一个是数据质量问题,一个是数据自动化问题。
益博睿脱胎于英国一家百货公司赊销客户的审批部门。这些个人客户是优质客户,彼时该百货公司建议对优质客户不用现金交易,可以赊销。随着计算机技术的发展,益博睿创始人John Peace作为一个程序员,把这样的赊销决策以及逻辑数理化、程序化的模式复制出来,同时将这部分业务独立拆分出来,经过在英国、北美、巴西等全球各国的业务扩张,最终成为今天的益博睿。
目前益博睿作为全球最大的个人征信公司,拥有全球10亿个人信用历史数据,在17个国家设立了个人征信局,包括印度。益博睿年收入45亿美金,是英国的上市公司,总部在都柏林,是英国富时100(FTSE-100)指数的成份股之一。在全球37个国家设有办事处,业务网络伸到80个国家,建立了对当地的公共领域各种信息的监察和实时监控能力,在全球市场具有超过125年的经验积累和37个国家市场的覆盖。
王蔚峰表示,大数据的概念非常庞杂,包括好几个维度,首先数据质量有没有达到可以商用的水平,这里有市场发育和培育过程;另外对于数据环境比较差的非结构化数据,有没有一个技术可以把有用的数据开发出来,这些数据开发出来如何投放到不同的用户场景中,这也是全行业都在寻找的。
益博睿的业务逻辑就是数据搜集、清洗、挖掘、筛选以及大数据的非结构化和结构化、格式化,即通过决策分析工具以及反欺诈 工具 的模型,使得“数据能说话,数据就是益博睿的DNA,核心技能都是围绕数据来构建。”益博睿决策业务分析大中华区总经理郭伟表示。
国内数据库质量很低
在数据质量方面,王蔚峰指出,目前中国的互联网公司本身拥有大量数据,存在许许多多零散的数据库,但数据库的质量很低,充斥着大量垃圾数据、杂芜数据,这些数据库往往是以复制、拷贝的初级形式来融合,造成的结果是数据质量差、重复率高,利用率低,“国内很多大数据公司觉得自己数据库非常好,其实离数据库的商用化还有非常大差距。”
初级的做法是把数据复制来复制去,“但这个做法很落后或者说没有办法可持续发展,因为每次拷贝都会多留一份数据库,但一旦拷贝复制进来之后,数据源的真实性如何?数据源的采集是否合法合规?覆盖面、时效性如何?是否具有相关性?这些因素都决定了数据质量,需要通过很好的数据清洗工具来促进融合,把多个数据库整合成唯一数据库。”王蔚峰表示,这个行业面临很多问题,数据互联互通是其中的一个重要问题。
郭伟亦告诉财新记者,在中国,很多数据是割裂的,“包括政府部门各有各的数据,怎么把它形成合力很关键。”
数据库的互联互通其实是全世界范围都有的问题的,但这并不是简单的互联互通。“这些数据库本来是孤立的,怎么能够把不同的数据库嫁接在一起,以一个通用的标准进行交互,形成一个高覆盖面、可供查询的数据库?”王蔚峰解释称。
他举例说,有一些数据是陈旧的信息,覆盖面是重复的,数据之间没有一个清晰的逻辑,只是堆到一块。这些数据如何进行有效的清洗整合,比如排重或者判定矛盾取舍,这是数据库要达到商用级别时必须解决的问题,“如果不解决这个问题,谈不上数据的互联互通;这涉及另一个重要问题是数据清洗,如何加工数据原材料达到商用级数据质量的数据库,这个问题也亟待解决。”
在中国,中小企业信贷投放难,比较大的问题就是缺乏中小企业的基本信息,中国基本数据的收集还很缺乏。“这是另一个非常有潜力的市场,”王蔚峰介绍说,在中国,数据覆盖面很低,即便是几大电信运营商,最多只覆盖了全国30%—40%的基本征信数据信息。
王蔚峰表示,数据库的融合整合是信息服务提供商的一个必由之路,因为只有强有力的数据环境才能够孕育出强有力的数据分析产品。他援引益博睿的例子称,“益博睿成为全世界最大的个人征信局走的就是一条数据库融合之路,把各国的数据库融合在一起之后,形成了今天世界级的产品。”
在数据自动化方面,郭伟介绍说,小额贷款、消费贷款和小企业贷款的特点是,额度小、业务频繁、期限短,那么这些放贷机构要赚钱就要做到一定规模,“只有让其放贷审批方式做到自动化,90%以上是通过机器审批,甚至债务催收也是机器自动催收,通过这种自动化的审批过程才可以节省很多人力成本。”
比如澳洲联邦银行, 90%以上的信贷业务是自动审批的,这是基于当地的征信环境,澳大利亚征信公司的基础设施环境很好,信息是全面、可靠的。“但在发展中国家,比如中国,个人征信系统还不完整,机构放贷时对个人身份无法识别,必须要有反欺诈手段以及决策分析手段。”
个人征信不应混业经营
在全球范围,益博睿的个人征信是最大的业务板块,在其营收版图中占将近一半,益博睿的数据决策分析业务则来自于个人征信业务。据财新记者了解,目前在国内益博睿尚未取得个人征信服务的牌照,不能收集个人数据,所以在国内需要和当地的一些合作伙伴来合作,从而获得更多的数据支撑。“益博睿严格遵守国内规定,外资企业对合规要求很高。”益博睿决策分析业务大中华区总经理郭伟告诉财新记者。
据王蔚峰介绍,益博睿在中国主要经营四类业务,信用服务、决策分析、反欺诈和身份认证业务、数据质量业务。
王蔚峰表示,以益博睿在国外开展个人征信业务的一百多年的经验看,其前提是业务是独立第三方,同时在世界上各国开展个人征信业务采取以个人明确授权为起点。
其中有一点比较明确,即不能混业经营、跨界经营,对公众进行产品营销或者对公众提供借贷,必须要分开经营,“一旦混业、跨界经营,一是监管难度大,监管不知道里面内含了什么样的业务;二是有很多利益冲突的业务。”王蔚峰称。
王蔚峰指出,中国现在的个人征信行业并不是基于明确的、名正言顺的个人授权,“而是采取背后征信或者是打擦边球的方式。”
背后征信就是不通过被征信主体同意的情况下收集其信息,或者同意不完整、不充分、不明确的情况下收集个人信息,一是涉嫌个人隐私保护问题;二是这种情况下信息的采集可能不全面,“因为它不可能放开手脚去收集各方面的信息;如果一家公司既进行个人征信业务,也提供产品促销和放贷,同时不是一个正面的由个人授权发起的个人信息搜集的征信业务,就有很大的内在结构性的业务风险。”王蔚峰强调。
谈到目前中国的消费者使用各种APP登录时,很多条款并未明确、充分告知个人消费者其搜集的个人信息的用途,个人消费者通常不会去细看那些条款,为了达到一时的便利就点击了“同意”。如果消费者不同意就没办法使用。王蔚峰强调说,“这不是一个充分的授权行为,存在混业问题。一方面提供比如说该APP的主要服务功能,另一方面其在从事个人信息采集,这两方面的业务是混在一起的。这就是为什么益博睿一直强调征信服务应该独立经营,不能混业经营。这个行业的发展一定是基于个人主体授权明确的情况。”
至于如何才是明确授权,王蔚峰表示,首先个人征信是要经过个人授权的,明确说明个人信息系的用途;如果用途范围扩大,通过技术的手段再推送一个第二次授权申请,“比如您的某种个人信息要用于其他某个用途地方,您同意吗?消费者明确同意接受之后,个人征信机构才能用于约定的用途范围。”
王蔚峰介绍说,征信行业的基础设施,包括个人征信政策是否明朗,数据保护立法是否明确?一旦界定下来执法是否严格?部委的规章之间是否平滑衔接?以及各个地区法院的判罚尺度是否一致?“中国现在的情况是技术上已经走在世界前沿了,但是从立法环境上来说可能还处于美国上个世纪的水平,这会制约整体行业发展,公众不能享有更好的征信服务。”■
以上所述就是小编给大家介绍的《专访|如何打造世界级商用数据》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 东风商用车 – IT服务运营中枢一期
- 华为网络人工智能引擎(NAIE)正式商用发布
- 人工智能落地新零售 “刷脸支付”步入成熟商用
- 实体店里体验“刷脸”支付 今年有望迎来大规模商用
- 5G 是时候商用了?| 程序员硬核评测
- 昆腾直击GPFS和Lustre进军商用HPC市场
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Probability and Computing
Michael Mitzenmacher、Eli Upfal / Cambridge University Press / 2005-01-31 / USD 66.00
Assuming only an elementary background in discrete mathematics, this textbook is an excellent introduction to the probabilistic techniques and paradigms used in the development of probabilistic algori......一起来看看 《Probability and Computing》 这本书的介绍吧!