专访|如何打造世界级商用数据

栏目: 数据库 · 发布时间: 8年前

内容简介：专访|如何打造世界级商用数据

【财新网】（记者张宇哲） 益博睿在海外提供的个人征信服务服务，类似于央行征信中心在国内提供的服务。益博睿（Experian）信用服务业务大中华区总经理王蔚峰在接受财新记者采访时表示，在国内的数据行业还处在早期初创的阶段，比较缺乏系统、战略性的行业发展规划，包括数据领域的法治基础设施建设也处于早期，“整个行业出现了不同的市场主体，摸索不同的商业模式。”

在王蔚峰看来，征信行业要取得发展，数据环境是不是准备好了，这是前提。数据环境通常是指根据每个国家不同的经济发展阶段，经济发展越高的国家和地区，银行账户普及率高，数据可见度越好，数据环境越丰富。其中一个是数据质量问题，一个是数据自动化问题。

益博睿脱胎于英国一家百货公司赊销客户的审批部门。这些个人客户是优质客户，彼时该百货公司建议对优质客户不用现金交易，可以赊销。随着计算机技术的发展，益博睿创始人John Peace作为一个程序员，把这样的赊销决策以及逻辑数理化、程序化的模式复制出来，同时将这部分业务独立拆分出来，经过在英国、北美、巴西等全球各国的业务扩张，最终成为今天的益博睿。

目前益博睿作为全球最大的个人征信公司，拥有全球10亿个人信用历史数据，在17个国家设立了个人征信局，包括印度。益博睿年收入45亿美金，是英国的上市公司，总部在都柏林，是英国富时100（FTSE-100）指数的成份股之一。在全球37个国家设有办事处，业务网络伸到80个国家，建立了对当地的公共领域各种信息的监察和实时监控能力，在全球市场具有超过125年的经验积累和37个国家市场的覆盖。

王蔚峰表示，大数据的概念非常庞杂，包括好几个维度，首先数据质量有没有达到可以商用的水平，这里有市场发育和培育过程；另外对于数据环境比较差的非结构化数据，有没有一个技术可以把有用的数据开发出来，这些数据开发出来如何投放到不同的用户场景中，这也是全行业都在寻找的。

益博睿的业务逻辑就是数据搜集、清洗、挖掘、筛选以及大数据的非结构化和结构化、格式化，即通过决策分析工具以及反欺诈工具的模型，使得“数据能说话，数据就是益博睿的DNA，核心技能都是围绕数据来构建。”益博睿决策业务分析大中华区总经理郭伟表示。

国内数据库质量很低

在数据质量方面，王蔚峰指出，目前中国的互联网公司本身拥有大量数据，存在许许多多零散的数据库，但数据库的质量很低，充斥着大量垃圾数据、杂芜数据，这些数据库往往是以复制、拷贝的初级形式来融合，造成的结果是数据质量差、重复率高，利用率低，“国内很多大数据公司觉得自己数据库非常好，其实离数据库的商用化还有非常大差距。”

初级的做法是把数据复制来复制去，“但这个做法很落后或者说没有办法可持续发展，因为每次拷贝都会多留一份数据库，但一旦拷贝复制进来之后，数据源的真实性如何？数据源的采集是否合法合规？覆盖面、时效性如何？是否具有相关性？这些因素都决定了数据质量，需要通过很好的数据清洗工具来促进融合，把多个数据库整合成唯一数据库。”王蔚峰表示，这个行业面临很多问题，数据互联互通是其中的一个重要问题。

郭伟亦告诉财新记者，在中国，很多数据是割裂的，“包括政府部门各有各的数据，怎么把它形成合力很关键。”

数据库的互联互通其实是全世界范围都有的问题的，但这并不是简单的互联互通。“这些数据库本来是孤立的，怎么能够把不同的数据库嫁接在一起，以一个通用的标准进行交互，形成一个高覆盖面、可供查询的数据库？”王蔚峰解释称。

他举例说，有一些数据是陈旧的信息，覆盖面是重复的，数据之间没有一个清晰的逻辑，只是堆到一块。这些数据如何进行有效的清洗整合，比如排重或者判定矛盾取舍，这是数据库要达到商用级别时必须解决的问题，“如果不解决这个问题，谈不上数据的互联互通；这涉及另一个重要问题是数据清洗，如何加工数据原材料达到商用级数据质量的数据库，这个问题也亟待解决。”

在中国，中小企业信贷投放难，比较大的问题就是缺乏中小企业的基本信息，中国基本数据的收集还很缺乏。“这是另一个非常有潜力的市场，”王蔚峰介绍说，在中国，数据覆盖面很低，即便是几大电信运营商，最多只覆盖了全国30%—40%的基本征信数据信息。

王蔚峰表示，数据库的融合整合是信息服务提供商的一个必由之路，因为只有强有力的数据环境才能够孕育出强有力的数据分析产品。他援引益博睿的例子称，“益博睿成为全世界最大的个人征信局走的就是一条数据库融合之路，把各国的数据库融合在一起之后，形成了今天世界级的产品。”

在数据自动化方面，郭伟介绍说，小额贷款、消费贷款和小企业贷款的特点是，额度小、业务频繁、期限短，那么这些放贷机构要赚钱就要做到一定规模，“只有让其放贷审批方式做到自动化，90%以上是通过机器审批，甚至债务催收也是机器自动催收，通过这种自动化的审批过程才可以节省很多人力成本。”

比如澳洲联邦银行， 90%以上的信贷业务是自动审批的，这是基于当地的征信环境，澳大利亚征信公司的基础设施环境很好，信息是全面、可靠的。“但在发展中国家，比如中国，个人征信系统还不完整，机构放贷时对个人身份无法识别，必须要有反欺诈手段以及决策分析手段。”

个人征信不应混业经营

在全球范围，益博睿的个人征信是最大的业务板块，在其营收版图中占将近一半，益博睿的数据决策分析业务则来自于个人征信业务。据财新记者了解，目前在国内益博睿尚未取得个人征信服务的牌照，不能收集个人数据，所以在国内需要和当地的一些合作伙伴来合作，从而获得更多的数据支撑。“益博睿严格遵守国内规定，外资企业对合规要求很高。”益博睿决策分析业务大中华区总经理郭伟告诉财新记者。

据王蔚峰介绍，益博睿在中国主要经营四类业务，信用服务、决策分析、反欺诈和身份认证业务、数据质量业务。

王蔚峰表示，以益博睿在国外开展个人征信业务的一百多年的经验看，其前提是业务是独立第三方，同时在世界上各国开展个人征信业务采取以个人明确授权为起点。

其中有一点比较明确，即不能混业经营、跨界经营，对公众进行产品营销或者对公众提供借贷，必须要分开经营，“一旦混业、跨界经营，一是监管难度大，监管不知道里面内含了什么样的业务；二是有很多利益冲突的业务。”王蔚峰称。

王蔚峰指出，中国现在的个人征信行业并不是基于明确的、名正言顺的个人授权，“而是采取背后征信或者是打擦边球的方式。”

背后征信就是不通过被征信主体同意的情况下收集其信息，或者同意不完整、不充分、不明确的情况下收集个人信息，一是涉嫌个人隐私保护问题；二是这种情况下信息的采集可能不全面，“因为它不可能放开手脚去收集各方面的信息；如果一家公司既进行个人征信业务，也提供产品促销和放贷，同时不是一个正面的由个人授权发起的个人信息搜集的征信业务，就有很大的内在结构性的业务风险。”王蔚峰强调。

谈到目前中国的消费者使用各种APP登录时，很多条款并未明确、充分告知个人消费者其搜集的个人信息的用途，个人消费者通常不会去细看那些条款，为了达到一时的便利就点击了“同意”。如果消费者不同意就没办法使用。王蔚峰强调说，“这不是一个充分的授权行为，存在混业问题。一方面提供比如说该APP的主要服务功能，另一方面其在从事个人信息采集，这两方面的业务是混在一起的。这就是为什么益博睿一直强调征信服务应该独立经营，不能混业经营。这个行业的发展一定是基于个人主体授权明确的情况。”

至于如何才是明确授权，王蔚峰表示，首先个人征信是要经过个人授权的，明确说明个人信息系的用途；如果用途范围扩大，通过技术的手段再推送一个第二次授权申请，“比如您的某种个人信息要用于其他某个用途地方，您同意吗？消费者明确同意接受之后，个人征信机构才能用于约定的用途范围。”

王蔚峰介绍说，征信行业的基础设施，包括个人征信政策是否明朗，数据保护立法是否明确？一旦界定下来执法是否严格？部委的规章之间是否平滑衔接？以及各个地区法院的判罚尺度是否一致？“中国现在的情况是技术上已经走在世界前沿了，但是从立法环境上来说可能还处于美国上个世纪的水平，这会制约整体行业发展，公众不能享有更好的征信服务。”■

以上所述就是小编给大家介绍的《专访|如何打造世界级商用数据》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

The Shallows

Nicholas Carr / W. W. Norton & Company / 2011-6-6 / USD 15.95

"Is Google making us stupid?" When Nicholas Carr posed that question, in a celebrated Atlantic Monthly cover story, he tapped into a well of anxiety about how the Internet is changing us. He also crys......一起来看看《The Shallows》这本书的介绍吧!

码农工具

专访|如何打造世界级商用数据

The Shallows

JS 压缩/解压工具

html转js在线工具

RGB HSV 转换