达观数据陈运文:让自然语言处理成为新一代“蒸汽机”

栏目: 编程工具 · 发布时间: 5年前

内容简介:《创业说》是中新经纬推出的创业人物访谈栏目,讲述创业者背后鲜为人知的故事,探寻风口行业隐藏的商业秘密。中新经纬客户端5月7日电(驻上海记者 樊中华 郁玫)与大多数陈列着各式产品的人工智能企业不同,进入达观数据的第一眼,你会以为进入了一个文字博物馆。楔形文字板、甲骨文龟甲、密码轴、传统打字机以及详尽的文字发展历史与智能化文本分析结果,一方空间将文本之美这一千百年来人类隐秘而恒久的心头好展示得紧凑、丰盛。达观数据CEO陈运文常向来访者如数家珍地介绍这些展品。文字与文本,是达观数据核心的自然语言处理技术(NLP)

《创业说》是中新经纬推出的创业人物访谈栏目,讲述创业者背后鲜为人知的故事,探寻风口行业隐藏的商业秘密。

中新经纬客户端5月7日电(驻上海记者 樊中华 郁玫)与大多数陈列着各式产品的人工智能企业不同,进入达观数据的第一眼,你会以为进入了一个文字博物馆。楔形文字板、甲骨文龟甲、密码轴、传统打字机以及详尽的文字发展历史与智能化文本分析结果,一方空间将文本之美这一千百年来人类隐秘而恒久的心头好展示得紧凑、丰盛。

达观数据CEO陈运文常向来访者如数家珍地介绍这些展品。文字与文本,是达观数据核心的自然语言处理技术(NLP)应用的内容与基础。“文字是我们日常工作生活中永远离不开的一部分,就像蒸汽机极大地提升了人类的生产效率、带来了工业革命一样,自然语言处理技术应该成为我们各行各业的新一代‘蒸汽机’,助力效率提升,这是达观的愿景。”陈运文表示。

达观数据陈运文:让自然语言处理成为新一代“蒸汽机”

达观数据CEO陈运文 受访者提供

向传统行业进发

就算不了解自然语言处理技术(NLP),网民们也绝不会对它所带来的网上交互体验感到陌生。

在过去的几十年中,分类、搜索、打标签、相关推荐等愈加完善便捷的功能体验成为新闻阅读、网上购物、社交娱乐各式应用程序的“基础设施”。这些看似寻常的功能背后,无一不源自NLP技术的支撑。

“NLP技术意味着人机交互中机器理解并解释人类写作、说话方式的能力。”陈运文解释说,“让机器读懂人的意思,这是人工智能得以应用最关键的一环,也是最难的一点。”

业界普遍认为,在人工智能三大应用领域中,图像识别和语音识别均属于“感知技术”,而能够“读懂”文本意思的NLP是需要理解复杂语义、并进行高精准度处理的“认知技术”。因其高难度与关键性,曾被比尔•盖茨称为“人工智能皇冠上的明珠”。

互联网带来的海量信息处理需求就像巨浪般将NLP的作用推到了最高峰,而陈运文正是在蓬勃的互联网行业内与文本结缘,盛大文学首席数据官、腾讯文学高级总监等从业经历让他在算法技术的应用上产生了思考。

“之前在盛大文学和腾讯文学做数据处理,局限在互联网传媒、尤其是网络小说这个领域,但我认为NLP能做的事情要比网络文学宽泛得多,它能给社会创造的价值要大得多,”陈运文说。

这一认知很快成为陈运文与一众同行好友的共识。如何让NLP跳出互联网应用的窠臼,寻找到新的应用场景,发挥技术更大的威力,成为摆在这些经验丰富的技术咖面前颇具使命感的挑战。

“当时我们发现在互联网企业中,文字处理技术的运用已经很普遍,但是在中国传统行业,仍在耗费大量人力做一些重复性高、技术含量低的文字处理工作,没有什么自动化的 工具 手段。”陈运文告诉中新经纬客户端,“我们的初创团队都是这个行业里的专业选手,做文字处理很多年,我们知道怎样把好的技术和产业需求结合在一起,变成可以落地的应用系统。”

2015年,陈运文与来自盛大、百度、腾讯、阿里巴巴、SAP等公司的朋友一起,创办了达观数据,开始将互联网行业文字处理的“金手指”指向线下传统行业,期望为后者带来效率的变革。

“解放”白领

在中文NLP领域,达观数据是先行者,同时短短两三年,迅速成长为国内该领域的领先者,在知识图谱企业中位于前列,在金融领域的市场占有率始终保持第一。2018年年底,达观数据成功完成1.6亿元B轮融资,累计融资额超2亿元,刷新了中国自然语言理解领域的融资记录,成为语义识别领域融资额最高的企业之一。

谈及NLP领域的未来市场规模,陈运文笑称,只要看一下每个人每一天有多少时间是花在和文字打交道上就好了。他举例说,中国的白领现在至少每天有1/3的时间是在处理文字信息,例如HR阅读筛选简历,法务阅读、起草合同,公务员做行政审批等等。“到目前为止,从事这些工作的人,工作方式和30年前都没有太大的区别,以前靠笔写,现在用键盘输入。而很多这类工作都是可以用人工智能工具来替代的。”陈运文说,“文字资料自动化处理典型的应用场景有三个:一是文字资料特别多,重复性大;二是对准确性要求特别高;三是对效率追求高。”

他介绍说,例如1000页的招股说明书,人需要个把月才能看完,但计算机只要一分钟。达观数据初次上线的系统准确度在90%以上,在经过由前沿算法模型和丰富语料训练加持的NLP技术深度学习后,达观数据文档智能审阅系统可以逐步接近人在最好状态时的水平,达到97%的准确率,不仅用时极短,且准确性只会越来越高。

据悉,上海市全力推行的“一网通办”中,在处理大量行政审批文本、缩短行政审批时间方面,达观数据贡献了自己的科技力量。陈运文表示,在未来3-5年内,达观数据的目标是让计算机的阅读能力超过人类水平。

开放性成长

与之前在相对狭域、聚焦的互联网企业做自然语言处理不同,达观数据一开始就将自己置于传统行业赋能者的位置,面向的是政府、金融业、传媒、法律,甚至军工行业等诸多的领域,用陈运文的话来说,“凡是需要大量文本处理的行业,就需要达观数据。”

但这也意味着达观数据要尽快实现从技术到产业化的过程,并且成为每一个行业的“专家”。陈运文坦言,这一过程十分艰难:“自然语言处理尤其在中文领域,是个极难的事情,因为中文的语法比英文更灵活,甚至更混乱,因此让计算机去做中文的阅读理解,困难重重,因此我们是把科研和实践结合在一起,科研就是工作的一部分。”

由于语种的区分,NLP技术很少能像其他人工智能技术一样,直接借用国际上最先进的开源算法,英文的处理方法只能是参考,中文必须进行自主探索创新。由此,达观数据形成了一套自己的人才和技术“打怪升级”体系。

“我们保持着开放的学习态度,一方面内部会形成随时学习、总结、交流的机制,遇到问题,鼓励大家大量阅读国际同行的优秀成果论文,进行中文处理方法的创新;另一方面,也鼓励他们将经验总结出来,发表论文或技术报告,出版技术专著,供更多的同行交流学习。”陈运文表示。

但事实上,中文NLP发展面临的另一大挑战正是人才的短缺。清华大学《自然语言处理研究报告》显示,全球TOP1000的自然语言领域顶尖学者h-index指数平均值为59,但NLP华人库专家的该平均值仅为14,高级人才缺口巨大。

陈运文对此抱有一种乐观的态度。在他看来,当前,人工智能企业应更多地担负起培养人的任务。“企业有实实在在的客户应用场景和大量的数据,能够让有潜力的人才迅速成长。”他介绍说,达观数据一直十分愿意从合作的高校联合实验室或课题组招聘一些有潜力的年轻同学,甚至会吸纳原本不属于这个行业的潜力型人才。达观数据会鼓励他们参加国际上的算法竞赛,不断与国际同行论剑。

据悉,达观数据已经举办了两届“达观杯”算法竞赛,吸引行业内报名参与者8000余人,成为中国参赛人数最多的文字处理比赛。

未来,NLP的发展是否会威胁到很多人的工作?陈运文说:“新技术可以替代那些重复性的工作,但永远不能替代人的创造力,当技术代替了今天的机械性任务,就真正将这些人解放出来,有时间和精力去做人真正擅长的创造性工作。” (中新经纬APP) 返回搜狐,查看更多

责任编辑:


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

重构

重构

Martin Fowler / 熊节 / 中国电力出版社 / 2003-8-1 / 68.00元

Martin Fowler和《重构:改善既有代码的设计》(中文版)另几位作者清楚揭示了重构过程,他们为面向对象软件开发所做的贡献,难以衡量。《重构:改善既有代码的设计》(中文版)解释重构的原理(principles)和最佳实践方式(best practices),并指出何时何地你应该开始挖掘你的代码以求改善。《重构:改善既有代码的设计》(中文版)的核心是一份完整的重构名录(catalog of r......一起来看看 《重构》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试