内容简介:首先,我们一起来看一段客户(User)和开发人员(Developer)的对话。U: 我们就是想给客服的投诉信息自动分类。D: 这个啊,需要用到NLP中的分词、词性标注、句法分析等技术。
首先,我们一起来看一段客户(User)和开发人员(Developer)的对话。
U: 我们就是想给客服的投诉信息自动分类。
D: 这个啊,需要用到NLP中的分词、词性标注、句法分析等技术。
D: 也会用到CNN+LSTM的自动分类。
U: ...... 我们...客服的投诉信息自动分类。
D: Google最近的BERT模型,您知道吗?有1亿的参数训练,用在这里,效果肯定好。
D: 需要100万条标注语料,给我们4台GPU,必须是英伟达的,训练2周。
U: ...... 我们.....投诉分类。
D:我们公司的NLP技术是国家级项目成果,在国际比赛中可是第一名。
U: ...... 能不能有个懂客服业务的人啊? !.
D: ......
1.NLP应用之惑
上面这段虚构的对话,反映了当前自然语言处理(Natrual Language Processing)的应用现状。
一方面,NLP技术具有很高的门槛。(1)NLP技术的专业性很强。要处理一段文本,中间涉及很多个步骤,如自动分词、词性标注、句法分析、篇章分析等;也涉及很多个算法,如深度学习的CNN、LSTM、BERT等,每个算法都有其自身的约束条件,在条件满足的前提下,才能得到较好的效果;需要有大量的标注语料,让机器自动训练;当然也需要很强的算力资源,如GPU服务器等。NLP技术开发的过程,从外人看起来,更像是艺术创造。NLP技术是零散的,需要把各种NLP技术拼凑起来,还需要进行参数优化等大量的工作。而调参的过程,相当于黑盒子,需要技术人员反复尝试。(2)NLP的应用,需要与场景知识结合起来,需要有业务规则、标注语料等数据资源。但是很多时候,业务人员一句话就明白的业务规则,在这里却需要用上万条标注语料来说明,更不用说,标注语料要均衡、要定期更新等。(3)NLP人才缺乏,从事NLP开发的人员,要么是研究机构的学术研究人员,要么是BATJ大厂的“深度学习实验室”中的高端人才,据报道今年应届毕业的博士的入门年薪是80万,组建个团队价格不菲,只有少数头部企业,如BAT、华为、神州泰岳等,有实力参与其中。
另外一方面,NLP的需求广泛存在,只要有文本的地方,就有NLP应用的需求。NLP需求往往都不是独立存在的,只是存在与某个业务环节。比如企业风控中,有90%以上的工作是风控模型的构建与应用,为了扩大风控模型的数据源,希望用NLP技术从非结构化文本中提取风险标签,如裁判文书、招标公告等。大量的传统行业解决方案提供商,在某个行业有很好的客户资源和落地能力,他们希望在自己的产品和解决方案中增加NLP技术,提升非结构化数据的处理能力。这些需求过于零散,再加上给NLP的预算有限,所以头部企业很难为他们提供支持。另外,自己组建个NLP团队,代价太大,也很难吸引到高端人才。
NLP技术的门槛高,广泛存在的需求无法满足,是当前NLP应用的现状和困难。
2.授人以渔,还是授人以鱼
著名华人科学家、斯坦福教授李飞飞提出“AI民主化”是当前人工智能应用的主流趋势。Google、亚马逊AWS、Microsoft Azure均通过云平台,对外开放了部分NLP服务,如AWS的LEX会话机器人服务,微软的BOT工具提供认知服务和会话AI等。国内的BAT、华为们也通过人工智能平台开放NLP API,如句子向量表示、文本相似度计算等。可以看出,这些服务基本是以输出技术框架和基础技术为主,希望“授人以渔”,用户可以利用这些技术接口,进行二次开发,开发出满足业务场景需要的NLP应用。NLP应用的效果,平台无法保证,依然需要用户具有一定的专业知识,来完成优化。
鉴于NLP技术的专业性太强,上述“授人以渔”的开放方式,对不懂NLP的开发者来说,依然无从下手。 泰岳语义工厂 希望更进一步降低NLP的门槛,提出“授人以鱼”的民主化策略。
语义工厂不仅开放基础的NLP技术,同时将把神州泰岳数十年来,在多个行业典型用户积累的应用场景知识、算法、模型,打包成面向场景的服务,服务的效果已经在行业用户中得到验证。开发者只需要一次调用,输入待处理的非结构化文本,即可输出想要的结构化数据。 整个过程,无须开发者标注数据,无须调参,无须长时间训练,无须二次开发,开发者即使没有任何NLP技术背景,也可以轻松地把NLP技术嵌入到自己的应用中去。
3.语义工厂的NLP开放赋能
语义工厂将开放包含 NLP基础服务 、 应用场景服务 和 数据服务 等三大类服务,涉及 16个行业领域 ,共计 200余项服务 。
(1)NLP基础服务
NLP服务提供7类共计43个NLP服务接口,可以通过restful方式方便快捷地调用,涵盖NLP基础、深度学习、分类聚类、信息抽取、情感计算、自动写作、对话机器人、效果评估等服务。
NLP基础服务,是神州泰岳人工智能研究院团队20年来,在NLP领域的研究和开发积累,并在真实应用环境下经过检验的NLP技术模块。基础服务的性能优异,均可达到实用。
NLP基础服务,面向的是懂NLP的专业开发人员,熟悉每个算法的优缺点,能调用一个或多个服务,快速搭建起一个完整的NLP应用。
NLP基础服务的适用客户,是在人工智能、大数据行业(如视频、图像、语音等相关的行业)有一定积累,希望整合NLP的能力,完善自身解决方案的公司和个人开发者。NLP基础服务将免费开放给开发者。
(2)NLP场景服务
NLP场景服务涵盖16个行业领域共计142个具体场景服务,如银行、政府、互联网、电商、证券、保险、企业应用、运营商、娱乐、医疗、能源、军事、物流、科研等领域、通用领域以及场景定制化服务等。
NLP场景服务,是神州泰岳集团多年来NLP应用开发、项目交付积累的成果。自2011年以来,团队在为几大国有银行、电信运营商、政府机构等典型客户服务的过程中,将客户的场景化需求和业务知识,与NLP技术结合起来,研发了大量的业务模型,形成了很多面向场景的NLP应用系统,处理了亿级以上的数据,处理效果上均达到或超过了客户的预期。NLP场景服务,将把这些业务模型、NLP应用系统中的算法,打包成SAAS服务,对外开放。
NLP场景服务,面向的是完全不懂NLP的应用开发人员,本身在做 java 、 python 或前端开发,开发过程中,其中某环节需要用到NLP技术,对特定场景下的非结构化数据进行处理。
NLP场景服务的适用客户,是各个行业领域的应用开发商或解决方案集成商,主营业务是提供行业解决方案,如风险控制等,希望在自己方案中增加NLP的能力,但团队中没有NLP技术专家。NLP场景服务,将根据应用场景的复杂程度采取收费方式开放。同时,为了更好的满足特定场景下客户的NLP需求,也提供场景的定制开发服务。
(3)NLP数据服务
数据服务分5类,共计30个服务,包括语义资源服务、深度学习模型、数据资源服务、建模服务、数据加工服务等。
数据服务,开放的是神州泰岳人工智能研究院团队20年来,在NLP领域的研究和开发积累的知识库资源、语料库,以及训练好的模型等。如其中有一个“中文词向量模型”,提供全网语料覆盖最广、维度最全(字、词、偏旁等多个维度)的中文词向量,用户无须再费时、费力的训练自己的词向量,只需调用服务,即可在此服务的基础上,开展词向量相关的深度学习开发。
数据服务,面向的是懂NLP的专业开发人员,降低前期语料收集和标注、数据训练、资源整理等工作量,专注自身的开发需求。数据服务也支持定制化服务,如语料标注、资源加工等。
数据服务的适用客户,是有算法调优等开发需求的公司和个人开发者。数据服务将采取收费方式开放给开发者。
(4)NLP培训课程
NLP相关的 培训课程 ,共计 四类200节 ,包括:
1、NLP基础课程:介绍NLP的基本概念、基本处理流程、基础算法等内容;
2、NLP技能课程:介绍NLP开发相关的技能,包括需求分析、环境准备、服务调用、建模技能、效果测试、分布式调用等,以及各种 工具 的使用,TensorFlow、Spark等;
3、NLP资源课程:介绍NLP相关的多个知识库资源、数据资源等的背景、资源现状,以及如何做语料标注等;
4、NLP前沿课程:介绍最新的NLP研究动态、新的算法、新的应用等。
培训课程面向所有希望了解、提升NLP知识和能力的开发者。 培训课程 将 免费开放 给开发者。
最后,我们再回到开始的客户(User)和开发人员(Developer)的对话场景,对话已经变成这样的。
U: 我们就是想给客服的投诉信息自动分类。
D: 这个啊,您只要调用我们“客服投诉自动分类”服务就可以了。
D: 我们这个服务的准确率和召回率都可以达到98%,已经有100个客户在用了,每天调用量有200万次。
D: 除了自动分类,我们还有一个“客服投诉信息的热点发现”服务,可以把投诉中无法归类的“其他”类自动细分,给出其中的热点类。
U: 这个我们需要。
D: 其实投诉信息中,还可以挖掘潜客呢,我们这有个“客服潜客挖掘”服务,能把投诉转换成绩效,对您肯定有用。
U: 这个我们也需要。
U: 还有什么服务,再给我介绍介绍......
D: 我们有16个行业,200多个服务呢,我给您说说......
“凡事都应该尽可能地简单,而不是较为简单。” —— 阿尔伯特.爱因斯坦
以上所述就是小编给大家介绍的《授人以渔? 授人以鱼! NLP的民主化之路》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Spark SQL内核剖析
朱锋、张韶全、黄明 / 电子工业出版社 / 2018-8 / 69.00元
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregation 算......一起来看看 《Spark SQL内核剖析》 这本书的介绍吧!