授人以渔? 授人以鱼! NLP的民主化之路

栏目: 编程工具 · 发布时间: 7年前

内容简介：首先，我们一起来看一段客户（User）和开发人员（Developer）的对话。U：我们就是想给客服的投诉信息自动分类。D：这个啊，需要用到NLP中的分词、词性标注、句法分析等技术。

首先，我们一起来看一段客户（User）和开发人员（Developer）的对话。

U：我们就是想给客服的投诉信息自动分类。

D：这个啊，需要用到NLP中的分词、词性标注、句法分析等技术。

D：也会用到CNN+LSTM的自动分类。

U： ...... 我们...客服的投诉信息自动分类。

D： Google最近的BERT模型，您知道吗？有1亿的参数训练，用在这里，效果肯定好。

D：需要100万条标注语料，给我们4台GPU，必须是英伟达的，训练2周。

U： ...... 我们.....投诉分类。

D：我们公司的NLP技术是国家级项目成果，在国际比赛中可是第一名。

U： ...... 能不能有个懂客服业务的人啊？！.

D： ......

1.NLP应用之惑

上面这段虚构的对话，反映了当前自然语言处理（Natrual Language Processing）的应用现状。

一方面，NLP技术具有很高的门槛。（1）NLP技术的专业性很强。要处理一段文本，中间涉及很多个步骤，如自动分词、词性标注、句法分析、篇章分析等；也涉及很多个算法，如深度学习的CNN、LSTM、BERT等，每个算法都有其自身的约束条件，在条件满足的前提下，才能得到较好的效果；需要有大量的标注语料，让机器自动训练；当然也需要很强的算力资源，如GPU服务器等。NLP技术开发的过程，从外人看起来，更像是艺术创造。NLP技术是零散的，需要把各种NLP技术拼凑起来，还需要进行参数优化等大量的工作。而调参的过程，相当于黑盒子，需要技术人员反复尝试。（2）NLP的应用，需要与场景知识结合起来，需要有业务规则、标注语料等数据资源。但是很多时候，业务人员一句话就明白的业务规则，在这里却需要用上万条标注语料来说明，更不用说，标注语料要均衡、要定期更新等。（3）NLP人才缺乏，从事NLP开发的人员，要么是研究机构的学术研究人员，要么是BATJ大厂的“深度学习实验室”中的高端人才，据报道今年应届毕业的博士的入门年薪是80万，组建个团队价格不菲，只有少数头部企业，如BAT、华为、神州泰岳等，有实力参与其中。

另外一方面，NLP的需求广泛存在，只要有文本的地方，就有NLP应用的需求。NLP需求往往都不是独立存在的，只是存在与某个业务环节。比如企业风控中，有90%以上的工作是风控模型的构建与应用，为了扩大风控模型的数据源，希望用NLP技术从非结构化文本中提取风险标签，如裁判文书、招标公告等。大量的传统行业解决方案提供商，在某个行业有很好的客户资源和落地能力，他们希望在自己的产品和解决方案中增加NLP技术，提升非结构化数据的处理能力。这些需求过于零散，再加上给NLP的预算有限，所以头部企业很难为他们提供支持。另外，自己组建个NLP团队，代价太大，也很难吸引到高端人才。

NLP技术的门槛高，广泛存在的需求无法满足，是当前NLP应用的现状和困难。

2.授人以渔，还是授人以鱼

著名华人科学家、斯坦福教授李飞飞提出“AI民主化”是当前人工智能应用的主流趋势。Google、亚马逊AWS、Microsoft Azure均通过云平台，对外开放了部分NLP服务，如AWS的LEX会话机器人服务，微软的BOT工具提供认知服务和会话AI等。国内的BAT、华为们也通过人工智能平台开放NLP API，如句子向量表示、文本相似度计算等。可以看出，这些服务基本是以输出技术框架和基础技术为主，希望“授人以渔”，用户可以利用这些技术接口，进行二次开发，开发出满足业务场景需要的NLP应用。NLP应用的效果，平台无法保证，依然需要用户具有一定的专业知识，来完成优化。

鉴于NLP技术的专业性太强，上述“授人以渔”的开放方式，对不懂NLP的开发者来说，依然无从下手。 泰岳语义工厂 希望更进一步降低NLP的门槛，提出“授人以鱼”的民主化策略。

语义工厂不仅开放基础的NLP技术，同时将把神州泰岳数十年来，在多个行业典型用户积累的应用场景知识、算法、模型，打包成面向场景的服务，服务的效果已经在行业用户中得到验证。开发者只需要一次调用，输入待处理的非结构化文本，即可输出想要的结构化数据。整个过程，无须开发者标注数据，无须调参，无须长时间训练，无须二次开发，开发者即使没有任何NLP技术背景，也可以轻松地把NLP技术嵌入到自己的应用中去。

3.语义工厂的NLP开放赋能

语义工厂将开放包含 NLP基础服务 、 应用场景服务 和 数据服务 等三大类服务，涉及 16个行业领域 ，共计 200余项服务 。

（1）NLP基础服务

NLP服务提供7类共计43个NLP服务接口，可以通过restful方式方便快捷地调用，涵盖NLP基础、深度学习、分类聚类、信息抽取、情感计算、自动写作、对话机器人、效果评估等服务。

NLP基础服务，是神州泰岳人工智能研究院团队20年来，在NLP领域的研究和开发积累，并在真实应用环境下经过检验的NLP技术模块。基础服务的性能优异，均可达到实用。

NLP基础服务，面向的是懂NLP的专业开发人员，熟悉每个算法的优缺点，能调用一个或多个服务，快速搭建起一个完整的NLP应用。

NLP基础服务的适用客户，是在人工智能、大数据行业（如视频、图像、语音等相关的行业）有一定积累，希望整合NLP的能力，完善自身解决方案的公司和个人开发者。NLP基础服务将免费开放给开发者。

（2）NLP场景服务

NLP场景服务涵盖16个行业领域共计142个具体场景服务，如银行、政府、互联网、电商、证券、保险、企业应用、运营商、娱乐、医疗、能源、军事、物流、科研等领域、通用领域以及场景定制化服务等。

NLP场景服务，是神州泰岳集团多年来NLP应用开发、项目交付积累的成果。自2011年以来，团队在为几大国有银行、电信运营商、政府机构等典型客户服务的过程中，将客户的场景化需求和业务知识，与NLP技术结合起来，研发了大量的业务模型，形成了很多面向场景的NLP应用系统，处理了亿级以上的数据，处理效果上均达到或超过了客户的预期。NLP场景服务，将把这些业务模型、NLP应用系统中的算法，打包成SAAS服务，对外开放。

NLP场景服务，面向的是完全不懂NLP的应用开发人员，本身在做 java 、 python 或前端开发，开发过程中，其中某环节需要用到NLP技术，对特定场景下的非结构化数据进行处理。

NLP场景服务的适用客户，是各个行业领域的应用开发商或解决方案集成商，主营业务是提供行业解决方案，如风险控制等，希望在自己方案中增加NLP的能力，但团队中没有NLP技术专家。NLP场景服务，将根据应用场景的复杂程度采取收费方式开放。同时，为了更好的满足特定场景下客户的NLP需求，也提供场景的定制开发服务。

（3）NLP数据服务

数据服务分5类，共计30个服务，包括语义资源服务、深度学习模型、数据资源服务、建模服务、数据加工服务等。

数据服务，开放的是神州泰岳人工智能研究院团队20年来，在NLP领域的研究和开发积累的知识库资源、语料库，以及训练好的模型等。如其中有一个“中文词向量模型”，提供全网语料覆盖最广、维度最全（字、词、偏旁等多个维度）的中文词向量，用户无须再费时、费力的训练自己的词向量，只需调用服务，即可在此服务的基础上，开展词向量相关的深度学习开发。

数据服务，面向的是懂NLP的专业开发人员，降低前期语料收集和标注、数据训练、资源整理等工作量，专注自身的开发需求。数据服务也支持定制化服务，如语料标注、资源加工等。

数据服务的适用客户，是有算法调优等开发需求的公司和个人开发者。数据服务将采取收费方式开放给开发者。

（4）NLP培训课程

NLP相关的 培训课程 ，共计 四类200节 ，包括：

1、NLP基础课程：介绍NLP的基本概念、基本处理流程、基础算法等内容；

2、NLP技能课程：介绍NLP开发相关的技能，包括需求分析、环境准备、服务调用、建模技能、效果测试、分布式调用等，以及各种工具的使用，TensorFlow、Spark等；

3、NLP资源课程：介绍NLP相关的多个知识库资源、数据资源等的背景、资源现状，以及如何做语料标注等；

4、NLP前沿课程：介绍最新的NLP研究动态、新的算法、新的应用等。

培训课程面向所有希望了解、提升NLP知识和能力的开发者。 培训课程 将 免费开放 给开发者。

最后，我们再回到开始的客户（User）和开发人员（Developer）的对话场景，对话已经变成这样的。

U：我们就是想给客服的投诉信息自动分类。

D：这个啊，您只要调用我们“客服投诉自动分类”服务就可以了。

D：我们这个服务的准确率和召回率都可以达到98%，已经有100个客户在用了，每天调用量有200万次。

D：除了自动分类，我们还有一个“客服投诉信息的热点发现”服务，可以把投诉中无法归类的“其他”类自动细分，给出其中的热点类。

U：这个我们需要。

D：其实投诉信息中，还可以挖掘潜客呢，我们这有个“客服潜客挖掘”服务，能把投诉转换成绩效，对您肯定有用。

U：这个我们也需要。

U：还有什么服务，再给我介绍介绍......

D：我们有16个行业，200多个服务呢，我给您说说......

“凡事都应该尽可能地简单，而不是较为简单。” —— 阿尔伯特.爱因斯坦

以上所述就是小编给大家介绍的《授人以渔? 授人以鱼! NLP的民主化之路》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Python机器学习

[美] Michael Bowles / 沙嬴、李鹏 / 人民邮电出版社 / 2016-12 / 69.00元

在学习和研究机器学习的时候，面临令人眼花缭乱的算法，机器学习新手往往会不知所措。本书从算法和Python 语言实现的角度，帮助读者认识机器学习。书专注于两类核心的“算法族”，即惩罚线性回归和集成方法，并通过代码实例来展示所讨论的算法的使用原则。全书共分为7 章，详细讨论了预测模型的两类核心算法、预测模型的构建、惩罚线性回归和集成方法的具体应用和实现。本书主要针对想提......一起来看看《Python机器学习》这本书的介绍吧!

码农工具