内容简介:作者 | 董文涛
作者 | 董文涛
责编 | 唐小引
出品 | CSDN(ID:CSDNnews)
【CSDN 编者按】Google 的 BERT 模型一经发布便点燃了 NLP 各界的欢腾,Google Brain 的资深研究科学家 Thang Luong 曾给出其“开启了 NLP 新时代”的高度定义,国内外许多公司及开发者对其进行了研究及应用,本文作者及其团队对 BERT 进行了应用探索。
随着 Google 推出的 BERT 模型在多种 NLP 任务上取得 SOTA,NLP 技术真正进入了大规模应用阶段,由此,我们展开了对 BERT 的探索。
训练模型
-
训练数据
训练其他模型时我们已经标注了大量的训练数据,主要把相似句对分为三类来标注:
不相似(0)、相关(0.5)、相似(1)
所以,训练 BERT 模型时就可以“拿来主义”了。
-
模型修改
我们的主要应用点是相似度计算,期望模型返回的结果是一个概率(分值)而不是每个类别的概率。当然如果模型给的结果是每一个类别的概率,依然可以通过加权求和输出一个分值,但这样是不是又复杂了。
所以我们在官方代码上做了点小的修改(将最后的 softmax 改为了 sigmoid)使得模型输出是一个分值,这个分值也就是我们要的相似度了。
-
模型训练
我们使用之前标注的数据集在 GeForce GTX 1070 上训练(Fine-Tune),大概训练了 8 个小时左右。
-
模型导出
模型训练完会产生几个 Checkpoint,这些 Checkpoint 是不能直接在工程中使用的,需要导出成 PB 文件,可以使用 Estimator 的 export_savedmodel 方法导出。
模型使用
通过调研,主要有两种方式:
-
Java JNI: 基于我们的 GPU 编译 [1] 一个合适的 libtensorflow 和libtensorflow_jni_gpu(如果你的配置和官方一致就不需要自己编译 了,自己编译太多坑,这里有一份经过验证的编译环境配置 [2] )打成 jar 包并加入到工程依赖,使用 TensorFlow 提供的 Java API 加载 BERT 模型,在你的 Java 工程中使用 [3] 。
-
Docker + Nvidia-docker + Tensorflow Serving: 需要一个合适的 Tensorlfow Serving 的 image,这里有一份官方做好的 image 列表 [4] ,当然你也可以自己做一个。
这两种方式各有优缺点,我们主要考虑以下几个方面:
-
性能: 我们对两种方案做了实验,Tensorflow Serving 是 C++ 写成的服务,对于 batch 做过优化 [6] ,性能优于 Java JNI。
-
多模型支持能力: 方案 2 是支持多模型的,也就是多个模型共用一个 GPU,方案 1 不支持。
-
简单好部署: 两种方案都不复杂。
-
与现有服务开发和运维体系兼容性: 方案 1 更有优势。
另外,方案 2 不仅支持多模型还支持多版本、模型的冷启动和热加载。综合考虑下,我们使用了方案 2 进行模型部署。
效果对比
我们用一些典型客户的数据构建了测试环境,抽取这些客户的真实访客数据,对现有模型和 BERT 模型做了对比实验,BERT 模型的效果相比于对照模型提高了超过 10%。
调用图
这是我们的调用时序图:
FAQ 服务->相似度计算服务:句子 1 和 句子 2 相似度是多少 ? 相似度计算服务->TensorflowServing: 句子 1 和 句子 2 相似度是多少 ? Note right of TensorflowServing: bert 模型预测 TensorflowServing->相似度计算服务: 句子 1 和 句子 2 相似度是 xx 相似度计算服务->FAQ 服务: 句子 1 和 句子 2 相似度是 xx
这里抽象出一个相似度计算服务,是因为我们集成了多种相似度计算方法。
优化
-
后处理
这种模型的一个主要问题是:模型并不能完美解决所有问题,时不时总会有 bad case 出现。一旦模型上线,如果有问题我们无法及时解决(训练模型和上线都会消耗大量时间)。为此我们增加了后处理,以便于我们的训练师能够及时干预,解决问题。
-
预训练
BERT 预训练的模型使用的数据来源于维基百科,与我们的主要应用场景不一致。我们可以猜想如果在 BERT 原有 Pre-Training 模型的基础上,使用客服里的数据再次进行 Pre-Training 应该会更好,事实上我们也的确这样做了。结论是影响不大,可能是数据不够多,新的训练实验还在进行中。
-
数据标注
GBDT 2.0 的出现再次证明了要想得到好的模型,不仅要有数据量,还要提高数据的品质。我们新的标注也在进行中,相信会对模型效果有所提高。
-
其他应用
我们在产品中还提供了意图识别的服务,意图识别服务要求必须能够在线训练。如果直接使用 BERT 来做意图识别,很难满足在线训练的要求(BERT 训练太慢了)。为此我们使用了简单的模型来支持在线训练,并把 Fine-tune 模型的倒数第二层作为特征,增强意图识别的效果。
BERT 的近邻
最近 Google 又携 XLnet 屠榜了,从实验效果看对比 BERT 确实有比较大的提升,我们也在关注中,实验的小手已经蠢蠢欲动了。如果在我们的场景实验效果好的话,相信我们的客户很快会便会体验到。
[1]: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/java/README.md
[2]: https://www.tensorflow.org/install/source#tested_build_configurations
[3]: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/java/README.md
[4]: https://hub.docker.com/r/tensorflow/serving/tags
[5]: https://github.com/tensorflow/serving/blob/master/tensorflow_serving/g3doc/building_with_docker.md
[6]: https://github.com/tensorflow/serving/tree/master/tensorflow_serving/batching
[7]: https://www.tensorflow.org/tfx/serving/serving_config
[8]: https://arxiv.org/abs/1906.08237
作者简介:董文涛,环信人工智能研发中心算法工程师,负责环信中文语义分析开放平台和环信智能机器人的设计与研发。
【END】
热 文推 荐
☞2019年技术盘点容器篇(二):听腾讯云讲讲踏入成熟期的容器技术 | 程序员硬核评测
点击阅读原文,输入关键词,即可搜索您想要的 CSDN 文章。
你点的每个“在看”,我都认真当成了喜欢
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- GitHub 开源跨平台神器 Electron 实践 | 技术头条
- 最快开源 OLAP 引擎!ClickHouse 在头条的技术演进
- 华为回应美国封锁;苹果自研 iPhone 5G 芯片滞后 6 年;微软开源 Bing 关键算法 | 极客头条
- 周鸿祎谈华为鸿蒙系统;百度回应“用搜索引擎填高考志愿”;腾讯首次全面公开开源路线图 | 极客头条
- 聊聊头条做搜索
- 头条/支付宝/猿辅导面试经历
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
算法交易:制胜策略与原理
[美]欧内斯特·陈(Ernest P. Chan) / 高闻酉、黄蕊 / 机械工业出版社 / 49.00
本书是一本引人入胜、信息量大、覆盖各类交易策略的图书。无论个人投资者,还是机构投资者,都可以借鉴和使用其中的策略。本书中的策略大致可分为均值回归系统和动量系统两大类。书中不仅介绍了如何使用每种类别的交易策略,更解释了各种策略之所以有效的原因。本书始终以简单、线性的交易策略为重心,因为复杂的交易策略容易受到过度拟合及数据窥探的侵害。数学和软件是算法交易的两条腿。本书用到了一定程度的数学知识,使其对各......一起来看看 《算法交易:制胜策略与原理》 这本书的介绍吧!