Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

内容简介：作者 | 董文涛

作者 | 董文涛

责编 | 唐小引

出品 | CSDN（ID：CSDNnews）

【CSDN 编者按】Google 的 BERT 模型一经发布便点燃了 NLP 各界的欢腾，Google Brain 的资深研究科学家 Thang Luong 曾给出其“开启了 NLP 新时代”的高度定义，国内外许多公司及开发者对其进行了研究及应用，本文作者及其团队对 BERT 进行了应用探索。

随着 Google 推出的 BERT 模型在多种 NLP 任务上取得 SOTA，NLP 技术真正进入了大规模应用阶段，由此，我们展开了对 BERT 的探索。

Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

训练模型

训练数据

训练其他模型时我们已经标注了大量的训练数据，主要把相似句对分为三类来标注：

不相似（0）、相关（0.5）、相似（1）

所以，训练 BERT 模型时就可以“拿来主义”了。

模型修改

我们的主要应用点是相似度计算，期望模型返回的结果是一个概率（分值）而不是每个类别的概率。当然如果模型给的结果是每一个类别的概率，依然可以通过加权求和输出一个分值，但这样是不是又复杂了。

所以我们在官方代码上做了点小的修改（将最后的 softmax 改为了 sigmoid）使得模型输出是一个分值，这个分值也就是我们要的相似度了。

模型训练

我们使用之前标注的数据集在 GeForce GTX 1070 上训练（Fine-Tune），大概训练了 8 个小时左右。

模型导出

模型训练完会产生几个 Checkpoint，这些 Checkpoint 是不能直接在工程中使用的，需要导出成 PB 文件，可以使用 Estimator 的 export_savedmodel 方法导出。

Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

模型使用

通过调研，主要有两种方式：

Java JNI：基于我们的 GPU 编译 [1] 一个合适的 libtensorflow 和libtensorflow_jni_gpu（如果你的配置和官方一致就不需要自己编译了，自己编译太多坑，这里有一份经过验证的编译环境配置 [2] ）打成 jar 包并加入到工程依赖，使用 TensorFlow 提供的 Java API 加载 BERT 模型，在你的 Java 工程中使用 [3] 。
Docker + Nvidia-docker + Tensorflow Serving：需要一个合适的 Tensorlfow Serving 的 image，这里有一份官方做好的 image 列表 [4] ，当然你也可以自己做一个。

这两种方式各有优缺点，我们主要考虑以下几个方面：

性能：我们对两种方案做了实验，Tensorflow Serving 是 C++ 写成的服务，对于 batch 做过优化 [6] ，性能优于 Java JNI。
多模型支持能力：方案 2 是支持多模型的，也就是多个模型共用一个 GPU，方案 1 不支持。
简单好部署：两种方案都不复杂。
与现有服务开发和运维体系兼容性：方案 1 更有优势。

另外，方案 2 不仅支持多模型还支持多版本、模型的冷启动和热加载。综合考虑下，我们使用了方案 2 进行模型部署。

Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

效果对比

我们用一些典型客户的数据构建了测试环境，抽取这些客户的真实访客数据，对现有模型和 BERT 模型做了对比实验，BERT 模型的效果相比于对照模型提高了超过 10%。

Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

调用图

这是我们的调用时序图：

FAQ 服务->相似度计算服务:句子 1 和 句子 2 相似度是多少 ?
相似度计算服务->TensorflowServing: 句子 1 和 句子 2 相似度是多少 ?
Note right of TensorflowServing: bert 模型预测
TensorflowServing->相似度计算服务: 句子 1 和 句子 2 相似度是 xx
相似度计算服务->FAQ 服务: 句子 1 和 句子 2 相似度是 xx

这里抽象出一个相似度计算服务，是因为我们集成了多种相似度计算方法。

Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

优化

后处理

这种模型的一个主要问题是：模型并不能完美解决所有问题，时不时总会有 bad case 出现。一旦模型上线，如果有问题我们无法及时解决（训练模型和上线都会消耗大量时间）。为此我们增加了后处理，以便于我们的训练师能够及时干预，解决问题。

预训练

BERT 预训练的模型使用的数据来源于维基百科，与我们的主要应用场景不一致。我们可以猜想如果在 BERT 原有 Pre-Training 模型的基础上，使用客服里的数据再次进行 Pre-Training 应该会更好，事实上我们也的确这样做了。结论是影响不大，可能是数据不够多，新的训练实验还在进行中。

数据标注

GBDT 2.0 的出现再次证明了要想得到好的模型，不仅要有数据量，还要提高数据的品质。我们新的标注也在进行中，相信会对模型效果有所提高。

其他应用

我们在产品中还提供了意图识别的服务，意图识别服务要求必须能够在线训练。如果直接使用 BERT 来做意图识别，很难满足在线训练的要求（BERT 训练太慢了）。为此我们使用了简单的模型来支持在线训练，并把 Fine-tune 模型的倒数第二层作为特征，增强意图识别的效果。

Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

BERT 的近邻

最近 Google 又携 XLnet 屠榜了，从实验效果看对比 BERT 确实有比较大的提升，我们也在关注中，实验的小手已经蠢蠢欲动了。如果在我们的场景实验效果好的话，相信我们的客户很快会便会体验到。

[1]: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/java/README.md

[2]: https://www.tensorflow.org/install/source#tested_build_configurations

[3]: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/java/README.md

[4]: https://hub.docker.com/r/tensorflow/serving/tags

[5]: https://github.com/tensorflow/serving/blob/master/tensorflow_serving/g3doc/building_with_docker.md

[6]: https://github.com/tensorflow/serving/tree/master/tensorflow_serving/batching

[7]: https://www.tensorflow.org/tfx/serving/serving_config

[8]: https://arxiv.org/abs/1906.08237

作者简介：董文涛，环信人工智能研发中心算法工程师，负责环信中文语义分析开放平台和环信智能机器人的设计与研发。

【END】

Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

热文推荐

☞ 微软为何痛失移动操作系统？

☞ 程序员们如何破局 5G？

☞ 软件为什么会沦为遗留系统？

☞因为有了 TA，搞定行业应用开发，不怕不怕啦！

☞除了V神,17个以太坊大会讲师的演讲精华都在这儿了！

☞2019年技术盘点容器篇（二）：听腾讯云讲讲踏入成熟期的容器技术 | 程序员硬核评测

☞50行 Python 代码，获取公众号全部文章

☞不写一行代码，也能玩转Kaggle竞赛？

☞马云曾经偶像，终于把阿里留下的1400亿败光了！

点击阅读原文，输入关键词，即可搜索您想要的 CSDN 文章。

你点的每个“在看”，我都认真当成了喜欢

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

科学计算导论

希思 / 清华大学出版社 / 2005-10 / 48.00元

本书全面地介绍了科学计算中解各种主要问题的数值方法，包括线性和非线性方程、最小二乘法、特征值、最优化、插值、积分、常微分方程和偏微分方程、快速傅里叶变换和随机数生成。本书的特点是：以使用算法的读者为对象，重点讲授算法背后的思想和原理，而不是算法的详细分析。强调敏感性和病态性等概念，对同一问题的不同算法进行比较和评价，提高读者对算法的鉴赏能力。对每类......一起来看看《科学计算导论》这本书的介绍吧!

码农工具

html转js在线工具

RGB HSV 转换

RGB HSV 互转工具

Google 最强开源模型 BERT 在 NLP 中的应用 | 技术头条

训练模型

训练数据

模型修改

模型训练

模型导出

模型使用

效果对比

调用图

优化

后处理

预训练

数据标注

其他应用

BERT 的近邻

点击阅读原文，输入关键词，即可搜索您想要的 CSDN 文章。

科学计算导论

html转js在线工具

RGB HSV 转换