深度学习框架不能“包治百病”，开发者如何选出最适合自己的？

栏目: 数据库 · 发布时间: 6年前

内容简介：随着深度学习关注度和势头上升，深度学习被越来越多的企业和组织的生产实践结合起来。这时，无论是对于深度学习相关专业的初学者，还是已经在企业和组织中从事工业场景应用和研发的开发者来说，选择一个适合自己，适合业务场景需求的深度学习框架显得尤为重要。那么，对于不同学习阶段和不同岗位的开发者来说，什么样的深度学习框架才是适合自己的呢？为此，AI 前线邀请了来自 BAT 的深度学习框架专家来解答这个疑问。以下是选择深度学习框架时常见的几个问题：

随着深度学习关注度和势头上升，深度学习被越来越多的企业和组织的生产实践结合起来。这时，无论是对于深度学习相关专业的初学者，还是已经在企业和组织中从事工业场景应用和研发的开发者来说，选择一个适合自己，适合业务场景需求的深度学习框架显得尤为重要。

那么，对于不同学习阶段和不同岗位的开发者来说，什么样的深度学习框架才是适合自己的呢？为此，AI 前线邀请了来自 BAT 的深度学习框架专家来解答这个疑问。

以下是选择深度学习框架时常见的几个问题：

目前，国内外有哪些主流的深度学习框架？分别有什么优缺点？

TensorFlow：谷歌大厂出品，社区资源丰富，用户群体广泛。如果你的业务是实现一个比较成熟的应用场景，选择 TensorFlow 是个不错的选择，毕竟大部分坑前人已经踩过了。如果你还是一名初学者，想要去实现全新的算法，那要慎重选择 TensorFlow，因其发展时间较久，代码库庞大，想要真正看懂它的代码会是一个不小的挑战。

PaddlePaddle：百度出品，跟 TF 类似，PaddlePaddle 也是在百度内部实际应用的工业框架。值得一提的是，PaddlePaddle 为大量工业级模型提供官方支持；大规模分布式训练技术能力强，支持大规模稠密参数和稀疏参数场景的并行训练；基于其中文文档友好、简单易上手的特点，社区活跃度不断提高。本土开发者中文交流非常方便。PaddlePaddle 已经升级为全面的深度学习开发套件，除了核心框架，还开放了 VisualDL、PARL、AutoDL、EasyDL、AI Studio 等一整套的深度学习工具组件和服务平台，更好地满足不同层次的深度学习开发者的开发需求。18 年百度加大了生态投入，在工业制造、农林领域有不少案例，对于想要落地应用场景，特别是针对中文语言处理的场景和大规模推荐场景，PaddlePaddle 或许是个不错的选择。

PyTorch＋Caffe2：脸书出品。PyTorch 前身是 Torch（一个基于 Lua 语言的深度学习库）。PyTorch 灵活性相比 TensorFlow 大大增强，支持动态构图，开发者可以随时改变神经网络的结构。PyTorch 今年因其易用性表现突出，越来越受到学术界的青睐。如果你是一名初学者，想要去复现前沿的算法，推荐使用 PyTorch。如果你是工业场景开发者，最好先搜一搜是否已经有使用 PyTorch 的成功落地案例。因为在运算效率、工业部署上，PyTorch 还不算成熟。 Caffe2 为生产环境设计，提供在各种平台（包括移动设备）的运行时。Caffe2 意在弥补 Pytorch 在生产环境的不足，目前还没有看到太多开发者反馈 Caffe2 的工业表现，需要更多时间验证。

MxNet：已被亚马逊 (Amazon) 选为 AWS 上的深度学习框架，支持动态图计算。优势是高效小巧，更适合自定义需求高的公司和研究者。如果你的工作需要对框架进行修改时，改 MxNet 要比改 TF 高效多了。MXNet 的用户相比其他框架并不算太多，有少量拥戴者。MXNet 在文档质量方便经常被诟病，新手还需要多磨合一下。

Keras：是一个用于快速构建深度学习原型的高层神经网络库，Keras 由纯 Python 编写而成，并基于 Tensorflow、Theano 以及 CNTK 后端。Keras 隐藏了大部分的内部运算，对于新手来说非常友好。如果想要快速入门，建议可以选择 Keras。但真的想成为深度学习大拿，还是要手动从零开始写一个神经网络的代码，否则容易依赖于 Keras 的易使用性而忽略底层原理。

XDL：阿里出品。X-Deep Learning (XDL) 是针对特定工业级场景（比如广告）深度学习问题的解决方案，而不是与其他框架并列的底层框架。实际上，XDL 采用桥接的方式支持使用 TensorFlow 和 MXNet 作为单节点的计算后端。对于已经使用 TensorFlow、MXNet 的开发者来说，如果需要在大规模稀疏场景应用可以选择 XDL 试试， XDL 依赖于阿里提供特定的部署环境，对非阿里系用户不是很人性化。

不同学习阶段、不同岗位的开发者，面对不同的业务场景需求应该选择什么深度学习框架？选择和衡量的标准是什么？

不同类型的用户，选择和衡量的标准会有一定差异。选择框架通常要考虑易用性、性能、社区、平台支持等问题。初学者应该考虑容易上手的框架。偏研究性的开发者，一般选择易用而且有领先的模型基线的框架。偏工业应用的开发者可以考虑使用稳定性高、性能好的框架。比较高阶的用户，往往需要同时掌握多个框架。最新的开源算法可能会基于某个框架，掌握多个框架可以更快复现前沿成果。同时不同框架在不同模型上有性能差异，掌握多个框架也可以选择在某个场景下最适合的框架。

在选择深度学习框架时有哪些经验可以分享？需要考虑哪些因素？

开发者通常用深度学习框架组建网络，去解决实际企业级业务中的具体问题，比如：词法分析、机器翻译等。选择框架时通常需要关注以下一些因素：

框架是否已经官方支持了当前最好的算法，比如中文词法分析任务。
框架是否高效。同样的算法用不同框架实现，训练速度更快，意味着更少的线下资源，更快的迭代速度；预测速度更快，意味着实际部署时可以为企业节省大量的机器资源，也具有更高的响应速度。
框架的接口是否容易使用。

掌握一个深度学习框架，开发者需要做哪些准备？

在开发者已经学习 Python 程序开发和深度学习基础知识的前提下，掌握一个深度学习框架，开发者需要了解框架的基本原理，学习并掌握框架的基本概念和用法。

通常可以先从官方文档开始，通过大致浏览官方文档对框架基本概念和用法有一个大致的了解。
另外可以结合官方提供的快速入门例子，在自己的机器上安装并练习使用。
然后可以再从官方的模型库里面挑选一些算法，进行学习参考。
结合自己具体任务组建网络，查看 API 接口文档，解决实际任务。

深度学习框架能“包治百病”吗？是否适用于所有应用场景需求？

需要提醒大家的是，深度学习框架不能包至百病，深度学习框架能够解决的是适合使用深度学习技术的应用场景。

深度学习（DL）是机器学习（ML）的一个分支，也是当下最流行的机器学习方法，虽然近几年在图像、语音、自然语言处理等应用方向，深度学习技术都取得了突破性的进展，但是我们依然不应该神话深度学习，认为深度学习无所不能。

适合掌握深度学习的任务应具备这样一些特点：

一、具备大量样本数据。如果样本数据难以获取或者数量太少，我们认为就不适合深度学习技术解决

二、样本数据对场景的覆盖度足够完善。深度学习模型的效果完全依赖样本数据表现，如果出现样本数据外的情况，模型的推广性会变差

三、结果对可解释性的要求不高。如果应用场景不仅要机器能够完成某项任务，还需对完成过程有明确的可解释性，这样的场景就不那么适合深度学习。

中国的深度学习框架有哪些不同于欧美国家主流深度学习开发框架的特点和创新？

从深度学习框架的特点来讲，中国和欧美的的区分未必是一个合适的分类方式。很多中国深度学习框架研发的主体是中国工程师，也是在中国公司成长起来的，自然对国内的实际应用特点把握得会更精准，而且在中文文档、中文教程以及中文模型配套上是独具特色的。

未来，框架发展会出现哪些趋势？

首先，当前仍处于深度学习研究和应用的持续火热期，深度学习框架及平台在研究界和工业界的需求仍持续增长。深度学习框架和平台在产业界的市场占有还未进入稳定期，当然未来一段时间应该也不会出现完全一家独大的垄断局面。一方面整体的市场需求是很大也很多样化的，另一方面不同框架在特性及发力点上自然会有一些差异性的适配。随着深度学习在各行各业的广泛应用，服务能力强的、更贴近用户需求的框架会有更大的提升机会。

过去一段时间，动态图的灵活性、易用性展现出对科研人员极大的吸引力，更多框架开始支持动态图，但需要进一步解决动态图下的性能优化问题。因为在工业界，训练效率和规模化始终是最重要的。所以，各框架取长补短趋同性比较明显，前端易用性、计算高效性、框架稳定性成为持续优化方向。当然，不同框架的先天基因的特性还是非常明显的。

此外需要注意的是，AI 专有芯片也在快速发展，框架和底层芯片的软硬结合一体化研发也日益引起关注。AI 应用部署场景快速扩张，框架对各硬件平台的快速部署和高效推理能力变得非常重要。整体而言，需要支持多硬件的高效计算。这也使得框架内部架构上倾向于更好的抽象分层，保持整体逻辑的统一性和异构硬件执行的高效性。

另一方面，深度学习框架的内涵也在延展。深度学习框架的出现本身就是为了深度学习研究、实验和应用的便利性，节省了开发者很大的编程代价。但对于深度学习技术而言，网络设计其实也是非常重要的一环，基础的深度学习框架是无法解决这个问题的。所以当下神经网络结构的自动设计 AutoDL 技术就成为新的热点，也和深度学习框架进行更紧密的结合。

从便利深度学习技术应用来讲，只靠开源框架还是不够的，需要场景化组件、模块、平台和产品的组合打法，框架之上的平台、配套组件构成的深度学习全流程解决方案对实际应用非常关键。若想深度学习框架在实际应用中发挥更大作用，是需要 更全面的综合服务配套建设的 。

如何看待接下来的框架之争？

随着深度学习技术的普及，各家框架的成熟化，深度学习技术的门槛会越来越低。在研究场景中，好用、灵活易扩展是最重要的考量因素，从目前的趋势来看，PyTorch 在易用性上有一定优势。PaddlePaddle 在实际生产场景中，框架的易用性、稳定性、生态资源的丰富度将取代技术的领先性成为开发者更重要的考量因素。从这点上，拥有完整生态资源、有实际应用场景支撑的框架会争夺到越来越多的企业开发者用户。在国外，依赖于谷歌生态的 TensorFlow，依赖于 AWS 云生态的 MXNet，未来都有一定的机会。