IT资讯 LinkedIn 开源 Java 机器学习函数库 Dagli,面向 JVM 优化

waite · 2020-11-16 10:00:06 · 热度: 27

LinkedIn 宣布开源 Dagli,Dagli 是一个用于 Java(和其他 JVM 语言)的开源机器学习函数库,其开发团队表示通过它可轻松编写不易出错、可读、可修改、可维护且易于部署的模型管道,而不会引起技术债。Dagli 充分利用了现代多核的 CPU 和功能日益强大的 GPU,可以对真实世界模型进行有效的单机训练。

LinkedIn 提到近年来诞生了越来越多的优秀机器学习工具,比如用于神经网络的 TensorFlow, PyTorch, DeepLearning4J 和 CNTK;用于极大规模数据管道的 Spark 和 Kubeflow,以及用于各种常见模型的 scikit-learn, ML.NET 和最近的 Tribuo。

然而,模型通常是集成管道(包括特征变换器)的一部分,构建、训练和将这些管道部署到生产环境仍比原来更繁琐。为了适应训练和推理,往往需要进行重复或多余的工作,从而产生“胶水”代码,导致模型的未来演变和维护复杂化,并造成长期的技术负担。

这就是 LinkedIn 推出 Dagli 的原因,他们希望 Dagli 能解决因为模型而导致技术负担的问题。

LinkedIn 认为,无论是经验丰富的机器学习工程师,还是是刚接触机器学习不久的开发者,都能够使用 Dagli 开发机器学习模型。对资深机器学习工程师来说,Dagli 提供了一个简便的方法来开发高效且适用于生产环境的模型,该模型能够被长期维护,并在需要时进行扩展,能够与现在基于 JVM 的技术栈整合。

而对于刚接触机器学习的工程师而言,Dagli 提供了直观好用的 API,可结合熟悉的 JVM 工具使用,避免出现常见的逻辑错误。Dagli 将机器学习管道表示为有向无环图 (DAG),同时用于训练和推理,无需指定用于训练的管道和用于推理的单独管道。

Dagli 使用简单可读的 ML 管道定义,还包括大量的的静态类型以及不可变性,从根本设计上,杜绝了大部分潜在的逻辑错误。此外,Dagli 具有高度可移植性,使用者可在任何平台上的服务器、Hadoop、CLI、IDE 以及任何 JVM 上下文环境中使用。

延伸阅读

猜你喜欢:
暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册