记一次PMML文件的处理过程

栏目: 数据库 · 发布时间: 5年前

内容简介:业务方说需要我做个注:作者去简单尝试了

背景

业务方说需要我做个 web 界面,在上面输入一条网站访问线索的信息,后台通过机器学习计算这条线索的评级,例如这条线索对应的用户购买意愿有多强之类的。而机器学习对应的模型,也是业务方自己用 KNIME 这个软件训练的,然后将训练完的模型导出为一个 PMML 格式的文件,我所需要做的主要工作就是导入这个文件,转换成对应的机器学习模型。

注:作者去简单尝试了 KNIME 这个软件,感觉是个数据分析的利器。 [链接]

PMML 介绍

PMML(Predictive Model Markup Language) 全称是 预测模型标记语言 ,既然叫做标记语言,那其实与 html/XML 等也是非常类似的,只是它存储的是机器学习模型的信息,比如特征名称、类型、个数,模型种类等等。它常用于部署,例如模型在 dev 环节训练好了,将其导出为一个 PMML 文件,然后在 prod 环境中导入即可,也很方便在不同的环境间传递模型,例如使用 python 训练出来的模型,用 R 来调用和预测。

Python 导入 PMML 的问题

现在大部分语言都支持将训练好的模型 导出PMML 文件, python 同样也可以使用 sklearn2pmml 这个库来导出模型, 但我发现没有一个很好的 工具 能反向操作,将已有的 PMML 文件还原成 sklearn 中的机器学习模型。 于是在 GitHub 尝试了一些方案,如下:

  1. 找到一个项目叫做 jpmml-evaluator ,是用 java 写的,它支持将 PMML 导入到 java 中,进入作者的仓库中,又发现一个叫做 jpmml-evaluator-python ,根据 ReadMe 介绍,这是一个将 jpmml-evaluator 做了简单封装的 python 版本,使 python 可以导入 PMML 文件,但用户较少, start 也只有 1 ,试用时发现了问题,也向作者反馈了,并且作者还因此更新了代码,但仍然没有解决。 issue 链接: https://github.com/jpmml/jpmm...
  2. 又找了一个叫做 sklearn-pmml-model ,目前也是用户少,功能不完整(支持的模型有限)的情况,但在安装过程中就出错,联系了作者,未获得反馈。
  3. openscoring 项目,同样也是一个用 java 写的项目,其作用就是支持开启一个服务端用于调用机器学习模型,客户端向服务端传递机器学习的 PMML 文件和预测数据,服务端可以使用 jar 包一键部署,而客户端则可以使用 java/python/R 等不同的 SDK ,甚至直接使用 curl ,最终该方案用上了。在和作者沟通中,作者还指出了 KNIME 导出的 PMML 存在的 BUG ,并建议向 KNIME 反馈这个 BUG

以上所述就是小编给大家介绍的《记一次PMML文件的处理过程》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

黑客简史:棱镜中的帝国

黑客简史:棱镜中的帝国

刘创 / 电子工业出版社 / 2015-1 / 39.80元

“黑客”,伴随着计算机和互联网而诞生,他们掌握着前沿的计算机和网络技术,能够发现并利用计算机系统和网络的弱点,他们的行为动机多样,因此我们必须对这一群体进行分解,认识他们及其技术的两面性——“黑客”中那些不断拓展技术边界、富于创造力的,和那些掌握技术、却利欲熏心的,就像硬币的两面,谁都无法清晰地辨别是非。相对于主流文化,黑客的行为方式和理念等形成了一种“亚文化”,与主流文化相互作用。一起来看看 《黑客简史:棱镜中的帝国》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具