ATMSeer 拯救工程师的发际线

栏目: 数据库 · 发布时间: 6年前

内容简介:(来源:Qianwen Wang,et al./HKUST)

ATMSeer 拯救工程师的发际线

ATMSeer 拯救工程师的发际线

(来源:Qianwen Wang,et al./HKUST)

来自香港科技大学的 Qianwen Wang、浙江大学的 Zhihua Jin 和麻省理工学院的科研人员, 近日 搞出一件造福业界人士的大事件——在发表于 ACM CHI 会议的一篇工作中, 提出了一个实现交互式自动机器学习(Automated Machine-learning,AutoML)可视化的工具 ATMSeer。

利用 ATMSeer 多粒度可视化自动机器学习的结果,从深度和广度上,对自动机器学习的模型、不同组别设定以及超参数三个层级做出探究,让自动机器学习的过程透明化,可实现对结果的理解分析,并且能通过交互接口实时修正自动机器学习过程。此举可谓解放“劳工 ,解放日日夜夜被控住的你。

这一切是怎么发生的?ATMSeer 做了什么?让我们一探究竟。

算法工程师的自我救赎

在 ATMSeer 之前,自动机器学习早已诞生。

针对特定任务设计不同的算法并优化超参数,以期得到最佳的模型表现,这是一个漫长的过程,模型的选择、参数的调整,靠灵机一动根本无法解决,只有漫长的岁月与伴随秃头积累的经验,才是真实而惨烈的解决手段。

对此,早有人提出,设计一套自动选择模型及参数的方案,充分利用计算机的算力进行自动机器学习,不是比人类有限的尝试更有效吗?如此,AutoML 应运而生,而这一过程一般都是“黑盒呈现 。研究者一般决定几个 Decision,比如选定哪些模型,超参数范围确定,训练时间设定,然后 AutoML 产生模型,这一套背后的具体过程我们无法得知。

ATMSeer 拯救工程师的发际线

图 | 自动机器学习的一般流程。(来源:Qianwen Wang, et al./HKUST)

因此,几个不容忽视的问题随之而来:AutoML 测试了哪些模型?是否详尽地探索了每个模型并得到该模型的最佳表现?是否暗含弊端与疏漏?工程师不知道这些问题的答案,便难以放心大胆地使用 AutoML,即使采用,也难以对最后筛选的模型、参数进行更适合自己的调整。

由此,Qianwen Wang 等人设计了 ATMSeer。

撕开 ATMSeer 黑盒

ATMSeer 界面包括三个面板:一个控制面板 a,一个概览面板 b,一个 AutoML 分析及调节面板 c。

控制面板 a :上传数据集,设定 AutoML 流程,能实现 AutoML 过程的起始和暂停。

概览面板 b :展示如模型的个数、所筛选的超参数等数据,如图 b1 是对 AutoML 的诸如最佳模型、算法模型数量、超参数个数,模型表现分布的一般总结,而 b2 列出了表现 top k 的各个算法模型。

分析及调节面板 c :从模型、不同组别设定、超参数三个层级上对模型的表现进行分析展示,在模型层级 c1 上,一种算法的所有模型表现被表示成水平直方图,按降序展示表现最佳的模型,直方图的分布也就是模型表现的分布,用户能够比较不同模型的表现,以及每个模型的稳定性;在组别设定层级 c2 上,一个格子代表某种模型一组参数设定(比如格子 1 可以选定 SVM 模型的线性核函数,格子 2 可以选定 SVM 模型的多项式核函数)的训练,柱形高度代表模型的表现,一个格子里不同的柱形方块代表不同次的训练,用户可以从更细小的力度上实现对模型的分析掌控;在超参数层级 c3 上,每个模型被表示成散点图里的圆点,散点图的 x 轴代表一个超参数的值,y 轴代表模型表现。不同的超参数的影响可以直观地被展示出来,有利于用户实现精细的调整。

ATMSeer 拯救工程师的发际线

图 | ATMSeer 工作界面。控制面板 a 用来开始一个 AutoML 进程;概览面板 b 用来观察 AutoML 进程的一般统计数据;包含三个粒度的分析面板 c 用来分析模型表现并实现实时调节。(来源:Qianwen Wang, et al./HKUST)

当用 ATMSeer 可视化自动机器学习时,用户可以实现实时监察和控制,由于分析及调节面板 c 里内嵌交互接口,用户可以直接实时更改参数,进而可以实现一个“跑模型-调参数-跑模型 的工作流程,直接看到自己的调整后的结果。

ATMSeer 登场

1. 如何利用 ATMSeer 进行选择和分析?

如利用分类模型将数据集 arsenic-female-bladder(含有 559 个女性样本,或者为癌症患者,或者为健康人)分类,ATMSeer 展示了不同模型的结果,图中,a 表示模型层级上最佳表现均为 0.939, 但 knn 模型更稳定,一般表现都在 0.8 以上,其他模型存在很差表现的可能;b 说明不同组设定下 knn 表现都在 0.93 左右,也就是不同设定对 knn 表现影响不大,但同一套设定下,表现可能有好有坏,而 c 说明小的 neighbors 参数设置会导致分类结果较差。

ATMSeer 拯救工程师的发际线

图 | 如何利用 ATMSeer 分析和选择模型。(来源:Qianwen Wang, et al./HKUST)

2. 如何利用 ATMSeer 进行自动机器学习的调整?

理解分析了 AutoML 结果之后,如何实时调整 AutoML 的训练呢?如图对 Friedman 数据集 fri_c3_1000_10(含有 1000 个样本点,每个样本为 10 维数据)分类,选定 ET(Extra Trees)模型,虽然 MLP 最佳表现更强,但并不稳定,此时 ET 模型只训练了 3 个,继续训练出 30 个 ET 模型,b 中显示最佳表现可以达到 0.906,并且 gini 指数和交叉熵这两种损失的选择对模型影响不大,进一步由 c 可知,超参数 max_features 影响模型表现,调整为 0.7-1.0,训练另外 50 个模型,模型表现上升至 0.922。

ATMSeer 拯救工程师的发际线

图 | 如何利用 ATMSeer 进行 AutoML 的调整。(来源:Qianwen Wang, et al./HKUST)

在此之前,也不是没有可视化机器学习模型的工具,但能够如此应用广泛而又有深度地衡量各个机器学习模型表现,实现可视化并能够实时调整者无出其右。这不仅有利于解放业界人士的机械式体力劳动,对于那些业界新手以及需要用到机器学习的跨界新人来说,更是一个实用利器。

参考:

https://arxiv.org/pdf/1902.05009.pdf

ATMSeer 拯救工程师的发际线


以上所述就是小编给大家介绍的《ATMSeer 拯救工程师的发际线》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

软件框架设计的艺术

软件框架设计的艺术

[捷] Jaroslav Tulach / 王磊、朱兴 / 人民邮电出版社 / 2011-3 / 75.00元

本书帮助你解决API 设计方面的问题,共分3 个部分,分别指出学习API 设计是需要进行科学的训练的、Java 语言在设计方面的理论及设计和维护API 时的常见情况,并提供了各种技巧来解决相应的问题。 本书作者是NetBeans 的创始人,也是NetBeans 项目最初的架构师。相信在API 设计中遇到问题时,本书将不可或缺。 本书适用于软件设计人员阅读。一起来看看 《软件框架设计的艺术》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器