RuleMatrix:使用规则可视化和理解分类器 (RuleMatrix: Visualizing and Understanding Classifie...

栏目: 数据库 · 发布时间: 5年前

内容简介:随着机器学习技术的日益普及,人们对使机器学习系统更加透明和可解释的研究兴趣激增。研究者们已经开发了各种可视化以帮助模型开发者理解,诊断和改进机器学习模型。然而,大量潜在但被忽视的用户是领域专家,他们对机器学习知之甚少,但预计会与机器学习系统一起工作。本文作者提出了一种交互式可视化技术,以帮助在机器学习方面缺乏专业知识的用户理解,探索和验证预测模型。通过将模型视为黑盒子,作者从其输入 – 输出行为中提取标准化的基于规则的知识表示。然后,作者设计了RuleMatrix,基于矩阵的规则可视化,以帮助用户导航和验证

随着机器学习技术的日益普及,人们对使机器学习系统更加透明和可解释的研究兴趣激增。研究者们已经开发了各种可视化以帮助模型开发者理解,诊断和改进机器学习模型。然而,大量潜在但被忽视的用户是领域专家,他们对机器学习知之甚少,但预计会与机器学习系统一起工作。本文作者提出了一种交互式可视化技术,以帮助在机器学习方面缺乏专业知识的用户理解,探索和验证预测模型。通过将模型视为黑盒子,作者从其输入 – 输出行为中提取标准化的基于规则的知识表示。然后,作者设计了RuleMatrix,基于矩阵的规则可视化,以帮助用户导航和验证规则和黑盒模型。作者通过两个用例和一个可用性研究来评估RuleMatrix的有效性。

RuleMatrix:使用规则可视化和理解分类器 (RuleMatrix: Visualizing and Understanding Classifie...

Rule Matrix视图

整篇论文包括两个主要部分,生成拟合原始模型的规则推断部分和可视化部分。

在生成规则列表部分,本文作者提供了一个算法,如下:

一,作者模拟所提供的训练数据的分布,使用联合分布估计,可同时处理离散和连续特征;二,作者从联合分布采样了一些数据X_sample。样本数量是可自定义的参数,可以大于原始训练数据的数量;三,使用原始模型 F 来标记采样数据X_sample。四,作者使用采样数据X_sample和标签Y_sample训练规则清单。训练算法有一些选择,算法以及关键步骤伪代码如下:

RuleMatrix:使用规则可视化和理解分类器 (RuleMatrix: Visualizing and Understanding Classifie...

规则推断算法

RuleMatrix:使用规则可视化和理解分类器 (RuleMatrix: Visualizing and Understanding Classifie...

规则推断算法第一步

另外,本文中规则推断算法的第四步,采用了SBRL[1]算法,也可以参考Letham的工作[2]或者《可解释机器学习》这本书[3].

本文的第二个主要部分,是可视化接口部分。

如下图所示:

RuleMatrix:使用规则可视化和理解分类器 (RuleMatrix: Visualizing and Understanding Classifie...

Rule Matrix接口

接口部分的主要交互则包括

1. 规则过滤:当提取的规则列表太长时,规则的过滤有助于减轻可伸缩性问题并减少认知负荷。当面对复杂模型( 例如 ,具有多个层的神经网络,或具有非线性内核的SVM)或复杂数据集时,就会发生这种情况。为了学习与模型非常接近的规则列表,规则列表的复杂性不可避免地增加。在作者的实现中,作者提供了两种类型的过滤器: 支持过滤和置信过滤 。前者过​​滤了几乎没有支持的规则,这些规则很少被解雇而且并不突出。后者过滤具有低置信度的规则,这些规则在区分不同类别时并不重要。在作者的实现中,过滤后的规则被分组为折叠的“规则”,以便用户可以跟踪它们。用户还可以展开折叠的规则以查看完整详细信息。通过调整规则过滤器,用户可以浏览超过100条规则的列表,而不会产生重大的认知负担;

2. 数据过滤:需要数据过滤功能来支持两种情况。首先,数据过滤允许用户应用 分而治之的 策略来理解模型的行为, 只关注模型对感兴趣的数据的行为。其次,通过过滤,用户可以识别数据表中的数据条目( 图1D )支持特定规则。这提高了用户对系统和模型的信任。在作者的实验中,作者发现数据过滤器可以大大减少与规则过滤器结合使用时显示的规则数量;

3. 为了提供简洁明了的界面,作者隐藏了用户可以按需查看的详细信息。用户可以通过两种方式请求详细信息:直接与RuleMatrix交互或修改控制面板中的设置。在RuleMatrix中,用户可以通过将鼠标悬停在相应的单元格上来检查子句的实际文本描述。要查看有关数据分布的详细信息,用户可以单击一个单元格,该单元格展开单元格并显示分布的流图(连续特征)或堆积条形图(分类特征)。连续特征的流图选择是由于它能够防止颜色不连续。显示跟随鼠标的垂直标尺,以帮助在多个规则中使用相同的特征对齐和比较子句的间隔。用户可以通过将鼠标悬停在证据条或数据流的某些部分来查看实际的数据量。用户可以通过修改控制面板中的设置来查看条件分布或隐藏条带化错误框。

[1]H.Yang, C.Rudin, M.Seltzer. (2017). Scalable Bayesian rule lists. Int. Conf. Machine Learning (ICML).

[2]Letham, B., Rudin, C., McCormick, T. H., Madigan, D. (2015). Interpretable classifiers using rules and bayesian analysis: Building a better stroke prediction model. Annals of Applied Statistics , 9 (3), 1350–1371

[3]Christoph Molnar. (2019-04-12). Interpretable Machine Learning. https://christophm.github.io/interpretable-ml-book/rules.html#bayesian-rule-lists .


以上所述就是小编给大家介绍的《RuleMatrix:使用规则可视化和理解分类器 (RuleMatrix: Visualizing and Understanding Classifie...》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Python高效开发实战——Django、Tornado、Flask、Twisted(第2版)

Python高效开发实战——Django、Tornado、Flask、Twisted(第2版)

刘长龙 / 电子工业出版社 / 2019-1 / 99

也许你听说过全栈工程师,他们善于设计系统架构,精通数据库建模、通用网络协议、后端并发处理、前端界面设计,在学术研究或工程项目上能独当一面。通过对Python 3及相关Web框架的学习和实践,你就可以成为这样的全能型人才。 《Python高效开发实战——Django、Tornado、Flask、Twisted(第2版)》分为3篇:上篇是Python基础,带领初学者实践Python开发环境,掌握......一起来看看 《Python高效开发实战——Django、Tornado、Flask、Twisted(第2版)》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具