Duplicate Row Filter 重复行过滤节点

栏目: IT技术 · 发布时间: 5年前

重点:2/3 难度:1/3

Duplicate Row Filter 重复行过滤节点。在 KNIME 4.0 版本之前,都是没有重复行过滤节点的。但这并不代表之前版本的 KNIME 不能处理重复行问题。在没有这个节点时,可以使用 `GroupBy` 节点来处理重复行的问题。在 4.0 版本之后,有了这个节点,处理重复行问题就更方便了。重复行节点配置中可以让用户选择一行中某几列相同,就可以认为是重复行。我们可以把重复行去除,也可以进行标记保留。标记保留时,会使用 unique、chosen、duplicate 三种状态来进行标识,而保留的原则可以是第一次出现重复、最后一次出现重复,也可以对选定之前相同行认定排除出去不进行比较的列中最大或最小的那一行进行保留。这个节点比较简单,如果想要实验,可以直接下载[这个链接中的 workflow](https://hub.knime.com/knime/spaces/Examples/latest/02_ETL_Data_Manipulation/01_Filtering/08_Filtering_Duplicates) 进行练习掌握。

Duplicate Row Filter 重复行过滤节点

Duplicate Row Filter相同行判定选择页

Duplicate Row Filter 重复行过滤节点

Duplicate Row Filter高级选项页

值得一提的是这个节点的来历:KNIME 曾经发了一份用户问卷调查,作为对用户的感谢,他们挑出社区成员最想要的一个节点并进行实现。而去除重复行就是这个大家都要求的节点!KNIME 不止给了去除重复行的功能,如我们所见,这个节点还可以选定一些策略进行选择和标记。另外,KNIME 社区还有一个叫做 feature request 的子板块,如果你觉得某个功能是用的特别频繁的,可以去给他们提建议!当然,你也可以自己完成节点功能,贡献给社区。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

WWW信息体系结构(影印版第2版)

WWW信息体系结构(影印版第2版)

Louis Rosenfeld / 清华大学出版社 / 2003-6 / 49.8

如今的网站和内联网已经变得比以前越来越大,越来越有价值,而且越来越复杂,同时其用户也变得更忙,也更加不能容忍错误的发生。数目庞大的信息、快速的变化、新兴的技术和公司策略是设计师、信息体系结构构建师和网站管理员必须面对的事情,而这些已经让某些网让看起来像是个快速增长却规划很差的城市——到处都是路,却无法导航。规划精良的信息体系结构当前正是最关键性的。 本书介绍的是如何使用美学和机械学的理念创建......一起来看看 《WWW信息体系结构(影印版第2版)》 这本书的介绍吧!

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具