内容简介:作为一个数据挖掘应用程序,IBM SPSS Modeler 提供了一种在大数据集中查找有用关系的策略方法。与更传统的统计方法相比,您不需要在一开始就知道要查找哪些关系。您可以探索您的数据,拟合不同的模型并研究不同的关系,直到找到有用的信息。本教程已在 Windows 7 上使用 IBM SPSS Modeler v18.1 进行了测试。学完本教程后,您将掌握如何:完成本教程大约需要 30 分钟。
作为一个数据挖掘应用程序,IBM SPSS Modeler 提供了一种在大数据集中查找有用关系的策略方法。与更传统的统计方法相比,您不需要在一开始就知道要查找哪些关系。您可以探索您的数据,拟合不同的模型并研究不同的关系,直到找到有用的信息。本教程已在 Windows 7 上使用 IBM SPSS Modeler v18.1 进行了测试。
学习目标
学完本教程后,您将掌握如何:
- 使用 IBM SPSS Modeler v18.1 创建统计模型并审查所创建的统计模型
前提条件
- IBM SPSS Modeler
- 数据。本教程使用的数据来自 Watson Analytics 社区的
WA_Retail-SalesMarketing_-ProfitCost.csv
的数据。
预估时间
完成本教程大约需要 30 分钟。
步骤
启动 IBM SPSS Modeler
利用 IBM SPSS Modeler 处理数据需要三个步骤。
- 首先,将数据读入 IBM SPSS Modeler。
- 其次,通过一系列操作来运行数据。
- 最后,将数据发送至目标。
这个操作序列被称为数据流,因为每个操作中,数据都是按照记录逐条地从数据源移动,最终,生成一种模型或数据输出。
循序渐进地进行这个过程。。通过右键单击每个节点并按住 Connect 移动到下一个节点,选择节点、操作节点并连接到后续节点。
1.读取数据
导入数据
这是 SPSS 流中的第一步。选择 Sources 面板下的 Var.File 节点,并拖放到 SPSS Modeler 界面上。 Var.File 选项用于读取 csv 文件、文本文件等。
读取数据
下一步是读取 SPSS 中的数据。选择文件右侧的单选按钮,导航到保存数据文件的文件夹。单击 open ,然后单击 OK 。
审核数据
第三步是从 Output 面板中选择 Data Audit 节点。
Data Audit 节点有助于确认存在多少条有效记录,以及基本的统计数据。下面的屏幕截图显示记录总数为 84672, Revenue 及下面的属性仅有 24743 条有效记录,剩余属性为 null。
替换 null 值
下一个操作是将 null 替换为各个属性的均值。从 Field Ops 面板中选择 Filler 节点,然后从 Output 面板中选择 Set Globals 节点,以查找多个属性的均值。
将 Nulls 替换为 Mean (均)值。
派生新变量
数值列应该包含实数。这里创建了一个名为 Quantity_New 的新属性用于将数据类型从整数转换为实数。
将新创建的变量的 Nulls 替换为 Mean 值。
再次审核数据
再次运行 Data Audit ,检查 Nulls 是否已替换为 Mean 值。 请注意,除 Quantity 外的所有属性都有 84672 条记录。使用 Quantity_New 属性替换 Quantity ,以便实现数据分析和建模。
2.提炼数据
选择输入参数
继续执行下一个操作。选择输入参数和目标变量。从 Field Ops 面板中选择 Type 节点。
Type 节点允许选择输入变量和目标变量。应该忽略分类变量,按以下方式进行选择。
对数据进行分区
我们需要在 训练与测试数据 之间使用推荐的 70:30 拆分比例来分割数据。从 Field Ops 面板中选择 Partition 节点。
基于 Training data 上构建模型,并在 Testing Data 上进行测试。在数据中创建 分区 。
选择用于构建模型的训练数据
使用 Record Ops 中的 Select 节点来选择用于构建模型的 训练数据 。
选择 Training Data 节点,并单击 Annotations 将其重命名为 Training_Data 。默认名称为 Select。
从 Modelling 面板,将 Auto Numeric 节点拖放到界面上。当我们预测一个连续变量(数值数据)时,我们选择 Auto Numeric 节点。如果您想预测一个分类变量,请选择 Auto Classifier 节点。
节点的名称默认为我们尝试预测的变量。在本例中,该名称是 Revenue 。在此节点中,我们将使用 Fields 下为实现建模而预定义的角色。因为我们上一步已在 Type 节点下选择了输入和目标变量。
我们选择以下 参数 建模。
我们可以在 Auto Numeric 节点中的 Expert 选项卡下选择不同的算法,然后右键单击该节点并单击 Run。
3.审查并测试模型
审查统计模型
我们使用 SPSS 创建了 3 个用于预测的模型,因为我们已在 Auto Numeric 节点中将要使用的模型数量指定为 3。
选择第一个模型,单击 Graph 选项卡来查看散点图和预测指标重要性。
单击 Summary 选项卡来识别输入/目标变量和其他详细信息。
测试模型
使用 Record Ops 中的 Select 节点来选择用于模型测试和评估的 测试数据 。
选择 Testing Data 并单击 Annotations ,将该节点重命名为 Testing_Data。默认名称为 Select。
右键单击 Testing_Data 节点 并连接到该模型块,然后单击 Run。从 Output 面板中选择 Analysis 节点,将它连接到模型块并单击 Run。
分析结果
分析结果 。在本例中,模型的准确率为 100%,没有误差,这与大多数时候的情况不符。模型准确度和误差还取决于正在使用的数据。
导出结果
从 Output 面板中选择 Table 节点来导出结果。
在 Table 节点中,选择 output to file 选项将结果导出到 csv 文件。选择 File name 旁边的单选按钮,并提供 csv 文件的导出路径。输出文件有两个附加属性: $XR-Revenue 是我们预测的输出,它是每个模型各自的预测值的平均值, $XRE-Revenue 是全体模型所做预测的标准误差。
4.完成 SPSS 建模流
下面显示了该流的完整流程。
本文仅尝试介绍了创建 统计模型 的基本步骤。可以进一步增强这些步骤,以满足不同的需求。
结束语
感谢您阅读本教程,希望您在下一个数据分析项目中更精通并更倾向于使用 IBM SPSS Modeler 18.1。
参考资源
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 华为分析 5.2.0 版本发布,四大亮点让数据洞察更深入
- 数据全景洞察概念简介
- 洞察敏捷模型
- 洞察设计模式的底层逻辑
- 深入场景洞察用户 诸葛io决胜2017国际黑客松大赛
- 代码的背后,第 6 部分: 融合的 Fantasy Football 洞察
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
JavaScript精粹
爱德华兹 / 高铁军 / 人民邮电出版社 / 2007-6 / 49.00元
《JavaScript 精粹》主要介绍JavaScript应用中一些常见的问题及其解决方法,从最基础的数字、字符串、数组到进阶的DOM、表单验证、cookie,再到较为高级的Ajax,书中均有涉及。《JavaScript 精粹》覆盖现在非常流行和通用的技术,提出很多出现频率较高的Web开发常见问题,并提供了大量的技巧和解决方案,具有很强的实用性和通用性,书中的代码也具有很强的兼容性。《JavaSc......一起来看看 《JavaScript精粹》 这本书的介绍吧!
Base64 编码/解码
Base64 编码/解码
RGB HSV 转换
RGB HSV 互转工具