内容简介:作为一个数据挖掘应用程序,IBM SPSS Modeler 提供了一种在大数据集中查找有用关系的策略方法。与更传统的统计方法相比,您不需要在一开始就知道要查找哪些关系。您可以探索您的数据,拟合不同的模型并研究不同的关系,直到找到有用的信息。本教程已在 Windows 7 上使用 IBM SPSS Modeler v18.1 进行了测试。学完本教程后,您将掌握如何:完成本教程大约需要 30 分钟。
作为一个数据挖掘应用程序,IBM SPSS Modeler 提供了一种在大数据集中查找有用关系的策略方法。与更传统的统计方法相比,您不需要在一开始就知道要查找哪些关系。您可以探索您的数据,拟合不同的模型并研究不同的关系,直到找到有用的信息。本教程已在 Windows 7 上使用 IBM SPSS Modeler v18.1 进行了测试。
学习目标
学完本教程后,您将掌握如何:
- 使用 IBM SPSS Modeler v18.1 创建统计模型并审查所创建的统计模型
前提条件
- IBM SPSS Modeler
- 数据。本教程使用的数据来自 Watson Analytics 社区的
WA_Retail-SalesMarketing_-ProfitCost.csv
的数据。
预估时间
完成本教程大约需要 30 分钟。
步骤
启动 IBM SPSS Modeler
利用 IBM SPSS Modeler 处理数据需要三个步骤。
- 首先,将数据读入 IBM SPSS Modeler。
- 其次,通过一系列操作来运行数据。
- 最后,将数据发送至目标。
这个操作序列被称为数据流,因为每个操作中,数据都是按照记录逐条地从数据源移动,最终,生成一种模型或数据输出。
循序渐进地进行这个过程。。通过右键单击每个节点并按住 Connect 移动到下一个节点,选择节点、操作节点并连接到后续节点。
1.读取数据
导入数据
这是 SPSS 流中的第一步。选择 Sources 面板下的 Var.File 节点,并拖放到 SPSS Modeler 界面上。 Var.File 选项用于读取 csv 文件、文本文件等。
读取数据
下一步是读取 SPSS 中的数据。选择文件右侧的单选按钮,导航到保存数据文件的文件夹。单击 open ,然后单击 OK 。
审核数据
第三步是从 Output 面板中选择 Data Audit 节点。
Data Audit 节点有助于确认存在多少条有效记录,以及基本的统计数据。下面的屏幕截图显示记录总数为 84672, Revenue 及下面的属性仅有 24743 条有效记录,剩余属性为 null。
替换 null 值
下一个操作是将 null 替换为各个属性的均值。从 Field Ops 面板中选择 Filler 节点,然后从 Output 面板中选择 Set Globals 节点,以查找多个属性的均值。
将 Nulls 替换为 Mean (均)值。
派生新变量
数值列应该包含实数。这里创建了一个名为 Quantity_New 的新属性用于将数据类型从整数转换为实数。
将新创建的变量的 Nulls 替换为 Mean 值。
再次审核数据
再次运行 Data Audit ,检查 Nulls 是否已替换为 Mean 值。 请注意,除 Quantity 外的所有属性都有 84672 条记录。使用 Quantity_New 属性替换 Quantity ,以便实现数据分析和建模。
2.提炼数据
选择输入参数
继续执行下一个操作。选择输入参数和目标变量。从 Field Ops 面板中选择 Type 节点。
Type 节点允许选择输入变量和目标变量。应该忽略分类变量,按以下方式进行选择。
对数据进行分区
我们需要在 训练与测试数据 之间使用推荐的 70:30 拆分比例来分割数据。从 Field Ops 面板中选择 Partition 节点。
基于 Training data 上构建模型,并在 Testing Data 上进行测试。在数据中创建 分区 。
选择用于构建模型的训练数据
使用 Record Ops 中的 Select 节点来选择用于构建模型的 训练数据 。
选择 Training Data 节点,并单击 Annotations 将其重命名为 Training_Data 。默认名称为 Select。
从 Modelling 面板,将 Auto Numeric 节点拖放到界面上。当我们预测一个连续变量(数值数据)时,我们选择 Auto Numeric 节点。如果您想预测一个分类变量,请选择 Auto Classifier 节点。
节点的名称默认为我们尝试预测的变量。在本例中,该名称是 Revenue 。在此节点中,我们将使用 Fields 下为实现建模而预定义的角色。因为我们上一步已在 Type 节点下选择了输入和目标变量。
我们选择以下 参数 建模。
我们可以在 Auto Numeric 节点中的 Expert 选项卡下选择不同的算法,然后右键单击该节点并单击 Run。
3.审查并测试模型
审查统计模型
我们使用 SPSS 创建了 3 个用于预测的模型,因为我们已在 Auto Numeric 节点中将要使用的模型数量指定为 3。
选择第一个模型,单击 Graph 选项卡来查看散点图和预测指标重要性。
单击 Summary 选项卡来识别输入/目标变量和其他详细信息。
测试模型
使用 Record Ops 中的 Select 节点来选择用于模型测试和评估的 测试数据 。
选择 Testing Data 并单击 Annotations ,将该节点重命名为 Testing_Data。默认名称为 Select。
右键单击 Testing_Data 节点 并连接到该模型块,然后单击 Run。从 Output 面板中选择 Analysis 节点,将它连接到模型块并单击 Run。
分析结果
分析结果 。在本例中,模型的准确率为 100%,没有误差,这与大多数时候的情况不符。模型准确度和误差还取决于正在使用的数据。
导出结果
从 Output 面板中选择 Table 节点来导出结果。
在 Table 节点中,选择 output to file 选项将结果导出到 csv 文件。选择 File name 旁边的单选按钮,并提供 csv 文件的导出路径。输出文件有两个附加属性: $XR-Revenue 是我们预测的输出,它是每个模型各自的预测值的平均值, $XRE-Revenue 是全体模型所做预测的标准误差。
4.完成 SPSS 建模流
下面显示了该流的完整流程。
本文仅尝试介绍了创建 统计模型 的基本步骤。可以进一步增强这些步骤,以满足不同的需求。
结束语
感谢您阅读本教程,希望您在下一个数据分析项目中更精通并更倾向于使用 IBM SPSS Modeler 18.1。
参考资源
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 华为分析 5.2.0 版本发布,四大亮点让数据洞察更深入
- 数据全景洞察概念简介
- 洞察敏捷模型
- 洞察设计模式的底层逻辑
- 深入场景洞察用户 诸葛io决胜2017国际黑客松大赛
- 代码的背后,第 6 部分: 融合的 Fantasy Football 洞察
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
码出高效:Java开发手册
杨冠宝、高海慧 / 电子工业出版社 / 2018-10 / 99.00元
《码出高效:Java 开发手册》源于影响了全球250万名开发工程师的《阿里巴巴Java开发手册》,作者静心沉淀,对Java规约的来龙去脉进行了全面而彻底的内容梳理。《码出高效:Java 开发手册》以实战为中心,以新颖的角度全面阐述面向对象理论,逐步深入地探索怎样成为一位优秀开发工程师。比如:如何驾轻就熟地使用各类集合框架;如何得心应手地处理高并发多线程问题;如何顺其自然地写出可读性强、可维护性好的......一起来看看 《码出高效:Java开发手册》 这本书的介绍吧!