通过结合使用 SPSS 与数据库仓库连接开展预测性分析

栏目: 数据库 · 发布时间: 6年前

内容简介：IBM SPSS Modeler 提供预测性分析，可帮助您发现数据模式，提高预测准确性，并改进决策。本教程演示了在 Watson Studio 上使用 SPSS Modeler 的端到端流程：在 Db2 Warehouse 数据库中摄取数据，执行分析，并将结果作为新表重新存储到数据库中。本教程将展示如何：完成本教程大约需要 30 分钟。

IBM SPSS Modeler 提供预测性分析，可帮助您发现数据模式，提高预测准确性，并改进决策。本教程演示了在 Watson Studio 上使用 SPSS Modeler 的端到端流程：在 Db2 Warehouse 数据库中摄取数据，执行分析，并将结果作为新表重新存储到数据库中。

学习目标

本教程将展示如何：

在 Watson Studio 中添加 Db2 Warehouse 连接。
创建一个新的 SPSS Modeler 流或添加一个现有的 SPSS Modeler。
运行 SPSS Modeler 并将输出存储在 Db2 Warehouse 中。

前提条件

IBM Cloud 帐户
IBM Cloud 目录中的对象存储服务实例
IBM Cloud 目录中的 Watson Studio 服务实例
IBM Cloud 目录中的 Db2 Warehouse 服务实例
对于本教程，我们将使用 Kaggle 的 Titanic 数据集，可在此处找到。在您下载了该数据集之后，将文件解压缩到本地文件系统。

预估时间

完成本教程大约需要 30 分钟。

步骤

第 1 步：在 Db2 Warehouse 中加载样本数据

打开IBM Cloud Dashboard，然后在 Cloud Foundry Services 下面打开您创建的 Db2 Warehouse instance 。
在打开的页面中单击 Open Console ，如下所示。
在此服务打开之后，从侧边菜单中单击 load 选项。
从 Kaggle 提供的解压数据文件夹中选择 train.csv 文件。
在加载后，选择适当的模式，通常指定为 DASH 后跟一系列数字。单击 New Table 选项，如下所示。
将其命名为 TITANIC_DATA 或者您选择的任何其他名称。然后单击 Begin Load 。

第 2 步：在 Watson Studio 中添加 Db2 Warehouse 连接

从 IBM Cloud Dashboard 中打开 Watson Studio，然后导航到创建的项目，或者创建一个新的 Modeler 项目，并确保将您的 Cloud Object Storage 实例链接到该项目。
单击 Add to Project 按钮，然后选择 Connection 。
选择在 IBM Cloud 中创建的 Db2 Warehouse 实例。
详细信息应该已经填写，此时单击 Create 按钮。

第 3 步：创建 SPSS Modeler 并从 Db2 Warehouse 插入数据

单击 Add to Project 按钮，然后选择 Modeler 。
输入建模器的名称，并确保选择了以下选项，然后单击 Create 。
在右侧菜单的 Import 选项卡下，拖放 Data Assets 节点。
单击 Change Data Asset > Connections > Db2Warehouse ，然后选择您的模式或默认模式（以 DASH 开头）和上传的表。接下来，单击 Save 。

第 4 步：使用 SPSS Modeler 实现可视化、开展分析并进行特征选择

在给定一个数据集的情况下，SPSS Modeler 提供了许多可视化工具来理解这些数据。在本节中，本教程将展示如何创建这些可视化内容，并根据数据获得洞察。

可视化

在 Data Asset 节点的选项中，单击 Preview 选项，然后转到 Visualizations 选项卡。
柱状图用于显示数据的分布情况，在这个例子中，绘制图形时，在 x 轴上绘制 Age 并按 sex 划分。

从这张图中，我们可以看到乘客的年龄服从正态分布，即大多数人的年龄范围在 20 到 55 岁之间，而 20 岁以下和 50 岁以上的人较少。我们也可以看到，在某些年龄组中，男性多于女性。
- 条形图便于一目了然地比较不同组之间的数据集。在这里，我们看到的是男性幸存者和女性幸存者人数之间的比较情况。以 sex 为类别，汇总值为 count ，值选项为 Survived 。
- 当试图计算出某些内容的构成时，最好使用饼图。在这种情况下，我们给出了类别 Cabin 。
  
  从这个饼图中，我们可以看到 80% 的 Cabin 列包含 NaN，也就是缺少值。因此，我们可以得出结论：这一列不会影响目标，在我们的例子中，也就是 Survived 列，因而可以删除这一列。

特征选择

在使用特征选择之前，我们需要准备数据集。首先，我们使用 Filler 通过空值和 NaN 值来填充所有缺失值。接下来，我们使用 Filter 节点通过可视化阶段过滤掉 Cabin 列。最后，指定正确的 Type 。
在 Type 节点中，将 Survived 列的 Role 属性调整为 Target 。
使用 Modeling 选项卡下的特征选择方法，并运行建模器。
将生成一个模型节点，当连接到 Output 选项卡中的 Table 节点时，您可以看到它过滤掉了不重要的列。