通过结合使用 SPSS 与数据库仓库连接开展预测性分析

栏目: 数据库 · 发布时间: 5年前

内容简介:IBM SPSS Modeler 提供预测性分析,可帮助您发现数据模式,提高预测准确性,并改进决策。本教程演示了在 Watson Studio 上使用 SPSS Modeler 的端到端流程:在 Db2 Warehouse 数据库中摄取数据,执行分析,并将结果作为新表重新存储到数据库中。本教程将展示如何:完成本教程大约需要 30 分钟。

IBM SPSS Modeler 提供预测性分析,可帮助您发现数据模式,提高预测准确性,并改进决策。本教程演示了在 Watson Studio 上使用 SPSS Modeler 的端到端流程:在 Db2 Warehouse 数据库中摄取数据,执行分析,并将结果作为新表重新存储到数据库中。

学习目标

本教程将展示如何:

  1. 在 Watson Studio 中添加 Db2 Warehouse 连接。
  2. 创建一个新的 SPSS Modeler 流或添加一个现有的 SPSS Modeler。
  3. 运行 SPSS Modeler 并将输出存储在 Db2 Warehouse 中。

前提条件

预估时间

完成本教程大约需要 30 分钟。

步骤

第 1 步:在 Db2 Warehouse 中加载样本数据

  • 打开IBM Cloud Dashboard,然后在 Cloud Foundry Services 下面打开您创建的 Db2 Warehouse instance
  • 在打开的页面中单击 Open Console ,如下所示。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 在此服务打开之后,从侧边菜单中单击 load 选项。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 从 Kaggle 提供的解压数据文件夹中选择 train.csv 文件。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 在加载后,选择适当的模式,通常指定为 DASH 后跟一系列数字。单击 New Table 选项,如下所示。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 将其命名为 TITANIC_DATA 或者您选择的任何其他名称。然后单击 Begin Load

第 2 步:在 Watson Studio 中添加 Db2 Warehouse 连接

  • 从 IBM Cloud Dashboard 中打开 Watson Studio,然后导航到创建的项目,或者创建一个新的 Modeler 项目,并确保将您的 Cloud Object Storage 实例链接到该项目。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 单击 Add to Project 按钮,然后选择 Connection通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 选择在 IBM Cloud 中创建的 Db2 Warehouse 实例。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 详细信息应该已经填写,此时单击 Create 按钮。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析

第 3 步:创建 SPSS Modeler 并从 Db2 Warehouse 插入数据

  • 单击 Add to Project 按钮,然后选择 Modeler通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 输入建模器的名称,并确保选择了以下选项,然后单击 Create通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 在右侧菜单的 Import 选项卡下,拖放 Data Assets 节点。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 单击 Change Data Asset > Connections > Db2Warehouse ,然后选择您的模式或默认模式(以 DASH 开头)和上传的表。接下来,单击 Save通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析

第 4 步:使用 SPSS Modeler 实现可视化、开展分析并进行特征选择

  • 在给定一个数据集的情况下,SPSS Modeler 提供了许多可视化 工具 来理解这些数据。在本节中,本教程将展示如何创建这些可视化内容,并根据数据获得洞察。

可视化

  • Data Asset 节点的选项中,单击 Preview 选项,然后转到 Visualizations 选项卡。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 柱状图用于显示数据的分布情况,在这个例子中,绘制图形时,在 x 轴上绘制 Age 并按 sex 划分。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析

    通过结合使用 SPSS 与数据库仓库连接开展预测性分析

    从这张图中,我们可以看到乘客的年龄服从正态分布,即大多数人的年龄范围在 20 到 55 岁之间,而 20 岁以下和 50 岁以上的人较少。我们也可以看到,在某些年龄组中,男性多于女性。

    • 条形图便于一目了然地比较不同组之间的数据集。在这里,我们看到的是男性幸存者和女性幸存者人数之间的比较情况。以 sex 为类别,汇总值为 count ,值选项为 Survived通过结合使用 SPSS 与数据库仓库连接开展预测性分析
      通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    • 当试图计算出某些内容的构成时,最好使用饼图。在这种情况下,我们给出了类别 Cabin通过结合使用 SPSS 与数据库仓库连接开展预测性分析
      通过结合使用 SPSS 与数据库仓库连接开展预测性分析

      从这个饼图中,我们可以看到 80% 的 Cabin 列包含 NaN,也就是缺少值。因此,我们可以得出结论:这一列不会影响目标,在我们的例子中,也就是 Survived 列,因而可以删除这一列。

特征选择

  • 在使用特征选择之前,我们需要准备数据集。首先,我们使用 Filler 通过空值和 NaN 值来填充所有缺失值。接下来,我们使用 Filter 节点通过可视化阶段过滤掉 Cabin 列。最后,指定正确的 Type通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • Type 节点中,将 Survived 列的 Role 属性调整为 Target通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 使用 Modeling 选项卡下的特征选择方法,并运行建模器。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 将生成一个模型节点,当连接到 Output 选项卡中的 Table 节点时,您可以看到它过滤掉了不重要的列。

注意:可以使用 Derive 和 Merge 等节点从现有列创建新列,并合并两个数据帧。

第 5 步:将数据重新保存到 Db2 Warehouse

  • Export 选项卡添加 Data Asset Export 节点。
  • 遵循 1.在 Db2 Warehouse 中加载样本数据 中的步骤连接您的 Db2 Warehouse 实例,并选择任意表。
  • 在保存对节点的更改之前,输入输出表的名称,确保该名称对于模式中的表名是唯一的。 通过结合使用 SPSS 与数据库仓库连接开展预测性分析
    通过结合使用 SPSS 与数据库仓库连接开展预测性分析
  • 运行建模器流程,所需的输出将保存在您的 Db2 Warehouse 中。

结束语

在本教程中,您学习了如何:

  • 将数据从 Db2 Warehouse 加载到 SPSS Modeler 中。
  • 使用 SPSS 节点对给定数据集执行初步可视化、预处理和特征工程。
  • 将数据直接重新存储到 Db2 Warehouse。

本文翻译自: Predictive analytics using SPSS with database warehouse connection (2019-03-05)


以上所述就是小编给大家介绍的《通过结合使用 SPSS 与数据库仓库连接开展预测性分析》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

JSP网站开发四“酷”全书

JSP网站开发四“酷”全书

万峰科技 / 电子工业出版社 / 2005-9 / 49.00元

本书以JSP为开发语言,选取当前最流行、最具代表性的4类网站:新闻站点、论坛、电子商城和博客(Blog)系统为例,详细介绍了使用JSP开发网站的核心技术。掌握了本书所举4类网站的开发技术,将帮助你成为网站开发的“全能冠军”。 本书结合作者多年在网站系统开发方面的经验,从系统的需求分析开始,确定系统的流程与设计,到模块的划分,再到数据加结构的设计,最后开始每个模块编程开发,贯穿了网站开......一起来看看 《JSP网站开发四“酷”全书》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

在线进制转换器
在线进制转换器

各进制数互转换器

URL 编码/解码
URL 编码/解码

URL 编码/解码