通过可视化分析地理因素对多变量聚类的影响（Visualizing the Impact of Geographical Variations...

栏目: 数据库 · 发布时间: 8年前

内容简介：通过可视化分析地理因素对多变量聚类的影响（Visualizing the Impact of Geographical Variations...

多变量地理空间数据是一种十分常见的数据类型，例如对各大城市的人口状况统计、世界各国的国力评判指标等等。如何分析地理因素（如地域的位置、范围、方向等）对多变量数据的影响，一直是地理信息、可视分析等领域的重要课题。另一方面，聚类是简化多变量分析的常用方法，它能够挖掘相似数据、总结数据特征、并消除变量增长所带来的负担。然而，当下的聚类分析方法并没有考虑地理因素的影响。这篇发表于2016年EuroVis会议的文章[1]，就探讨了如何通过可视化分析地理因素对多变量聚类的影响。

多变量聚类与地理因素

在处理多变量地理数据时，我们往往会弃掉其地理属性，将其视为普通的多变量数据来处理。多变量聚类，则是将每个区域的多变量统计数值、按照相似程度进行聚类，从而得到相应的类标号。而所谓“地理因素”（Geographical Variation），指的是与地理属性相关的各类变量，包括位置、范围/大小、方向、形状、海拔高度等等。

通过分区统计图（Choropleth Map）的方式（如图1），我们可以将聚类结果与地理因素结合起来表达。图1中，不同的颜色代表了不同的聚类，整个视图较好地表达了聚类分布的地域趋势（东南部偏向于绿色聚类，西北部偏向于红、橙色聚类）。

通过可视化分析地理因素对多变量聚类的影响（Visualizing the Impact of Geographical Variations...

图1. 表现聚类结果的分区统计图

至于各区域的多变量数值，则利用降维投影图、平行坐标和玫瑰图三种视图来表达（如图2），其中颜色依然映射了不同的聚类。

图2. 通过不同视图表现聚类的多变量分布

地理因素对多变量聚类的影响

1. 地理区域的筛选

为了更好地比较不同地理状况的聚类结果，作者们针对四种特定的地理因素，提出了四种用户可选的数据筛选方式（如图3）。

图3. 刷选地理区域的四种方式

(1). “橡皮圈”(Rubber Band)刷选：用户以某地为中心、确定半径后选择一定范围内的周边地区。该方法可用以比较相同范围、不同位置的两个区域。

(2). 基于属性的刷选：用户根据多变量统计数据，可以调节变量阈值来筛选地区。该方法可以比较属性不同、位置散落的多个区域，例如比较全年人口正增长和负增长的城市。

(3). 多尺度邻域选择：用户选定中心区域，可按照不同的尺度选择其邻域。通过比较不同尺度的邻域，可以分析数据特征在多大范围内保持一致。

(4). 多层次区域选择：用户可以选择不同级别的行政区域（国家、省、市等）进行统计和聚类。通过行政区划来统合数据，能够在不同的地理层级上进行数据的比较、消除噪音数据带来的影响。

2. 基于地理因素的聚类结果比较

用户选出不同的地理区域后、分别对其数据进行聚类，得到不同的聚类结果。通过比较聚类结果、并结合地理因素进行分析，就能了解地理因素对多变量聚类的影响。然而，此前进行聚类比较的相关工作[2]并没有考虑地理因素。为此，作者们借鉴了[3]中的方法，设计了倒金字塔状的“拖放式聚类差异视图”（Drag and Drop Clustering Difference View，如图4）。用户通过拖放不同的聚类结果到此视图中，能够对各个聚类方案进行两两比较。图中第一行为原始聚类结果。自第二行起，颜色展示了不同聚类方案两两之间的差异，右上角的数值则量化表达了这种差异。

图4. 拖放式聚类差异视图（以美国库克县地区为例）

案例分析

文章对美国库克县（Cook County，位于伊利诺伊州）及其周边地区的五项人口统计数据进行了分析。这五项指标分别为：住房情况、受教育水平、以及三个不同年龄层的人口占比（分别为小于5岁、小于18岁、大于65岁）。

用户选择了库克县周边、四个不同尺度的邻域进行了聚类，并使用“拖放式聚类差异视图”来比较各个聚类结果之间的差异（如图4）。其中，用户发现尺度1和尺度2的聚类差异值为0，差异图也显示各个区域的类标号一致。通过平行坐标视图（图5左图），可以观察到尺度1原有地区（深绿色折线）和尺度2新增的地区（浅绿色折线）在各项指标上差异较大，尤其后者拥有更多的老年人口、人均教育水平也更低。

图5. 跨尺度的邻域多变量数据比较

随着区域尺度不断增大，聚类差异数值也逐步上升，说明原有的聚类结果受到了更大的影响。其中尺度4的差异值达到了0.439，通过观察平行坐标视图（图5右图），可以发现这是由于尺度4的外周地区（白色折线）在青少年人口、住房情况、受教育水平等方面都和库克县周边相似。

通过以上分析，用户就能了解区域范围对库克县周边聚类情况的影响，从而选择一个合适的尺度来进行后续的聚类和区域划分。

结语

总的来说，这篇文章通过不同的可视化方法、帮助用户从多个角度分析地理因素对多变量聚类结果的影响。这也启发我们，除了基本的多变量数据比较，是否能在聚类、相关性/因果性、回归建模、乃至机器学习等各种复杂分析方法中，进一步发挥可视分析的作用、对多变量时空数据进行更有效、更深层的挖掘。

参考文献：

[1] Zhang Y, Luo W, Mack E A, et al. Visualizing the impact of geographical variations on multivariate clustering. Computer Graphics Forum. 2016, 35(3): 101-110.

[2]. Lex A, Streit M, Partl C, et al. Comparative analysis of multidimensional, quantitative data. IEEE Transactions on Visualization and Computer Graphics, 2010, 16(6): 1027-1035.

[3]. Hoeber O, Wilson G, Harding S, et al. Exploring geo-temporal differences using GTdiff. Pacific Visualization Symposium (PacificVis), 2011 IEEE. IEEE, 2011: 139-146.

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

How to Think About Algorithms

Jeff Edmonds / Cambridge University Press / 2008-05-19 / USD 38.99

HOW TO THINK ABOUT ALGORITHMS There are many algorithm texts that provide lots of well-polished code and proofs of correctness. Instead, this one presents insights, notations, and analogies t......一起来看看《How to Think About Algorithms》这本书的介绍吧!

码农工具