内容简介:通过可视化分析地理因素对多变量聚类的影响(Visualizing the Impact of Geographical Variations...
多变量地理空间数据是一种十分常见的数据类型,例如对各大城市的人口状况统计、世界各国的国力评判指标等等。如何分析地理因素(如地域的位置、范围、方向等)对多变量数据的影响,一直是地理信息、可视分析等领域的重要课题。另一方面,聚类是简化多变量分析的常用方法,它能够挖掘相似数据、总结数据特征、并消除变量增长所带来的负担。然而,当下的聚类分析方法并没有考虑地理因素的影响。这篇发表于2016年EuroVis会议的文章[1],就探讨了如何通过可视化分析地理因素对多变量聚类的影响。
多变量聚类与地理因素
在处理多变量地理数据时,我们往往会弃掉其地理属性,将其视为普通的多变量数据来处理。多变量聚类,则是将每个区域的多变量统计数值、按照相似程度进行聚类,从而得到相应的类标号。而所谓“地理因素”(Geographical Variation),指的是与地理属性相关的各类变量,包括位置、范围/大小、方向、形状、海拔高度等等。
通过分区统计图(Choropleth Map)的方式(如图1),我们可以将聚类结果与地理因素结合起来表达。图1中,不同的颜色代表了不同的聚类,整个视图较好地表达了聚类分布的地域趋势(东南部偏向于绿色聚类,西北部偏向于红、橙色聚类)。
图1. 表现聚类结果的分区统计图
至于各区域的多变量数值,则利用降维投影图、平行坐标和玫瑰图三种视图来表达(如图2),其中颜色依然映射了不同的聚类。
图2. 通过不同视图表现聚类的多变量分布
地理因素对多变量聚类的影响
1. 地理区域的筛选
为了更好地比较不同地理状况的聚类结果,作者们针对四种特定的地理因素,提出了四种用户可选的数据筛选方式(如图3)。
图3. 刷选地理区域的四种方式
(1). “橡皮圈”(Rubber Band)刷选:用户以某地为中心、确定半径后选择一定范围内的周边地区。该方法可用以比较相同范围、不同位置的两个区域。
(2). 基于属性的刷选:用户根据多变量统计数据,可以调节变量阈值来筛选地区。该方法可以比较属性不同、位置散落的多个区域,例如比较全年人口正增长和负增长的城市。
(3). 多尺度邻域选择:用户选定中心区域,可按照不同的尺度选择其邻域。通过比较不同尺度的邻域,可以分析数据特征在多大范围内保持一致。
(4). 多层次区域选择:用户可以选择不同级别的行政区域(国家、省、市等)进行统计和聚类。通过行政区划来统合数据,能够在不同的地理层级上进行数据的比较、消除噪音数据带来的影响。
2. 基于地理因素的聚类结果比较
用户选出不同的地理区域后、分别对其数据进行聚类,得到不同的聚类结果。通过比较聚类结果、并结合地理因素进行分析,就能了解地理因素对多变量聚类的影响。然而,此前进行聚类比较的相关工作[2]并没有考虑地理因素。为此,作者们借鉴了[3]中的方法,设计了倒金字塔状的“拖放式聚类差异视图”(Drag and Drop Clustering Difference View,如图4)。用户通过拖放不同的聚类结果到此视图中,能够对各个聚类方案进行两两比较。图中第一行为原始聚类结果。自第二行起,颜色展示了不同聚类方案两两之间的差异,右上角的数值则量化表达了这种差异。
图4. 拖放式聚类差异视图(以美国库克县地区为例)
案例分析
文章对美国库克县(Cook County,位于伊利诺伊州)及其周边地区的五项人口统计数据进行了分析。这五项指标分别为:住房情况、受教育水平、以及三个不同年龄层的人口占比(分别为小于5岁、小于18岁、大于65岁)。
用户选择了库克县周边、四个不同尺度的邻域进行了聚类,并使用“拖放式聚类差异视图”来比较各个聚类结果之间的差异(如图4)。其中,用户发现尺度1和尺度2的聚类差异值为0,差异图也显示各个区域的类标号一致。通过平行坐标视图(图5左图),可以观察到尺度1原有地区(深绿色折线)和尺度2新增的地区(浅绿色折线)在各项指标上差异较大,尤其后者拥有更多的老年人口、人均教育水平也更低。
图5. 跨尺度的邻域多变量数据比较
随着区域尺度不断增大,聚类差异数值也逐步上升,说明原有的聚类结果受到了更大的影响。其中尺度4的差异值达到了0.439,通过观察平行坐标视图(图5右图),可以发现这是由于尺度4的外周地区(白色折线)在青少年人口、住房情况、受教育水平等方面都和库克县周边相似。
通过以上分析,用户就能了解区域范围对库克县周边聚类情况的影响,从而选择一个合适的尺度来进行后续的聚类和区域划分。
结语
总的来说,这篇文章通过不同的可视化方法、帮助用户从多个角度分析地理因素对多变量聚类结果的影响。这也启发我们,除了基本的多变量数据比较,是否能在聚类、相关性/因果性、回归建模、乃至机器学习等各种复杂分析方法中,进一步发挥可视分析的作用、对多变量时空数据进行更有效、更深层的挖掘。
参考文献:
[1] Zhang Y, Luo W, Mack E A, et al. Visualizing the impact of geographical variations on multivariate clustering. Computer Graphics Forum. 2016, 35(3): 101-110.
[2]. Lex A, Streit M, Partl C, et al. Comparative analysis of multidimensional, quantitative data. IEEE Transactions on Visualization and Computer Graphics, 2010, 16(6): 1027-1035.
[3]. Hoeber O, Wilson G, Harding S, et al. Exploring geo-temporal differences using GTdiff. Pacific Visualization Symposium (PacificVis), 2011 IEEE. IEEE, 2011: 139-146.
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- [数据可视化]d3js源码,selection(四)添加事件,控制流,局部变量
- 全局变量,静态全局变量,局部变量,静态局部变量
- python变量与变量作用域
- Python基础-类变量和实例变量
- python编程(类变量和实例变量)
- 03-Golang局部变量和全局变量
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Hadoop in Action
Chuck Lam / Manning Publications / 2010-12-22 / USD 44.99
HIGHLIGHT Hadoop in Action is an example-rich tutorial that shows developers how to implement data-intensive distributed computing using Hadoop and the Map- Reduce framework. DESCRIPTION Hadoop i......一起来看看 《Hadoop in Action》 这本书的介绍吧!
HTML 编码/解码
HTML 编码/解码
SHA 加密
SHA 加密工具