内容简介:通过可视化分析地理因素对多变量聚类的影响(Visualizing the Impact of Geographical Variations...
多变量地理空间数据是一种十分常见的数据类型,例如对各大城市的人口状况统计、世界各国的国力评判指标等等。如何分析地理因素(如地域的位置、范围、方向等)对多变量数据的影响,一直是地理信息、可视分析等领域的重要课题。另一方面,聚类是简化多变量分析的常用方法,它能够挖掘相似数据、总结数据特征、并消除变量增长所带来的负担。然而,当下的聚类分析方法并没有考虑地理因素的影响。这篇发表于2016年EuroVis会议的文章[1],就探讨了如何通过可视化分析地理因素对多变量聚类的影响。
多变量聚类与地理因素
在处理多变量地理数据时,我们往往会弃掉其地理属性,将其视为普通的多变量数据来处理。多变量聚类,则是将每个区域的多变量统计数值、按照相似程度进行聚类,从而得到相应的类标号。而所谓“地理因素”(Geographical Variation),指的是与地理属性相关的各类变量,包括位置、范围/大小、方向、形状、海拔高度等等。
通过分区统计图(Choropleth Map)的方式(如图1),我们可以将聚类结果与地理因素结合起来表达。图1中,不同的颜色代表了不同的聚类,整个视图较好地表达了聚类分布的地域趋势(东南部偏向于绿色聚类,西北部偏向于红、橙色聚类)。
图1. 表现聚类结果的分区统计图
至于各区域的多变量数值,则利用降维投影图、平行坐标和玫瑰图三种视图来表达(如图2),其中颜色依然映射了不同的聚类。
图2. 通过不同视图表现聚类的多变量分布
地理因素对多变量聚类的影响
1. 地理区域的筛选
为了更好地比较不同地理状况的聚类结果,作者们针对四种特定的地理因素,提出了四种用户可选的数据筛选方式(如图3)。
图3. 刷选地理区域的四种方式
(1). “橡皮圈”(Rubber Band)刷选:用户以某地为中心、确定半径后选择一定范围内的周边地区。该方法可用以比较相同范围、不同位置的两个区域。
(2). 基于属性的刷选:用户根据多变量统计数据,可以调节变量阈值来筛选地区。该方法可以比较属性不同、位置散落的多个区域,例如比较全年人口正增长和负增长的城市。
(3). 多尺度邻域选择:用户选定中心区域,可按照不同的尺度选择其邻域。通过比较不同尺度的邻域,可以分析数据特征在多大范围内保持一致。
(4). 多层次区域选择:用户可以选择不同级别的行政区域(国家、省、市等)进行统计和聚类。通过行政区划来统合数据,能够在不同的地理层级上进行数据的比较、消除噪音数据带来的影响。
2. 基于地理因素的聚类结果比较
用户选出不同的地理区域后、分别对其数据进行聚类,得到不同的聚类结果。通过比较聚类结果、并结合地理因素进行分析,就能了解地理因素对多变量聚类的影响。然而,此前进行聚类比较的相关工作[2]并没有考虑地理因素。为此,作者们借鉴了[3]中的方法,设计了倒金字塔状的“拖放式聚类差异视图”(Drag and Drop Clustering Difference View,如图4)。用户通过拖放不同的聚类结果到此视图中,能够对各个聚类方案进行两两比较。图中第一行为原始聚类结果。自第二行起,颜色展示了不同聚类方案两两之间的差异,右上角的数值则量化表达了这种差异。
图4. 拖放式聚类差异视图(以美国库克县地区为例)
案例分析
文章对美国库克县(Cook County,位于伊利诺伊州)及其周边地区的五项人口统计数据进行了分析。这五项指标分别为:住房情况、受教育水平、以及三个不同年龄层的人口占比(分别为小于5岁、小于18岁、大于65岁)。
用户选择了库克县周边、四个不同尺度的邻域进行了聚类,并使用“拖放式聚类差异视图”来比较各个聚类结果之间的差异(如图4)。其中,用户发现尺度1和尺度2的聚类差异值为0,差异图也显示各个区域的类标号一致。通过平行坐标视图(图5左图),可以观察到尺度1原有地区(深绿色折线)和尺度2新增的地区(浅绿色折线)在各项指标上差异较大,尤其后者拥有更多的老年人口、人均教育水平也更低。
图5. 跨尺度的邻域多变量数据比较
随着区域尺度不断增大,聚类差异数值也逐步上升,说明原有的聚类结果受到了更大的影响。其中尺度4的差异值达到了0.439,通过观察平行坐标视图(图5右图),可以发现这是由于尺度4的外周地区(白色折线)在青少年人口、住房情况、受教育水平等方面都和库克县周边相似。
通过以上分析,用户就能了解区域范围对库克县周边聚类情况的影响,从而选择一个合适的尺度来进行后续的聚类和区域划分。
结语
总的来说,这篇文章通过不同的可视化方法、帮助用户从多个角度分析地理因素对多变量聚类结果的影响。这也启发我们,除了基本的多变量数据比较,是否能在聚类、相关性/因果性、回归建模、乃至机器学习等各种复杂分析方法中,进一步发挥可视分析的作用、对多变量时空数据进行更有效、更深层的挖掘。
参考文献:
[1] Zhang Y, Luo W, Mack E A, et al. Visualizing the impact of geographical variations on multivariate clustering. Computer Graphics Forum. 2016, 35(3): 101-110.
[2]. Lex A, Streit M, Partl C, et al. Comparative analysis of multidimensional, quantitative data. IEEE Transactions on Visualization and Computer Graphics, 2010, 16(6): 1027-1035.
[3]. Hoeber O, Wilson G, Harding S, et al. Exploring geo-temporal differences using GTdiff. Pacific Visualization Symposium (PacificVis), 2011 IEEE. IEEE, 2011: 139-146.
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- [数据可视化]d3js源码,selection(四)添加事件,控制流,局部变量
- 全局变量,静态全局变量,局部变量,静态局部变量
- python变量与变量作用域
- Python基础-类变量和实例变量
- python编程(类变量和实例变量)
- 03-Golang局部变量和全局变量
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
JavaScript & jQuery
David Sawyer McFarland / O Reilly / 2011-10-28 / USD 39.99
You don't need programming experience to add interactive and visual effects to your web pages with JavaScript. This Missing Manual shows you how the jQuery library makes JavaScript programming fun, ea......一起来看看 《JavaScript & jQuery》 这本书的介绍吧!