您好, 访客   登录/注册

数据可视化在信息平台中的应用

来源:用户上传      作者:

  摘要:1987年,在美国国家科学基金会召开的“科学计算可视化研讨会”中首次提出”可视化”。随着时间的发展,大数据已经成为社会发展的重要生产因素,科学计算可视化已经成为一个十分活跃的研究领域,对数据可视化的研究已经普及到各个行业之中。“We Are Social”和“Hootsuite”发布了2018全球数字报告,报告指出全球互联网用户数已突破40亿,这意味着全球有一半人口“触网”。全球76亿人中,约2/3已经拥有手机,且超过半数为“智能型”设备,因此人们可以随时随地、更加轻松地获取丰富的互联网体验。与此同时,他们变成了庞大的信息数据来源,构建了全球互联网数据信息资源库。在处理如此庞大数据量的时候,我们不得不使用各种各样的分析模型,可视化正是模型分析最主要的表现形式。数据通过图像展示在决策者眼前,使他们可以更加直观、清晰了解数据分析的整个过程和结果,让数据的规律变得有迹可循。
  关键词:数据;可视化;计算机;格式塔理论;信息设计;可视化设计
  一、视觉的感知与认知
  (一)视觉的感知与认知
  图形化的感知必须提前到1912年由韦特海墨(M,Wetheimer)提出的格式塔(Gestalt)理论,也被称为完形心理学。Gestaltd是音译词,意思即是”完形”,格式塔强调的是整体的、有组织的心理学理论体系。人们在观察事物时,经常会对事物进行感性的分组,实际上单个事物本身并不具有分组的意义。格式塔的意思是感知的事物大于眼睛看到的事物,个体所感知到的对象不是孤立的,而是通过相关的关联性和其他元素构成了一个整体,局部过程取决整体的内在特性。
  格式塔理论的发明者把这些原则分为五类:
  (1)Proximity(接近)原则
  当物品散落分布的时候,个体各自分布,不会当成一个整体。当这些个体有规律的排列,按照运动规律分布的时候,人眼的目光,自动将它们视做一个整体看待。
  在情报信息平台中,图1的信息的陈列正是采用了这种规律,相同的信息按照接近原则分组,被放置在同一个区域内的信息自然会被看成一组信息。
  (2)Similarity(相似)原则
  相似原则指的是,在相同的经验情况下,当两个物体看上去比较相似的时候,我们会主动联想成为同一类事物。这种联想是根据用户的以往经验来进行判断的,在这种情感认知下,用户首先看到的是一个形状,其次才是构成元素。
  用词云建模人物画像时,正是运用了这种相似原则。首先看到的是一个人物的形象,再去仔细观察构成人物的形象具体词汇,研究其中的特质。在数据经过一系列的分析、提取后,在由人物模型把背后的数据抽象展示出来出来,替代为关键词组建一个完整的、可感知的具体人物形象。
  (3)Closure(闭合)原则
  在人们观察残缺图形时候,会主动将残缺部分补全,将缺失的一部分也作为一个整体来对待。图3可见,虽然图形都有缺失,可是我们仍然能分辨它是一个几何图形。
  (4)Continuity(连续)原则
  在信息平台中,活动轨迹和区域范围,视线引导用户将定位点连接成一个完整路径。这是因为在观察连续图案时,人们的视觉焦点会沿着散点分布形成的连续性曲线而追寻目标方向。当数据量过大时,这种观察方式会出现误导,需要借助颜色来区分多轨迹路径的追寻。
  (5)common fate(共势)原则
  当事物按照一定的规律组合排列的时候,人们会根据这种规律将事物自动分组,这种分组方式就是共势原则。图6的文字按照字母的形状进行排练组合,但是用户的眼睛,第一眼还是观察到整个单词和不是具体的一个组成文字。在图7中,红色和黑色的原点根据不同的运动轨方向,组成一条运动轨迹。
  (二)颜色
  在信息设计和视觉设计中,色彩是用来展示信息分类,表达情绪的最重要途径。
  颜色可以代表数据信息,展示数据分类,在多种数据汇聚的展示中,运用颜色来区分信息层级。颜色和形状结构是最重要的视覺可视化手段,信息界面的展示也是依赖这色彩构成的视觉美感,这都来自于设计者对于色彩和信息的理解与感受。
  二、数据可视化的基础
  (一)数据可视化基本流程
  数据可视化的处理包括:数据人库、数据过滤、数据映射、数据绘制。可视化的最终结果是由人机交互共同完成的。数据的人库是整个流程的开始,界面的交互成果是最终的处理成果。从数据到知识有两个途径:交互的可视化方法和自动的数据挖掘方法。两种结果分别是数据可视化交互和数据可视化建模,这两种方式,用户即参与了交互又可以调整数据输入,获得不同的结果。
  (二)数据可视化中的数据
  数据根据可视化展示的数据,主要分为四类:
  (1)类别型的数据。例如:根据性别要求,可以将人分为男性和女性;水果可以分为西瓜和香蕉。这种分类可以将事物进行分组,但却没有办法进行数量的统计。西瓜和香蕉分了类,缺不知道西瓜的总量是多少,大小有多少。
  (2)序列数据。用1.2.3…来进行排名,1表示西瓜2表示香蕉,1的序列代表西瓜在最靠前以此类推,往下进行排序。这种排序方式可以得到事物的分落序列,但仍无法得出是按照量的多少进行排列,还是按照大小进行排列。
  (3)区间型数据。区间型数据可以用来区分数据间的定量比较,比如10°的水和30°水的差距,是与40°与50°一致的,因为他们都是根据一个数据起点值来进行比较。
  (4)倍数型的数据。用来进行比例的比较,比如1:2的比例,4是2的倍数,这样成倍数进行统计。
  三、信息平台中的可视化应用分类
  在信息平台中可视化的应用场景主要有三类:(1)时空数据的可视化应用;(2)地理信息;(3)非时空数据的可视化。非时空数据主要是文字编辑类信息,例如:文本、表格,还有一些跨煤体的数据可视化、还有复杂多元数据的可视化展示。   时间是观察和研究数据的重要构成因素。根据时间的变化数据随之改变,这种数据被称之为时变型数据。时变型数据数量大、变数多,而且种类复杂多样,分布的范围也非常的广泛。时变顺序可以作为时变型数据的时间轴变量,时间抽上的每个变量都是针对具体的事件而产生。我们生活在一个三维场景之中,信息数据通常这些数据包括了地理位置信息,还有活动时间信息。时空信息的数据是可视化研究的重要对象,现在移动设备和电子产品的传感器时刻都在传输数据信息,海量的数据汇聚,为数据可视化的研究提供了更多的可能和挑战。
  地理信息数据有一个逻辑层次,比如,北京市是属于中国,中国有若干个省市,这种层次具有包含关系,主要变现在包含和从属。这种层次结构是我们理解事物,对世界认知的基础。信息通过层次展示,有助于我們理解和接纳大量多维度、多层次的知识。
  文本和文档信息在人们的工作之中无处不在,邮件、新闻、工作报告等都是日常工作中需要处理的文本信息。文本信息的增长和加快是爆发式的,人们需要有更高效的处理方式,来让文本阅读和分析变得简单。文本信息的处理方式有三部分:文本信息的挖掘、可视化图形的绘制和人机交互。文本信息的可视化是不具有空间属性的科学可视化,把没用空间结构属性的文本信息转换为用户可以接受的二维或者三维空间表达才是文本可视化的研究目的,也是一个极大的挑战。
  四、结语
  “数据可视化”是一个十分活跃的研究领域,新的分支也在不断的衍生,可视化的研究也永不会停止脚步。可视化与应用领域的结合才是对可视化重视,投入到生产工作,使其产生价值的最终方式。多源数据的分析应用,才是推动可视化发展的动力,也为可视化提供了更多的可能,更大的挑战。希望大家可以重视可视化、多做有用的研究,为可视化的发展提供更多更优秀的展示方式。
  参考文献
  [1]We Are Social[EB/OL].2018年全球数字报https://www.useit.com.cn/thread-17902-1-1.html.
  [2]唐泽圣,陈为.可视化条目[M].中国计算机大百科全书,2011.
  [3]石教英,蔡立文.科学计算机可视化算法系统[M].北京科学出版社,1996.
  [4]陈为,沈则潜,陶煜波等[J].数据可视化,2013(12).
  [5]崔屹.图像处理技术与应用[M].电子工业出版社,1997.
转载注明来源:https://www.xzbu.com/4/view-14738886.htm