您好, 访客   登录/注册

基于标签语义挖掘的城市画像研究评述

来源:用户上传      作者:叶光辉 毕崇武

  摘 要:[目的/决义]基于标签语义挖掘的城市画像是表达公众认知视角下城市多维特征的结构视图,其计算与应用研究可为城市治理中的交互式服务提供有效的数据支撑和评测尺度。[方法/过程]随着城市所处技术环境的变迁,城市画像研究可划分为3个序贯相连的阶段:传统社会学阶段是萌芽期,此时城市画像研究逐步由实体层面的认知分析拓展到心理层面的认知分析;社会化标签的多维分析是过渡期,为后续以标签资源为基础的研究提供了多角度分析的路径;自媒体时代研究是拓展期,强调运用机器学习等智能方法从大规模标签资源中挖掘公众认知。[结果/结论]各阶段的研究成果将有效拓展标签利用场景及理论方法,系统构建城市画像计算与应用范式提供参考。
  关键词:社会化标签;城市画像;语义挖掘;结构视图;位置数据
  DOI:10.3969/j.issn.1008-0821.2021.02.017
  〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2021)02-0162-06
  Abstract:[Purpose/Significance]The city profile based on tags semantic mining is a structural view of urban multidimensional features from the perspective of public cognition,the study of its calculation and application can provide effective data support and evaluation criteria for interactive services in urban governance.[Method/Process]According to the change of the technical environment in which the city is located,the study of urban portraits can be divided into three sequential stages as follows:the traditional sociological analysis is the germination stage.At this time,the urban portrait study was gradually extended from the cognitive analysis at the substantive level to the cognitive analysis at the psychological level;The multidimensional analysis of socialized tags was a transitional period that provides a multi-angle analysis path for subsequent research based on tag resources;Research in the media era was an extended period,emphasizing the use of intelligent methods such as machine learning to mine public perception from large-scale tag resources.[Pesult/Conclusion]The research results at each stage would effectively expand the label utilization scenarios and theoretical methods,and provide a reference for systematically constructing urban image calculation and application paradigms.
  Key words:social tags;city profile;semantic mining;structural view;location data
  當前许多智慧城市建设项目主要关注城市基础设施布局,着力通过新一代信息技术来提升城市硬件的智能化程度,但随着智慧城市建设热度的不断上升,城市间基础设施的差距正在逐步缩小,“如何培育城市形象,改善公众印象”已成为新时期城市智慧化管理和服务的焦点议题。
  随着移动网络和政务社交媒体的融合发展,面向公众的交互式服务平台越来越多,它们正逐步发展成为公众“连接政务”的重要窗口。据中国互联网络信息中心(CNNIC)发布的第41次《中国互联网络发展状况统计报告》显示,截至2017年12月,我国在线政务服务用户规模达到4.85亿,占总体网民的62.9%,微信城市服务、政务微博等政务服务平台不断扩张服务范围,上线并完善多类服务,并向县域下沉。与此同时,平台本身所集聚的标签、评论等语义资源也正呈指数级增长,这既给信息保管带来了极大的挑战,也给城市画像研究提供了大数据分析的契机。目前美国联邦机构、英国国家图书馆与档案馆、加拿大图书档案馆等都已开展了政务社交媒体信息保管项目(如美国“总统奥巴马社交媒体归档”项目),呼吁从管理、司法、技术与人文等方面识别目前的挑战与构建适用的策略。标签作为政务社交媒介资源中最为轻量级的语义片段,承载着公众对城市某一特征的看法、认知、评价和情感。基于标签语义挖掘的城市画像正是基于大数据分析、机器学习、交互可视化等创新应用获取的公众对城市整体特征的群体性描述,是大多数人对城市拥有的共同心理图像,是具有社会化权重的城市印象集合。   这种由公众依据自我认知形成的共同记忆,就像城市的一张名片,能够充分反映城市个性与特征,展现城市形象与内涵,对驱动新型社会治理模式的形成具有重要作用,集中体现为:
  1)构建基于标签语义挖掘的城市画像计算模型,有助于拓展标签在公众认知发掘中的有效利用场景及理论方法。城市画像是标签语义挖掘的可视结果,是表达公众认知视角下城市多维特征的结构视图。该结构视图的形成需要经历数据采集、数据整合、数据分析、数据可视化等一系列计算环节,涵盖个体认知特征智能提取与分面融合、城市画像特征计算等核心内容。城市画像计算模型可为城市网络社群发掘、公共政策有效性评估等一系列交互式服务提供数据支撑和评测尺度,同时拓展标签数据建模与挖掘方法的应用场景,形成从标签整合到特征选择,再到特征计算的分析模式。
  2)设计基于城市画像的多维分析算法,推动城市画像衍生性应用的创设。通过城市画像计算模型可获取目标城市多个连续周期的数据画像,借此可挖掘城市画像的演化路径及诱发机理。城市画像关联到的特征标签具有情感极性,借助相关算法和领域词典可对公众认知的情感倾向进行分析,同时标签词间还存在着客观知识联系,通过语义关系及强度分析可对不同分面下的城市耦合网络进行深度语义挖掘。时序分析、情感分析、网络分析等共同形成了城市画像多维分析的计算内核,面向城市治理的典型场景,该内核可为城市画像衍生性应用的创设提供基础方法支撑,规范和推动现有城市画像应用基础研究。
  本文融合了数据科学、网络科学、计算科学等多主题领域的研究成果,以城市画像演进路径为脉络,研究从城市画像的传统社会学研究、社会化标签的多维度分析和自媒体时代的城市画像研究等主题来解析国内外研究现状及发展动态。
  1 城市画像的传统社会学研究
  20世纪60年代,MIT城市规划大师Lynch K[1]首次将印象(Mental-image,或译为意象)的概念应用于城市画像研究,认为印象是观察者与城市之间双向作用的产物,他采用绘制认知地图的方法,详细分析了美国波士顿、泽西城和洛杉矶三地的城市画像,将城市画像的构成要素概括为5种:道路、边沿、区域、节点和标识[1-2]。此后,很多学者普遍采用与之相似的问卷调查、深度访谈、意向草图等社会学调查方法,对城市画像的构成要素、区域分布及品质特征展开研究。由于印象是公众对城市特征的主观感受,生活经历、文化背景等个体差异均会对城市画像的形成产生影响,为此部分学者避开了心理学家感兴趣的个性差异问题,重点考虑公众对城市的共同画像。研究发现,尽管不同个体形成的城市画像有所差异,但是相似个体形成的城市画像之间具有很多共同点,如Lee W J等[4]对比分析了不同环境下本地居民和外地游客对城市画像的感知差异;白凯等[3]探究了不同文化群体对城市色彩画像的差异,发现个体的城市色彩画像会随着周围文化情境的转变而变化,但相近文化群体间的城市色彩画像具有相似性。
  自20世纪80年代末,学者转变了城市画像研究的视角,认为城市画像不仅包括实体的视觉感知,还包括伴随着公众活动的更为复杂的社会感知,即城市画像构成中的非实体性元素。城市画像研究从原本单纯的实体空间结构研究,发展到综合政治、经济、文化、环境等多种要素的社会研究,如Laaksonen P等[6]采用视觉拼接技术和群体焦点访谈法将城市画像划分为观察层面、评价层面和氛圍层面3个层面,城市画像的构成划分为自然属性、建筑环境、文化和产业4个方面;Luque-Martinez T等[7]在深入访谈的基础上,建构了一般性的城市画像结构模型,将城市画像划分为历史、环境、社会、文化等12个与城市居民居住满意度呈强正相关的构成因素。
  综上分析可知,城市画像的传统社会学研究与“城市印象”内涵的变化存在着紧密的联系:最初城市印象限定并强调了城市观察者的所见事物,只关注构筑城市的实体环境,忽略了公众对城市的非物质认知;后期城市印象内涵延伸到了城市系统的社会属性,城市画像构建与分析方法也由实体层面的认知分析拓展到心理层面的认知分析。
  2 社会化标签的多维度分析
  作为适应Web 2.0环境下的一种网络分析方法,社会网络分析不仅关注单个实体的个体特征,更关注实体之间构成的社会关系的属性、结构及其潜在特征。大量学者从社会化网络的结构与功能入手,开展了网络结构的计量分析和动态演化分析,试图发现社会网络结构中的关键节点和具有相似特征的节点集合,从而为个性化网络服务提供路径。在众多研究中,有关标签的研究尤其突出,而且不同领域学者的研究视角存在着一定差异,主要分为:①采用自然语言处理(NLP,Natural Language Processing)技术和方法处理标签问题:标签是大众分类法的产物,受控程度较低,层级结构未被清晰揭示,用户使用标签进行话题标记,规范化程度不高,因而会出现异词同义、一词多义、上下文语境等自然语言处理问题,这些问题对标签组织、标签网络分析、标签应用分析的效果都造成了较大影响,因此计算机领域研究者类比半结构化文本处理方式,对标签集合进行了清洗去重[8]、可信度评估[9]、层级关系构建[10]、情感分析[11-12]、聚类及分类[13-14]等研究工作。②采用网络科学方法进行标签分析:网络科学改变了基于数据库、关联规则的标签分析策略,试图通过社会网络和复杂网络的分析指标、模型、算法等来发掘在线社交网络的热点话题、热点人物及网络结构。在线社交网络可理解成以多维语义元素为节点,不同语义元素相互关联形成的元网络[15],在此概念模型基础之上,鉴于标签、话题、用户间的多重性关系,通过主题发掘[16]、社团发现[17]、链路预测[18]、协同过滤[19]等方法深化揭示出节点的网络特征、整体或局部网络特征,进而为用户兴趣建模[20-21]、内容推荐[22]、知识发现与推送[23-24]等应用的实现提供参考路径。③采用传播学、心理学理论与方法进行标签分析:在线社交网络为用户提供了交流的信息空间,用户因话题而聚集在一起,而话题是社会化舆情产生、发酵、传播的重要载体。为加强舆情监控,实现对网络舆情信息流的截断和引导,传播学和心理学领域对标签传播[25]、信息扩散[26]、舆情分析[27]、行为分析与挖掘[28]、基于标签的用户人格预测[29]等主题开展了深入研究。④采用文献学理论与方法进行标签分布分析:社交媒介的发展正改变着传统科学文献交流的范式,为揭示科学文献交流过程的重要经验法则是否适用于标签分布分析,相关研究[30-33]开展了一系列验证分析和应用分析。验证分析主要说明传统经验法则在网络环境的适用性;在验证分析基础之上,应用分析主要说明上述定律在资源发现等实际应用中的关键作用。   综上分析可知,社会化标签研究是多学科交叉融合的主题领域,各学科研究边界相对模糊,且研究之间存在着相互支撑,共同形成了标签研究的全貌。本研究显然更关注第一、二部分研究进展,但目前这部分研究更偏向于标签网络宏观结构的揭示,将虚拟标签与现实问题相结合的研究明显不足,对标签网络增长态势与语义挖掘模式的研究仍需完善。结合上述现状分析,研究将以描述公众印象的社会化标签为计算资源,探索城市画像计算与应用模型。
  3 自媒体时代的城市画像研究
  随着移动设备和社交网络的普及,公众可随时随地在社交网络中发表自身对某座城市的真实感受,这些都为城市画像提供了海量的分析数据。社交网络使得人成为海量数据的分享者,而这些数据又汇聚起来以群体智慧的方式为城市发展贡献价值。通过对用户描述城市特征的文字、图片、表情、标签等行为数据的分析,可归纳出公众对某座城市整体印象的共同认知。社交媒体为过去以调查、访谈、认知地图等传统社会科学为主要研究手段的城市画像研究,提供了大数据分析的入口,典型研究如谢永俊等[34]基于社交网络中的微博数据,运用文本挖掘和地理大数据分析方法获取城市各个热点区域的城市特征,感知不同人群在不同场所的活动态度和偏好;邓力凡等[35]采用支持SVM的机器学习算法,将微博用户自动分类为城市居民和外地游客两类,并探究了不同人群在城市感知区域和强度上的差异;Wong C U I等[36]利用TripAdvior旅游网站上2005—2013年用户在线评论数据,通过文本分析方法提取澳门在这一时间段的城市画像,并应用可视化技术展现画像的演化过程;Liu L等[42]利用深度学习技术对Panoramio和Flickr照片数据集进行印象分类,统计分析全球7个典型城市的印象特征及其空间分布,并且进一步探讨了不同城市之间的相关性和差异性,为城市之间的相互借鉴提供了参考;Salesses P等[43]通过分析数千张带有明显城市特征的地理照片,比较纽约、波士顿、林茨和萨尔茨堡4座城市在社会阶层、安全性、独特性感知等方面的差异,最终发现纽约某街区的自杀者数量与其安全性和社会阶层感知具有显著相关性;Pan B等[44]使用群体感知方法收集城市市民在社交网络中的时间数据和地理位置数据,通过用户行为分析和道路匹配算法对城市交通状况进行异常检测,以此为驾驶人员推荐合理的行驶路线;Orsi F等[45]利用游客在社交网络中共享的景区信息(如地理标记的照片、GPS轨迹等),粗略估计各景区景点的游客流量,分析游客的行为特征和情感倾向,对偏离位置的异常游客和潜在的踩踏事故做出预警,提供了应对突发状况的解决方案。
  除学术研究外,利用社交平台数据获取城市画像,并将分析结果应用于城市规划与管理,也已受到部分学者的足够重视,尤其引人注意的是微软亚洲研究院郑宇博士提出的有关城市计算的实践项目,这些项目试图将无处不在的感知技术、高效的数据管理和分析算法,以及新颖的可视化技术相结合,致力于提高人们的生活品质、保护环境和促进城市运转效率[39-41],目前这些项目主要借助时空大数据,获取观测对象的移动规律和特定行为,以为智慧城市创新性应用的开发和运营提供参考。这些应用参与的主体既包括数据拥有方政府机构,还包括数据管理方信息技术公司,二者充分配合可有效实现数据共享和技术共融。但作为信息资源管理重要的参与者,图书情报机构明显参与度不够,已有的用户画像研究也多集中于数字图书馆层面的知识发现研究[37-38],因此在大数据背景下,图书情报机构应充分发挥其在信息资源组织与分析上的优势,融入城市画像研究,提升在城市公共管理中的服务意识和能力。
  综上分析可知,城市画像研究与大数据分析、交互式设计、信息组织与融合等存在着紧密联系,其目标是从多维度获取公众认知视角下的城市特征标识,是对以往社交网络用户画像研究的拓展和延伸。虽然目前城市画像计算资源还主要集中于人流、车流和物流等时空大数据,对政务社交媒介资源尤其是标签资源的挖掘还不够完善,但已有算法、模型及处理策略为基于标签语义挖掘的城市画像计算与应用模型研究奠定了良好的基础。
  4 结 语
  通过文献梳理和应用调研发现,城市画像研究起始于城市印象分析,活跃于大数据挖掘。城市画像分析范式经历了从实体感知到社会感知的转变过程,促使这一转变的动力在于城市系统本身具有极强的社会属性,单单考虑其物质属性,对城市画像深层次问题无法有效认知,而通过传统社会学调研方式又难以全面及时地获取可靠的第一手分析资料。随着信息技术的进步,公開渠道信息(PAI,Public Access Information)的数量,尤其是基于UGC模式的社交媒介信息正呈指数级增长,这些开源信息为城市画像分析提供了前所未有的契机和挑战,运用经验和技术从中获取公众意向的城市画像,将助推基于公众认知驱动的新型社会治理模式的形成。在充分调研社会化标签研究进展的基础上,研究以社交元网络(Meta-network)中的标签资源为载体,开展城市画像计算与应用模型研究,虽然目前该领域研究已积累了部分研究成果,但依然存在一定不足,主要体现为:
  1)缺乏系统完整的基于标签语义挖掘的城市画像计算模型。基于标签语义挖掘的城市画像计算包括社会化标签整合分析、个体认知特征提取、表达、融合及可视化等一系列过程,其效果直接决定着后续分析与应用的效力,但目前有关研究显然更关注个体用户画像分析,对基于个体认知融合的群体涌现性行为,尤其是基于真实社交媒介场景的公众认知分析缺乏深刻的探讨。此外,当前已经开展的城市画像研究往往聚焦时空大数据,通过位置网络建模及演化分析手段来探究特定节点群的移动规律,再结合节点自身属性信息来追踪和揭示群体行为,然而开源信息的大量涌入却不断强化保管及开发利用社会化标签资源的迫切程度。
  2)尚未形成成熟的城市画像分析与应用范式。城市画像是结构化的公众认知视图,是进行公共政策有效性评估的重要测度指标,更是城市管理决策者与公众沟通的中介。但目前城市画像分析与应用模块尚未有效融入城市管理决策支撑体系中来,亟待形成成熟的城市画像分析与应用范式,主要体现为:①城市画像动态更新,需要公众印象计算引擎的有力支撑,微软亚洲研究院等机构都在开展城市计算的实践项目,但目前这些项目侧重轨迹数据关联研究,有关城市画像的多维度分析(诸如时序分析、情感分析、网络分析等)还需拓展;②城市画像不能只是对公众认知的现状调研,还应是具有相当权重的决策影响因素,现实中随着政务社交媒介的发展,公众形式上参与决策的途径虽然增多,但对决策的实质引导作用并未充分显现,导致现如今城市管理所倡导的社会治理模式缺乏持续的公众关注与大规模的数据支撑,围绕城市画像衍生的创新性应用将有助于改变这一困境,但应用创设规范及服务架构等基础问题还需解决。   参考文献
  [1]Lynch K.The Image of the City[M].Cambridge,Massachusetts:The MIT Press,1960.
  [2]林奇·凯文.城市的印象[M].项秉仁,译.北京:中国建筑工业出版社,1990.
  [3]白凯,赵安周.城市意象与旅游目的地意象研究中的趋同与分野[J].地理科学进展,2011,30(10):1312-1320.
  [4]Lee W J,Gretzel U,Law R.Quasi-trial Experiences Through Sensory Information on Destination Web Sites[J].Journal of Travel Research,2010,49(3):310-322.
  [5]白凯,张春晖,郑荣娟,等.跨文化群体游客的中国旅游目的地意象色彩认知[J].地理科学进展,2011,30(2):231-238.
  [6]Laaksonen P,Laaksonen M,Borisov P,et al.Measuring Image of a City:A Qualitative Approach with Case Example[J].Place Branding,2006,2(3):210-219.
  [7]Luque-Martinez T,Barrio-Garcia S D,Ibanez-Zapata J A,et al.Modeling a City's Image:The Case of Granada[J].Cities,2007,24(5):335-352.
  [8]张恒婷.社交网络图像垃圾标签去除研究[D].北京:华北电力大学,2012.
  [9]王賢兵.社会标注可信度评价方法研究[D].武汉:华中科技大学,2012.
  [10]刘苏祺,白光伟,沈航.基于用户自描述标签的层次分类体系构建方法[J].计算机科学,2016,43(7):224-229,239.
  [11]李纲,刘广兴,毛进,等.一种基于句法分析的情感标签抽取方法[J].图书情报工作,2014,58(14):12-20.
  [12]宋灵超,黄崑.基于社会标签的图像情感分类标注研究[J].图书情报工作,2016,60(21):103-112.
  [13]于海鹏,翟红生.一种子空间聚类算法在多标签文本分类中应用[J].计算机应用与软件,2014,31(8):288-291,303.
  [14]杨尊琦,赵瑾珺.新浪微博用户领域分类标签的结构和互动研究[J].情报杂志,2014,33(4):122-127.
  [15]叶光辉,李纲.社会语义网络结构分析——以MetaFilter为例[J].情报理论与实践,2015,38(12):57-63.
  [16]Chen J,Feng S,Liu J.Topic Sense Induction from Social Tags Based on Non-negative Matrix Factorization[J].Information Sciences,2014,280:16-25.
  [17]Pan W,Chen S,Feng Z.Automatic Clustering of Social Tag Using Community Detection[J].Applied Mathematics & Information Sciences,2013,7(2):675-681.
  [18]Chelmis C,Prasanna V K.Social Link Prediction in Online Social Tagging Systems[J].ACM Transactions on Information Systems,2013,31(4):1-27.
  [19]Naseri S,Bahrehmand A,Ding C,et al.Enhancing Tag-based Collaborative Filtering Via Integrated Social Networking Information[C]//IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.IEEE,2013:760-764.
  [20]易明,毛进,邓卫华.基于社会化标签网络的细粒度用户兴趣建模[J].现代图书情报技术,2011,27(4):35-41.
  [21]Tu H,Wang X.Mining Users' Interest Graph in Social Networks with Topic Based Tag Propagation[C]//IET International Conference on Smart and Sustainable City.IET,2014:282-285.
  [22]易明,王学东,邓卫华.基于社会网络分析的社会化标签网络分析与个性化信息服务研究[J].中国图书馆学报,2010,36(2):107-114.
  [23]易明,毛进,邓卫华,等.社会化标签系统中基于社会网络的知识推送网络演化研究[J].中国图书馆学报,2014,40(2):50-66.
  [24]Ma H,Jia M,Zhang D,et al.Combining Tag Correlation and User Social Relation for Microblog Recommendation[J].Information Sciences,2017,385:325-337.   [25]蔡国永,林航,文益民.社会语义网社区发现标签传递算法研究[J].计算机科学,2013,40(2):53-57.
  [26]李栋.在线社会网络中信息扩散研究[D].哈尔滨:哈尔滨工业大学,2014.
  [27]宋莉.舆情热点事件中“标签式传播”现象研究[D].哈尔滨:黑龙江大学,2016.
  [28]查先进,吕彬.知识共享视角下的大众标注行为研究——基于标签的实证分析[J].图书馆论坛,2010,30(6):76-81.
  [29]郑惠中,左万利.基于信息增益与语义特征的多标签社交网络用户人格预测[J].吉林大学学报:理学版,2016,54(3):561-568.
  [30]Faba-Perez C,Corderogonzalez A M.The Validity of Bradford's Law in Academic Electronic Mailing Lists[J].The Electronic Library,2015,33(6):1031-1046.
  [31]Faba-Perez C,Guerrero-Bote V P,Moya-Anegon F.“Sitation”Distributions and Bradford's Law in a Closed Web Space[J].Journal of Documentation,2003,59(5):558-580.
  [32]徐俊,王晓芳.网络环境下信息计量应用实证分析[J].微计算机信息,2010,26(30):102-104.
  [33]李綱,叶光辉,张岩.“小众专家”特征识别——基于MetaFilter的实证分析[J].现代图书情报技术,2015,31(6):71-77.
  [34]谢永俊,彭霞,黄舟,等.基于微博数据的北京市热点区域意象感知[J].地理科学进展,2017,36(9):1099-1110.
  [35]邓力凡,谭少华.基于微博签到行为的城市感知研究——以深港地区为例[J].建筑与文化,2017,13(1):204-206.
  [36]Wong C U I,Qi S.Tracking the Evolution of a Destination's Image By Text-mining Online Reviews-the Case of Macau[J].Tourism Management Perspectives,2017,23:19-29.
  [37]刘速.浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例[J].图书馆理论与实践,2017,(6):103-106.
  [38]陈慧香,邵波.国外图书馆领域用户画像的研究现状及启示[J].图书馆学研究,2017,(20):16-20.
  [39]Zheng Y,Capra L,Wolfson O,et al.Urban Computing:Concepts,Methodologies,and Applications[J].ACM Transactions on Intelligent Systems and Technology,2014,5(3):38.
  [40]郑宇.城市计算概述[J].武汉大学学报:信息科学版,2015,40(1):1-13.
  [41]Zheng Y.Trajectory Data Mining:An Overview[J].ACM Transactions on Intelligent Systems and Technology,2015,6(3):1-41.
  [42]Liu L,Zhou B L,Zhao J H,et al.C-IMAGE:City Cognitive Mapping Through Geo-tagged Photos[J].Geo Journal,2016,81(6):817-861.
  [43]Salesses P,Schechtner K,Hidalgo C A.The Collaborative Image of the City:Mapping the Inequality of Urban Perception[J].PLoS One,2013,8(7):e68400.
  [44]Pan B,Zheng Y,Wilkie D,et al.Crowd Sensing of Traffic Anomalies Based on Human Mobility and Social Media[C]//ACM Sigspatial International Conference on Advances in Geographic Information Systems.New York:ACM,2013:344-353.
  [45]Orsi F,Geneletti D.Using Geotagged Photographs and GIS Analysis to Estimate Visitor Flows in Natural Areas[J].Journal for Nature Conservation,2013,21(5):359-368.
  (责任编辑:孙国雷)
转载注明来源:https://www.xzbu.com/4/view-15388914.htm