基于标签语义关联的城市社群发现研究
来源:用户上传
作者:
摘 要:[目的]目前社会认知在城市管理决策中的支撑权重还未充分体现,本文试图建立基于社会认知驱动的城市社群发现模式。[方法]首先利用LDA主题模型提取不同城市的城市特征属性,并利用情感强度计算方法对城市特征属性赋值;然后基于城市特征之间的共现关系构建城市网络,以此刻画城市之间的关联关系;最后依据网络拓扑关系和节点语义信息,计算城市之间的亲疏程度,挖掘具有重叠特性的城市社群。[结果]抓取知乎平台中描述我国省会城市主要特征的用户问答内容,按照上述方法依次抽取城市特征,构建城市网络,测算城市亲疏,最终挖掘出9个具有较强独立性的城市社群。[局限]未能引入分面组织与分析方法将城市特征多粒度化,进而探索不同特征粒度下城市之间的关系类型及强度。[结论]该方法能够依据社会认知发掘城市之间的潜在关联及其社群结构,有利于辅助现有城市社群划分方法并强化城市社群内涵。
关键词:标签语义关联;城市社群;城市网络;用户标签;城市画像;LDA主题模型;省会城市;用户问答;知乎;数据挖掘
DOI:10.3969/j.issn.1008-0821.2020.03.002
〔中图分类号〕G254.91 〔文献标识码〕A 〔文章编号〕1008-0821(2020)03-0014-10
Abstract:[Objective]This paper aimed to establish a public perception-driven division methods of city circles.[Methods]Firstly,LDA was used to extract the city identities of different cities,and sentiment analysis was used to value city identities.Then,the city network was constructed to depict the correlation between cities,based on the coupling relationship between city identities.Finally,the relationship between cities was measured by network structures and analyzed by content semantics to discover city circles.[Results]Firstly,we collected users question-and-answer contents describing city identities of provincial capitals in China on Zhihu,an online Q&A platform.Then,we extracted city identities,constructed city network,and calculated relationship between cities.Finally,we discovered 9 city circles with strong independence in sample data.[Limitations]The method of faceted organization and analysis with different granularities was not introduced to explore the relationship between cities by multi-granularity of city identities.[Conclusions]This method could discover the potential relationship between cities and their circle structures according to public impression,redefine the criteria for the division of city circle,and strengthen the connotation of city circle.
Key words:semantic association of social tags;city circle;city network;social tags;city profile;LDA;provincial capitals;users question-and-answer;Zhihu;data mining
現代交通和通信技术的发展使得地域邻近已经难以作为划分城市社群的充分必要条件。依据地域邻近性划分出来的城市社群在面对城市发展过程中的具体问题时效力有限。诸多学者早已利用时空数据揭示出20世纪后半叶以来地域临近的西方国家城市之间的关联强度逐渐减弱[1]。如何重新定义城市社群的划分标准并强化城市社群的内涵,已经成为当前城市关系研究的重要出发点。目前世界各地兴起的城市社群规划项目仍是基于自上而下的行政构架,将城市社群默认为地域临近下的天然产物,缺乏对城市之间潜在关系的深度挖掘。随着大量研究推进,学者们逐渐发现城市之间的界限并非像主观判定的那样清晰。城市社群开始被视为资源与空间互动下的社会产物,其核心观念趋向于社会因素和地域空间之间的资源整合,并强调城市之间的潜在关系和资源流动[2-3]。
反思当前城市社群划分方法,现有研究大多依据政策文件中的属性数据和观念数据,而反映社会认知的网络数据还未得到充分利用。事实上,面向社交网络的社群发现早已是网络科学中的研究热点,由此衍生的算法、模型不一而足。社交网络中描述城市特征的社会化标签蕴含了城市的内在属性,具有标签关联的城市之间往往在其城市特色、发展历程等方面具有很强的相似性或互补性。通过相似或相异分析方法计算由城市特征共现关系构建的城市网络,便可挖掘出城市之间的潜在关系。鉴于此,本文首先对描述城市特征的社会化标签进行主题聚类和情感计算,以此获取不同城市多个维度的城市特征;然后依据城市特征的共现关系构建城市网络,刻画社会认知视角下的城市关联关系;最后对城市网络进行节点语义分析和网络结构测度,计算不同城市之间的亲疏程度,挖掘具有较强内聚性和独立性的城市社群。 1 相关工作概述
1.1 标签语义挖掘研究概述
社会化标签是大众分类法的产物,不同于专业人员标注的规范化词表。社会化标签往往因其标注的随意性、受控程度较低、层级结构模糊等原因,出现异词同义、同词异义、上下文语境缺失等自然语言处理问题。这些问题对社会化标签的语义挖掘、网络分析和应用效果均产生较大影响。为解决社会化标签存在的这些问题,计算机领域学者类比半结构化文本的处理方式,对社会化标签开展了清洗去重[4]、可信度评估[5]、层级关系构建[6]、情感分析[7]、聚类及分类[8]等一系列研究工作。典型研究如,Tesconi为消除标签语义的模糊性,利用Wordnet和YAGO本体将标签关联起来计算标签语义等级,然后依据标签语义等级判别并筛选具有准确语义信息的社会化标签[9]。刘苏祺等为挖掘标签之间的潜在语义关系,提出一种标签层级分类体系,其核心思想是将用户标签作为初始输入量,经由标签分块算法、上下位关系检测、标签层次构建3个步骤获取具有较高正确率的标签类别及其上下位关系[6]。宋灵超等在图片情感语义标注研究中选择包含用户标签的Flickr图片网站作为数据来源,构建适用于图片情感计算的情感词表,通过依次处理描述图片特征的标签集合,最终实现对图片包含的情感信息进行揭示[10]。
1.2 标签网络分析研究概述
网络科学改变了基于数据库、关联规则的标签分析策略,试图通过社会网络和复杂网络分析方法发现网络结构中的关键节点和节点集合,以此挖掘标注资源的本质属性和资源之间的内在关联。事实上,标签网络可理解为以多维语义元素为节点,不同语义元素相互关联而成的元网络。例如,叶光辉等指出标签网络同时具有结构特征和语义特征,通过分析节点之间的多维语义关系可以构建社会网络模型[11]。鉴于标签、资源、用户三者的多重关系,学者们通过主题发掘[12]、社团发现[13]、链路预测[14]、协同过滤[15]等方法揭示标签网络的整体或局部特征,进而为用户兴趣建模、内容推荐、知识发现等应用场景提供参考路径。典型研究如易明等首先利用社会网络分析指标对标签网络进行结构分析,通过揭示标签之间的内在关联实现标签序化,为用户兴趣建模提供高质量的数据保障[16];然后通过划分标签网络反映用户兴趣领域,依据用户在不同领域的局部兴趣视图实现个性化内容推荐[17];最后依托标签网络实现网络资源的知识发现,构建了知识推送的网络演化总体模型,分析了知识推送的网络演化动力,以此捕捉社会化标注系统中知识推送的生成机制与演化规律[18]。
1.3 网络社群划分研究概述
网络社群划分方法共经历了非重叠社群划分、重叠社群划分和语义社群划分3个阶段。早期学者们依据节点间的关系属性,将整体网拆分为若干个不相交的非重叠社群,其代表算法是GN[19]和FN[20]。后来学者们结合实际情况,认识到某个节点可以隶属于多个网络社群,提出了具有重叠特性的网络社群结构,并设计了诸多网络重叠社群发现算法,例如CPM[21]、EAGLE[22]、COP-RA[23]等。然而以上社群划分方法未考虑节点拥有的语义信息,无法将具有相似语义信息的节点划分到相同网络社群。因此,更能体现社群凝聚性的语义社群划分方法受到业界广泛关注。目前多数研究基于LDA或拓展LDA划分语义社群。例如,Henderson K等提出LDA-G模型将节点发布内容作为语义信息,将节点间连接关系作为训练结果,实现语义社群发现和社群链接预测[24]。Yin Z和Sachan M等在LDA基础上分别提出TURCM[25]和LCTA[26],从“主题—社群”分布和“社群—主题”分布两方面探究社群与主题之间的潜在语义关联,以此提升语义社群内部链接的紧密程度,并增加语义社群划分结果的合理性。Cha Y等为解决网络论坛中的用户分类问题,在考虑用户发布内容和用户好友关系的基础上提出了HLDA模型,最终划分出具有较高内部语义相似性的重叠语义社群[27]。
2 基于标签语义关联的城市社群發现方法
本文首先利用LDA从社会化标签中提取不同城市的城市特征属性,并利用情感强度计算方法对城市特征属性赋值;然后基于城市特征之间的共现关系构建城市网络,以此刻画城市之间的关联关系;最后依据网络拓扑关系和节点语义信息,计算城市之间的亲疏程度,挖掘具有重叠特性的城市社群,详见图1。
图1 基于标签语义关联的城市社群发现过程
2.1 融合主题聚类与情感强度的城市特征识别
LDA是基于“文档—主题—单词”的三层贝叶斯模型。利用LDA获取城市特征属性时,文档对应为标签集合,主题对应为城市特征属性,单词对应为标签分词后生成的词组。情感强度计算通过对标签集合进行文本倾向性分析,以此获得城市特征属性的社会公众情感态度。
在城市特征属性赋值时,本文将词语极性分为褒义、贬义和中性3类,初始极性强度分别设置为{-2,-1}、{0}和{1,2},并选取标签集合中描述城市特征属性的情感词、程度副词和否定词综合计算社会公众的情感强度。本文为明确否定词的修饰作用,在已有否定词表的基础上加入标签集合中特有的否定词语料,并考虑了否定词产生的情感迁移现象。当偶数个否定词出现时,情感词的类别和强度不做调整;当奇数个否定词出现时,情感词的类别和强度进行相反操作。与此同时,本文为衡量不同程度副词对情感强度计算结果产生的影响,借鉴现有词表获取不同程度副词的修饰强度,以此计算经过程度副词修饰后的综合情感强度。基于此,本文提取描述不同城市各个城市特征属性的标签集合,依据以上方法计算社会公众的情感强度,最终实现对不同城市的城市特征属性进行赋值。
2.2 基于城市特征共现关系的城市网络构建
2.3 基于网络局部聚类的城市社群发现 城市网络中城市社群是具有重叠特性的网络结构,单个城市节点可以隶属于不同的城市社群。本文在设计城市社群发现算法时兼顾两个方面:其一,城市社群内部节点之间的关联关系较为紧密,确保社群成员具有相似情感强度的城市特征;其二,城市社群内部节点之间的语义信息较为一致,保证社群成员具有相似社会认知的城市描述。本文为避免预先设定城市社群数量,实现城市社群发现算法的无监督化,在2.2小节构建的城市网络的基础上,从网络拓扑关系和节点语义信息两个方面度量化城市之间的亲疏程度,并利用网络局部聚类方法在城市网络中挖掘具有较强独立性的城市社群。
3 实证研究
3.1 数据获取与处理
本文的实验数据来源于“知乎”平台。“知乎”平台包含大量社会公众描述城市特征的话题。它们涉及社会公众对各座城市在政治、经济、文化、环境等多方面的特征描述,能够反映社会公众对各座城市的整体认知,满足实验数据全面性的要求;其次,与其他平台相比,“知乎”平台中的用户评论多是网络用户对某座城市的客观评价,更符合实验数据客观性上的要求。
本文首先抓取“知乎”平台中关于我国32座省会城市主要特征的用户问答内容。然后借助分词词库(搜狗细胞词库)和自建停用词表从用户问答内容中抽取社会化标签,并利用文本空间向量存储社会化标签。最后为满足城市社群发现过程中的数据处理要求,本文依据数据预处理规则对原始标签进行数据清洗,通过词汇标准化处理和标签过滤获取描述各座城市主要特征的社会化标签集合。
3.2 实验过程与结果
本文按照上述研究方法设计实验流程,依次对实验数据开展城市特征属性提取、城市特征情感计算、城市关联网络构建、城市亲疏程度测度、城市重叠社群划分5个实验步骤。
1)城市特征属性提取
本文利用Python语言提供的Gensim工具包实现基于LDA主题模型的城市特征属性提取,利用Topic Coherence函数获取最优主题数,进而构建揭示不同城市对应城市特征属性的矩阵M(i,j)。本文在对LDA主题模型反复训练2 000次后,Topic Coherence函数计算结果表明当K=15时主题聚类效果最佳。表1展示了描述某座城市的标签集合经过LDA主题聚类后获得的部分主题。每个主题包含了词和词在该主题下的分布概率。这些主题在不同程度上揭示了该座城市是否拥有某些城市特征属性。由此,本文最终将城市特征属性划分为城市环境、人文印象、经济政治、城市旅游、高等教育、特色美食、城市交通7个方面。
2)城市特征情感计算
本文基于情感词典获取各座城市关于上述7类城市特征属性的社会公众情感倾向,并依据否定词和程度副词综合计算不同城市对应城市特征属性的社会公众情感强度。表2展示了部分城市拥有的城市特征属性及其情感强度。以北京市为例,社会公众对北京市关于城市环境、人文印象、城市旅游、特色美食、城市交通5个方面的城市特征有明显的情感倾向,但对北京市关于经济政治和高等教育两个方面的城市特征没有明显的情感倾向。具体而言,社会公众对北京市的城市旅游和特色美食具有较高的正面评价;对北京市的城市环境和人文印象具有轻微的正面评价;对北京市的城市交通具有一定程度的负向评价。
3)城市关系网络构建
4)城市亲疏程度计算
本文首先利用LDA主题模型从标签集合中提取各城市节点的语义信息;然后利用相对熵计算节点间的语义信息相似度;最后依据式(2)计算不同城市节点间的亲疏程度,详见表4。通过对比表3和表4可以发现,城市网络中城市节点间的关联权重Pij与其亲疏程度Θij存在较大差异。这得益于本文基于城市节点间的关联权重Pij和语义信息相似度hij测算城市节点间的亲疏程度。城市节点间的关联权重引入了社会公众对城市状况的综合评价,只有情感强度近似的城市之间才会在网络结构上建立连接关系;而城市之间的亲疏程度既考虑了网络的整体结构,又考虑了节点的语義信息。
5)城市重叠社群划分
本文经过多次实证检验,将规模控制参数ω的取值设定为2.9≤ω≤3.1。当ω>3.1时,城市网络中已无明显的城市社群结构;当ω<2.9时,城市网络中的城市社群过于密集,无法发现各个城市社群的主要特性。本文依据上述方法,最终在我国32座省会城市之中挖掘出9个具有较强独立性的城市社群,并发现7座不属于任何城市社群的游离城市节点。与此同时,本文依据式(4)和(5)计算出不同城市对各城市社群的聚合度,详见表5。
3.3 结果分析与讨论
本文通过深入分析上述城市社群,发现它们具有较为显著的内部特征:1)城市社群1中城市在城市环境、人文印象方面低于平均水平,但在经济政治、城市交通方面评价较高。2)城市社群2以银川、西宁为核心,在特色美食方面特征突出,在城市环境、人文印象方面表现优异。3)城市社群3仅由成都构成,在人文印象、城市旅游、特色美食方面评价颇高,没有城市能够与之媲美。4)城市社群4以西安、长沙、海口为代表,在经济政治、城市旅游方面具有较高评价。虽然重庆在经济政治、城市旅游方面也具有较高评价,但它与城市社群4中城市的语义相似度较低,由此表明其城市特征的评价内容不同。5)城市社群5以郑州、太原、合肥为代表,在经济政治、城市交通方面评价较高,但在城市旅游方面无明显情感倾向。6)城市社群6均由西部地区城市组成,在城市环境、经济政治方面均有正面评价,并且成员之间的语义信息相似度较高。7)城市社群7中城市在经济政治方面的社会评价高于平均水平,并在人文印象方面也具有较高评价。8)城市社群8以南宁、郑州、合肥、武汉为核心,在高等教育、城市交通方面评价较高。9)城市社群9中城市在城市环境方面评价较低,但在经济政治和特色美食方面评价较高。 与此同时,笔者发现游离城市与其他城市之间的语义相似度较低,由此表明它们在各方面均具有鲜明特征。例如,杭州在城市环境、人文印象和城市交通方面评价很高,但其社会公众评价内容与其他城市之间存在较大差异。此外,本文提出的城市社群划分方法从线上社会认知视角出发,得到的城市社群划分结果与地理区域和行政架构有一定差异。为了支撑线下基于行政构架的城市社群划分方法,笔者依据本文的城市社群划分方法还发现以下3点隐含特征:
1)并非所有地域邻近城市在其城市特征上均具有较高相似性。例如,昆明与拉萨、成都、贵阳之间均未形成城市社群,但郑州与太原、合肥、武汉之间均有很强关联。这表明虽然地域邻近能够促进更频繁的城市交流和人口流动,但这并不是导致城市之间特征相似的充要条件。本文方法摆脱了地域限制,能够发现社会认知视角下具有相似城市特征的城市关联。例如,石家庄和海口同属于城市社群1、4、9,均在城市环境、人文印象方面具有负向评价,在经济政治、城市交通方面具有正面评价。
2)社会认知的城市社群呈现一定区域性。例如,城市社群2和6均由西部地区城市组成,城市社群5和8也由中部地区城市主导。究其原因可知,西部地区城市在城市环境、人文印象、特色美食方面通常拥有正面评价,但在高等教育和城市交通方面通常少有正面评价;然而中部地区城市在城市交通、经济政治方面通常获得高度正面评价。由此表明,在国家行政架构的约束和区域发展政策的推动作用下,我国西部地区和中部地区形成了区域之间各异、区域内部相对统一的城市特征,但东部地区和东北地区并非如此。
3)城市特色的辨识度与城市定位的明确性存在地域差异。西部地区城市的城市特色辨识度普遍较低。例如,拉萨被同时划分到6个城市社群,且均处于社群边缘地位。这表明拉萨尚未形成较为明确的城市定位。同样,乌鲁木齐和呼和浩特被同时划分到5个城市社群,并且仅在城市社群6中占据核心地位。这表明这两座城市尽管具有相对明确的城市定位,但它们城市特色的辨识度不高。与此相反,游离城市绝大多數位于东部沿海地区。从这些城市的城市政策和政府文件中可以发现,它们均拥有明确的城市定位和突出的城市特色。
4 结 语
目前城市社群规划项目仍由管理部门来主导,社会认知在城市管理中的支撑权重还未得到充分体现。本文依据反映社会认知的网络数据进行城市关系发掘和城市社群发现,以此为实现公众参与社会治理提供一条可替代的路径。要保证该条路径的可达性既需要对城市之间的线下状况进行系统分析,又需要对城市之间的线上联系进行深度挖掘。本文力求从线上社会认知视角完善线下基于行政构架的城市社群划分方法,对驱动新型社会治理模式具有重要作用。虽然本文所述方法在实证研究中得到进一步验证,但本文在技术层面未能引入分面组织与分析方法将城市特征多粒度化。如果能够对各座城市的城市特征进行多粒度表征,也许本文能够发现更多、更深层次的城市潜在关系及城市社群结构,得出更具归纳性的研究结论。这一局限也将是本文后续研究的重点内容。
参考文献
[1]Putnam R.Bowling Alone[M].New York:Simon & Schuster,2000.
[2]Lindenberg S.Grounding Groups in Theory:Functional,Cognitive,and Structural Interdependencies[J].Advances in Group Processes,1997,(14):281-331.
[3]Piselli F.Communities,Places,and Social Networks[J].American Behavioral Scientist,2007,50(7):867-878.
[4]张恒婷.社交网络图像垃圾标签去除研究[D].北京:华北电力大学,2012.
[5]王贤兵.社会标注可信度评价方法研究[D].武汉:华中科技大学,2012.
[6]刘苏祺,白光伟,沈航.基于用户自描述标签的层次分类体系构建方法[J].计算机科学,2016,43(7):224-229,239.
[7]李纲,刘广兴,毛进,等.一种基于句法分析的情感标签抽取方法[J].图书情报工作,2014,58(14):12-20.
[8]于海鹏,翟红生.一种子空间聚类算法在多标签文本分类中应用[J].计算机应用与软件,2014,31(8):288-291,303.
[9]邓敏.基于主题图的标签语义挖掘研究[D].武汉:华中师范大学,2014.
[10]宋灵超,黄崑.基于社会标签的图像情感分类标注研究[J].图书情报工作,2016,60(21):103-112.
[11]叶光辉,李纲.社会语义网络结构分析—以MetaFilter为例[J].情报理论与实践,2015,38(12):57-63.
[12]Chen J,Feng S,Liu J.Topic Sense Induction from Social Tags Based on Non-negative Matrix Factorization[J].Information Sciences,2014,280:16-25.
[13]Pan W,Chen S,Feng Z.Automatic Clustering of Social Tag Using Community Detection[J].Applied Mathematics & Information Sciences,2013,7(2):675-681.
[14]Chelmis C,Prasanna V K.Social Link Prediction in Online Social Tagging Systems[J].ACM Transactions on Information Systems,2013,31(4):1-27. [15]Naseri S,Bahrehmand A,Ding C,et al.Enhancing Tag-based Collaborative Filtering Via Integrated Social Networking Information[C]//IEEE/ACM.International Conference on Advances in Social Networks Analysis and Mining.Niagara,Canada:IEEE/ACM,2013:760-764.
[16]易明,毛进,邓卫华.基于社会化标签网络的细粒度用户兴趣建模[J].现代图书情报技术,2011,27(4):35-41.
[17]易明,王学东,邓卫华.基于社会网络分析的社会化标签网络分析与个性化信息服务研究[J].中国图书馆学报,2010,36(2):107-114.
[18]易明,毛进,邓卫华,等.社会化标签系统中基于社会网络的知识推送网络演化研究[J].中国图书馆学报,2014,40(2):50-66.
[19]Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].Proceedings of National Academy of Science of the United States of America,2002,99(12):7921-7826.
[20]Newman M E J.Fast Algorithm for Detecting Community Structure in Networks[J].Physical Review E,2004,69(6):066133.
[21]Palla G,Derenyi I,Farkas I,et al.Uncovering the Over Lapping Community Structures of Complex Networks in Nature and Society[J].Nature,2005,435(7043):814-818.
[22]Shen H W,Cheng X Q,Cai K,et al.Detect Overlapping and Hierarchical Community Structure in Networks[J].Physica A,2009,388(8):1706-1712.
[23]Gregory S.Finding Overlapping Communities in Networks By Label Propagation[J].New Journal of Physics,2010,12(10):103018.
[24]Henderson K,Eliassi R T.Applying Latent Dirichlet Allocation to Group Discovery in Large Graphs[C]//ACM.Proceedings of the 2009 ACM Symposium on Applied Computing.Hawaii,USA:ACM,2009:1456-1461.
[25]Sachan M,Contractor D,Faruquie T,et al.Using Content and Interactions for Discovering Communities in Social Networks[C]//ACM.Proceedings of the 21st International Conference on World Wide Web.Lyon,France:ACM,2012:331-340.
[26]Yin Z.A Latent Community Topic Analysis:Integration of Community Discovery with Topic Modeling[J].Acm Transactions on Intelligent Systems & Technology,2012,3(4):1-21.
[27]Cha Y,Cho J.Social-network Analysis Using Topic Models[C]//ACM.Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval.Portland,USA:ACM,2012:565-574.
[28]Lancichinetti A,Fortunato S,Kertesz,Janos.Detecting the Overlapping and Hierarchical Community Structure in Complex Networks[J].New Journal of Physics,2009,11(3):033015.
(責任编辑:孙国雷)
转载注明来源:https://www.xzbu.com/4/view-15123051.htm