基于数字远读技术的社会画像构建方法研究
来源:用户上传
作者:何琳 艾毓茜 刘建斌 彭秋茹
摘要:[目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内在逻辑数据构建社会画像描述框架,利用多种文本挖掘技术抽取不同维度的特征标签,形成社会画像,并以先秦时期为例进行实证研究。[结果/结论]借助基于史实的社会画像,能够全景化呈现社会发展状况,可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义和价值。
关键词:社会画像;数字远读;用户画像;文本挖掘;社会发展
DOI:10.3969/j.issn.1008-0821.2022.07.002
〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2022)07-0022-09
Research on Construction Methods of Social Portraits on Digital HumanitiesHe LinAi YuxiLiu JianbinPeng Qiuru
(1.College of Information Management,Nanjing Agricultural University,Nanjing 210095,China;
2.Center for Humanity and Social Computation,Nanjing Agricultural University,Nanjing 210095,China)
Abstract:[Purpose/Significance]It is helpful to analyze historical classics from the perspective of distant reading by using visualization and other comprehensive technologies to show the society of a specific period to help researchers quantify historical research.[Method/Process]Drawing on the concept of user portraits,this article proposed a method for constructing social portraits based on the text data generated in the process of social development.The social portrait description framework was constructed based on the internal logic data of each social development facet,and used a variety of text mining techniques to extract feature labels of different dimensions to describe the social portrait,and took the pre-Qin period as an example for empirical research.[Results/Conclusion]With the help of social portraits based on historical facts,the social development situation can be presented in a panoramic way,which can provide support for researchers to quickly obtain an overview of the ancient society.
Key words:social portrait;distant reading;user portrait;text mining;social development
2010年,莫莱蒂引入远读概念将数字技术应用于人文学科,形成跨学科的数字人文研究[1]。在没有理论假设的前提下,文本内容挖掘及可视化分析利用数据挖掘、文本聚类、分类等方法,可以从海量数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示事物现象和发展规律,是对数字人文的可视化展示,为数字文本提供全局图景,可以很好地应用于史实的研究[2]。但目前的研究多集中于对大规模历史资料进行单一领域的定量分析,如历史地理信息可视化[3]、领域知识组织[4]、社会网络分析[5]和主题挖掘[6]等。而日益蓬勃发展的用户画像技术,以大量具有时效性的真实用户数据为数据基础,抽取其中的属性、行为等特征形成用裟P停具有全面性、时效性、真实性、动态性以及代表性等特征[7]。画像技术有助于在数字远读处理中,进一步细分分析的颗粒度。
用户画像技术及数字远读技术的蓬勃发展,为文本进行多维度社会画像分析提供了坚实的技术基础,本文尝试面向典籍,基于文本挖掘视角试图为研究者提供不同历史时期社会的“放大镜”。借鉴用户画像概念,本文采用“社会画像”一词,借以描述从文本角度构建的不同历史时期多维度的社会画像描述框架,然后结合历史中的相关人物、事件、物体等数据,建立古代社会画像标签体系,利用定性与定量相结合的方法,从不同角度、不同层面对古代社会进行分析展示,试图形成当时的社会画像。以先秦时期为例进行实证研究,结果表明,本文提出的社会画像构建技术,能够有效形成面向文本的社会概貌描述,对于提升大规模文本的快速有效分析具有一定的实践意义和价值。
nlc202207071629
转载注明来源:https://www.xzbu.com/4/view-15435631.htm