互联网数据在高校大数据平台中的应用研究
来源:用户上传
作者:
摘 要:互联网数据是高校大数据平台应用的重要数据来源,该文主要阐述了高校大数据平台的技术架构,并在此基础上提出了互联网数据的重要价值,分析了高校大数据应用中专业数据、资讯数据和网络舆情数据三大主要互联网数据构成,并对应用模式和应用场景进行了研究。提出并阐述了学科大数据分析、网络舆情监测、情报大数据分析、校友大数据分析等高校互联网数据大数据应用场景。
关键词:大数据 互联网数据 高校大数据平台
中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2019)12(c)-0012-03
当前,国家高度重视大数据及其应用的发展,高校作为人才培养和科学研究的前沿阵地,纷纷积极开展高校大数据平台的建设与实践。互联网数据作为海量数据的重要来源,其在高校大数据平台中的应用价值日益凸显,研究并深入实践基于互联网数据的高校大数据应用具有现实意义。
1 高校大数据平台概述
高校大数据平台是实现数据采集、关联融合、深度分析、判别预测、场景应用的基础[1]。其体系架构一般分为4层:数据来源层、数据采集层、大数据核心层、数据应用层。
1.1 数据来源层
高校大数据平台的数据来源主要包括校内业务数据、互联网数据、网络流量数据、设备运行数据4种类型的数据。
(1)校内业务数据。是由校内各种业务系统产生的数据,如教务系统中的课程、成绩数据,教学平台中的学习行为数据,一卡通系统中的消费数据,科研管理系统中的项目、经费、成果数据等,校内业务数据主要是结果状态数据,数据形态上以结构化数据为主,数据量不太大,适合统计分析得到直接的结论。
(2)互联网数据。来自于互联网的和学校相关的数据,比如专利检索数据、论文收录数据、网络舆情数据等,包括结构化数据和非结构化数据,尤其是海量的非结构化数据,是真正意义上的大数据,需要用到科学计算、NLP等技术来处理和分析。
(3)网络流量数据。包括校内用户访问互联网、校外访问校内以及校园网内部之间的网络流量数据,流量数据量大,但数据结构简单。用户的上网流量数据一般用于上网行为审计与分析,后两者一般用于系统服务评价和网络安全分析。
(4)设备运行数据。指服务器、交换机、路由器等设备的运行数据和日志数据,也包括中间件、数据库、Web服务的运行数据。一般用于IT运维健康度分析、自动化运维、网络安全等分析。
1.2 数据采集层
对来自不同数据源的数据进行采集、抽取、清洗、转换。常见的采集方式有3种:(1)传统的ETL离线采集适合校内业务系统数据采集;(2)分布式实时采集使用流处理方式,能满足每秒数百兆的日志数据采集,如ELK或者Splunk等;(3)网页爬虫采集适合互联网信息的采集,包括网页、数据、图片和文件等。数据采集的过程中数据质量管理很重要,需要对数据进行全过程治理以确保数据质量和可靠性。
1.3 大数据核心层
大数据核心层实现大数据的数据存储、资源调度、数据计算等功能。数据存储方面,提供HDFS分布式文件系统、Hbase布式列簇存储、分布式Mysql集群、内存数据库、ElasticSearch分布式搜索数据库等多种存储系统,以支撑各类数据的存储和访问需求。资源调度方面,通过Apache Hadoop YARN提供Hadoop资源管理,可为上层应用提供统一的资源管理和调度,通过Kubernetes等提供自动化部署、大规模可伸缩、应用容器化管理。在数据计算方面,提供流計算平台、数据挖掘流程模板库、极其算法库等计算工具,实现多维特征分析、分布式科学计算、可视化模型构建等。
1.4 数据应用层
基于大数据核心层提供的数据分析能力,对采集到的数据进行业务场景化应用,目前国内高校的大数据应用还在起步阶段,主要集中在学工分析与服务、学科分析与服务、师生用户画像分析、领导驾驶舱等应用领域。
2 高校大数据平台下的互联网数据主要构成
互联网数据作为高校大数据平台的重要数据源之一,是对校内业务数据的重要补充。其具有数据量大、更新快、形态丰富(结构化和非结构化)等特点,目前可用于高校大数据分析应用的互联网数据主要分为专业数据、资讯数据、网络舆情数据三大类。
2.1 专业数据
(1)科研数据。
主要包括专利数据和论文数据,专利数据可使用国家知识产权局专利检索数据和德温特专利检索数据等,论文数据主要来源于SCI、EI、Scopus、PubMed、CSCD、CSSCI以及知网、万方、维普等数据库,一些科研项目统计数据也可以在互联网中获取,如国家自然科学基金和国家人文社科基金的科研项目信息等。
(2)人才数据。
通过各类行业部门网站、高校网站、年鉴等渠道可以采集到全国高校院士数据、硕博导师数据以及获得各类人才荣誉称号的人才数据,如千人计划、青年千人计划、万人计划、长江学者、国家杰青、国家优青、青年拔尖人才等,另外,爱思唯尔(Elsevier)发布的中国高被引学者榜单也可以作为人才数据的补充。
(3)行业基础数据。
其包括一些开放的或提供局部应用的行业基础数据,如全国高校基础信息数据、学科评估数据、本科评估数据、高基表数据等。
2.2 资讯数据
资讯数据是互联网上最具海量特征的数据,主要由非结构化数据组成。对于高校而言,学校的发展与行业、社会是密不可分的,来自于教育主管部门、科研主管部门、其他高校、科研院所、生源地、企业、校友、学者动态等资讯信息是学校发展的重要情报信息来源,采集这些信息并进行合理的分析以及面向业务场景的应用,具有重要意义。 2.3 网络舆情数据
网络舆情数据是一种特殊的互联网资讯数据,其数据来源包括网络新闻媒体、网络论坛、百度贴吧、博客、微博、微信公众号、文章评论、网络视频等。
3 高校大数据平台下的互联网数据应用模式
3.1 数据采集原则
互联网数据采集是在高校大数据平台中开展互联网数据融合应用的重要前提,数据采集的数量、质量直接决定后期数据应用的有效性和可靠性。面对海量的互联网数据,到底应该采集哪些数据是摆在我们眼前的难题。根据目前可用于高校大数据分析应用的互联网数据的特点,科研成果数据等专业数据比较好界定,互联网资讯数据、网络舆情数据的来源广泛、数据量大,在数据采集时可以考虑如下几个方面的原则。
(1)“与我相关”。采集的数据是属于我的(学校、师生);提到我的(新闻、评论等),与我的业务发展相关的。
(2)“有价值”。采集的数据能描述学校的状态,能描述学校相关的机构或者人员的状态,能描述和学校相关的资源的情况。
(3)“最新的”。采集的数据要尽量具有良好的时效性、动态性。
(4)“准确的”。采集的数据其内容要尽可能准确,并且可以准确匹配和准确分类。
(5)“核心敏感的”。采集的数据与学校核心业务相关、痛点需求相关,或者是负面的,如网络舆情、安全事件等。
(6)“最大加工可能性”。采集的数据在可量化度上、可分析度上应具有良好的加工性。
(7)“最大采集效率”。数据采集尽量能采用全自动采集、半自动采集方式来实现,提高采集效率。
3.2 数据采集技术手段
目前面向高校大数据应用的互联网数据只有少量专业数据可以通过数据API接口的方式进行采集,大部分互聯网数据只能通过网络爬取的方式采集。网络爬虫是依照一定规则主动抓取网页的程序[2],目前,网络爬虫技术已经非常成熟,广泛应用于互联网信息抓取,在建立面向高校大数据应用的互联网数据爬取系统时,需要注意如下几个方面的问题。
(1)爬取能力问题。互联网数据有开放型网页、Web系统等多种来源,针对论文、专利等来源于系统查询的数据,需要综合使用通用网络爬虫、聚焦网络爬虫、深度网络爬虫等技术,实现数据的准确爬取;针对资讯数据、网络舆情数据则需要建立科学合理的高校行业词库,便于信息的准确匹配。在爬取性能上,由于数据的动态性和实时性要求较高,需要采用分布式网络爬虫架构,结合增量爬取技术,提高爬取性能。
(2)数据处理问题。根据不同数据类型采取不同的数据处理方式。专利论文等专业数据以及行业基础数据爬取后需进行结构化处理,并按照适合高校数据应用的数据标准进行清洗、转换、去重等;资讯数据和舆情数据则需要利用自然语言处理技术进行语义分析、情感分析、关键字提取等,基于非结构化的原始数据建立起结构化的标签数据,便于后期的数据应用。
(3)数据存储问题。互联网数据经处理后一部分转化为结构化数据存储,如专利、论文等数据;而互联网资讯数据和网络舆情数据则使用结构化存储和非结构化存储相结合。
3.3 数据应用服务对象
互联网数据在高校中的应用服务对象包括对内服务和对外服务。对内服务对象包括校领导、管理部门、学院、教师、学生;对外服务对象包括高校上级管理部门、生源基地、考生、家长、就业单位、社会公众等。根据不同互联网数据的价值和不同服务对象的需求进行应用设计和匹配。
4 高校大数据平台下的互联网数据应用场景
互联网数据可以应用到很多高校大数据服务场景,既可以独立应用,也可以和业务数据融合应用,下面就几个应用场景举例进行简单阐述。
4.1 学科大数据分析
以服务双一流学科建设为核心出发点,建立学科大数据应用数据标准,通过采集互联网中全球专利数据、文献数据、人才数据、高等教育指标数据、高校和科研机构数据、顶级学术会议数据,并与学校内部业务数据进行融合,实现学科建设数据的深度分析与挖掘,为双一流学科建设的项目管理、目标管理、绩效管理提供支撑,形成深度的、动态的学科发展大数据报告,并对发展趋势进行预测,对风险隐患进行预警。
4.2 网络舆情监测
网络舆情是针对社会热点、大众生活等问题,由新闻媒体或者个人在互联网上表达的言论、建议或情绪,是社会舆论在网络上的一种特殊表现形式[3]。基于大数据思维对网络舆情数据进行采集、分析、语义分析、情感判断是网络舆情监测平台新的发展趋势。通过分布式网络爬虫对高校相关的、分布于论坛、贴吧、微博、博客、新闻等不同载体中的网络舆情数据进行采集,并建立具有高校行业特点的语义词库和数据分析模型,形成网络舆情的自动收集、处理、分析、研判、预警全流程服务。
4.3 情报大数据分析
互联网数据中存在大量和高校自身、竞争对手以及教育行业相关的资讯数据,这些数据是高校发展和决策的重要情报数据来源,通过实时采集和适当处理可以形成服务高校发展的情报大数据平台。利用情报大数据实现“知己、知彼、知行业”的目标,知己是知自己、知本质,知彼是知对手、知动态,知行业是知环境、知风向。通过对来自互联网上的高校发展情报数据的自动采集、聚合、分类、场景化分析,如行业全景、媒体声誉指数、学者动态、学科动态等,实现对高校战略决策的支撑作用。
4.4 校友大数据分析
校友是高校发展的宝贵资源,了解校友动态是挖掘校友资源、精准服务的前提。校友大数据有两大数据来源,一是校友在校学习期间的数据,这方面的数据量级小、时间跨度短;二是数据则来自于校友毕业后在互联网上可公开采集到的各类数据,如人事任免、企业信息、上市公开信息、论文、专利、高端论坛、学术报告、新闻报道等海量的、动态的、跨越长时间周期的数据。基于这些数据建立校友大数据分析平台,可以动态地、精准地挖掘到高价值校友,为学校发展储备资源,为校友之间的互助、合作搭建桥梁和纽带。
5 结语
随着互联网数据的日益增加以及互联网数据采集与处理技术的不断成熟,开展基于互联网数据的高校大数据应用日趋成熟。互联网数据采集需遵循数据关联性、价值度、新鲜度、准确性、可加工性以及数据采集效率等原则,分布式网络爬虫、定制化数据处理、多样化数据存储是关键技术点。从校内外不同服务对象的需求特点出发,互联网数据可以应用到很多服务场景,在学科大数据、网络舆情监测、情报大数据、校友大数据等领域能够发挥重要作用。
参考文献
[1] 仲兆满,施珺,管燕,等.高校教育大数据平台的架构设计[J].教育现代化,2019,6(46):37-39,43.
[2] 刘金江,陈余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29,47.
[3] 姜春起.网络舆情监测系统应用问题研究[D].吉林大学,2017.
转载注明来源:https://www.xzbu.com/8/view-15153963.htm