大数据数字媒体时代网络爬虫技术下的精准招商

> 中国论文网 >
政治论文 >
大数据数字媒体时代网络爬虫技术下的精准招商

大数据数字媒体时代网络爬虫技术下的精准招商

来源:用户上传作者:

　　摘要大数据时代如何有效的获取网络中的数据，并有效的应用数据成为人们关注的重点，在精准招商的过程中，利用网络爬取技术获取企业的有效信息，能够提高招商的效率，通过对网络爬虫技术在精准招商中的应用情况进行分析，探讨了基于Python语言的网络爬虫技术，为获取精准招商数据提供了新的方法与途径。
　　【关键词】大数据网络爬虫精准招商
　　在大数据时代，如何有效的获取有用的信息，成为人们关注的重点问题，采用传统的搜索引擎技术来获取信息时，往往会将一些无关的网页或者数据搜索出来，这种搜索方法已经明显的不能满足用户的需求，在有限的网络服务器资源的情况下，如果高效的获取有效的信息，解决信息不对称的问题成为关键技术之一，网络爬虫技术是一种基于网络的智能化的搜索引擎，通过运用合理的编写代码，用户就可以准确的获取需求的信息。在政府进行招商引资时，如何快速的获取招商信息，利用网络爬虫技术可以有效的解决这一问题。
　　 1 网络爬虫技术在精准招商中的应用
　　政府在招商引资的过程中，需要对商家的注册信息、经营范围、注册资金、服务模式、联系方式等相关的信息进行掌握，如果政府只是采用传统的搜索引擎方式进行搜索数据，这必然活会浪费大量的时间，获取的信息还不一定精准。在沃尔玛公司的官网上采用了其自行设计的Polaris搜索引擎技术，就是采用网络爬虫技术在庞大的数据基础上，充分的运用语义网分析、同义词挖掘技术、机器学习等技术，搜索用户的核心关键数据，实现用户需求信息的精准获取，不仅能够搜索到用户的当前信息，还能搜索到与用户相关的信息。政府在招商引资的过程中，如果能够在自己的数据库基础上，充分的利用网络爬虫技术，可以有效的屏蔽无关企业，查询到合适的企业，提高网络招商信息的有效性，实现网络爬虫技术下的精准招商，有利于提高政府招商的工作效率。
　　准确完整地提取网页中的主体信息，并能够精准对提取的信息进行分析，网络爬虫技术是当前Web应用一项关键技术，在信息搜索与提取中具有十分重要的作用。通过网络爬虫采集政府在招商过程中所需求的高质量的精准数据，并生成相应的招商企业数据库，并将采集到搜索到企业信息的数据库中，然后根据收集到的相应信息，并建立相应的数据表中，还可以根据政府的需要，实时的修改数据表，更新政府招商的信息数据，或者根据招商的需求建立新的数据表，提高在数据获取阶段的精准度，并与政府需求的数据信息进行对比分析，对政府的招商模式进行研判，进而能够有效的实现政府产业发展与招商投资的切入点，进而能够有效的实现政府的精准招商。
　　 2 网络爬虫技术在精准招商中运用的关键技术
　　在精准招商领域，基本的前提条件是获取企业的信息，并对获取的信息进行分布式存储，以便于利用爬虫技术对数据进行处理，然后采用爬虫技术来获取企业数据的URL数据，最终能够找到合适的数据表示方法，对爬取的数据进行存储与表示，分析在精准招商过程中的所爬取的企业信息主题，是否符合政府招商引资的要求，同时分析下载的超链接与网页内容，然后通过对企业的URL数据抓取关联度进行分析，剔除内容重复的网页数据，使得获取更加真实、有效的政府招商数据信息。具体的爬取数据过程为先获取下载网站的URL数据，并通过DNS解析，对网页下载处理，經过对URL地址进行过滤处理，然后按照一定的规则对网页的中关键数据进行获取，进而能够获得相应的数据，并保存在数据库中。
　　 2.1 网络爬虫的具体实施过程
　　 2.1.1 企业网络数据的处理
　　运用网络爬虫技术对招商企业信息进行处理时，首先需要了解该企业的网站URL，才能获取HTML页面内容，这样可以后期的数据爬取提供方便，在数据爬取时需要采用正则表达式技术或者Xpath技术，来提取页面中的相似内容，然后与政府招商信息进行匹配，在该过程中，爬虫技术主要以String为主的字符串部分与招商信息相关的内容解析，来获取与政府招商引资相关的企业信息，通过正则表达式技术或者Xpath技术对其进行解析，获得企业的相关信息。在爬取数据的过程中，Python有其自带的re、heautifulsoup和HTMLParser等数据技术，能够很好的解决数据获取的相关工作，在企业的URL信息进行处理时，一般URL会以a标签或者运用href标签，对相关的URL地址进行获取，这时，只需要采用正则的编制方案就可以有效的满足要求。
　　 2.1.2 剔除重复的数据信息
　　为了提高信息处理的效率，需要删除获取数据的重复链接（URL）地址，提高数据处理的效率。在采用爬虫技术对网络中的信息进行获取时，采用URL技术队列的方式对数据进行爬取，以避免“爬取”重复的URL地址，不仅可以剔除重复信息，还能提高数据的爬取效率，也就是对网络数据的URL进行查重处理，以减少网络存储空间的浪费，这样采用对企业的URL本地化存储，有利于网络爬取技术对企业的信息进行处理。
　　 2.1.3 有效解决爬取数据的并发问题
　　在数据进行爬取的过程中，采用Python能够有效的解决数据的多线程、多进程与协程的问题，Python程序拥有良好的并发处理能力，在网络爬取数据时的可靠性与准确性能较好，能够有效的处理数据并发问题。
　　 2.1.4 解析企业数据的存储
　　在利用网络爬虫爬取企业的数据之后，需要对数据信息进行存储，采用Python存储数据时，能够减少与系统数据库之间的直接操作，能够提高系统的可操作性，这样读取多个URL数据信息进行分量分批次的进行存储。
　　 2.2 采用Python语言爬取数据
　　 Python语言操作简单方便，在网络数据爬取中应用十分广泛，利用Python语言编写程序爬取网络数据十分简洁方便，能够方便的获取爬取企业的数据信息。　　 2.2.1 建立招商企业的网页数据模型一般情况下，对招商企业数据信息的获
　　取，包括静态数据与动态数据，静态数据的爬取比较简单，在获取动态数据时，需要查看HTML数据，选中相应的文件才能够进行爬取，部分代码如下：
　　 Import re
　　 Import urllib.request
　　 def gethtml （url）：
　　 qiye=urllib.urlopen （url）
　　 htm1=qiye.read（）
　　 Return html
　　 def getqiye（html）：
　　 reg=r’src=”（.+？＼.www＼.qiye＼.com）”’
　　＼Date=response.read（）
　　 htmlstr=date.decode（‘qiye’）
　　 Print（htmlstr）
　　在获取企业数据信息时，采用Python自带的urllib和re模块，就可以有效的获取的数据洗洗进行定义、操作，通过urllib和re对企业的网站进行遍历，就业对每个页面中的企业基本信息进行获取，并采用正则表达式从HTML的信息中获取企业的数据信息。
　　 2.2.2 数据爬取的基本流程
　　利用Python语言下的Scrapy框架，并结合String技术的字段处理功能，对政府精准招商引资数据进行处理，利用网络爬虫技术，对URL提供的数据进行爬取，它主要是采用是Twisted技术，调用Scrapy中间件，爬取数据的过程清晰，便于操作，而且也便于对数据进行处理。具体的数据的爬取流程为：首先通过下载器获取相应企业的网站，运用调度器来调取中间件（request）获取网页数据，然后通过（response）调取Scrapy中间件对网页中的数据进行爬取，获取项目需求的数据信息。
　　（1）首先，打开需要处理的企业网站URL，让网络蜘蛛（Spider）对网络数据进行爬取，进而获取相应企业的URL网页数据，便于进行分析。
　　（2）蜘蛛爬取待抓取的URL数据，通过引擎以Request的形式来读取相关的企业数据信息，并进行处理，使得数据的获取更加精准。
　　（3）在爬取数据过程中，引擎向调度器请求下一个要爬取的企业网站URL，将对满足具体要求的数据进行爬取。
　　（4）数据调度处理。需要采用调用Scrapy中间件来抓取企业的URL的数据利用爬虫技术来分析，然后通过引擎的调度将企业网络URL地址转发给下载器，由下载器获取相应的数据信息。
　　（5）在URL信息载入完成之后，Python下载器会生成一个与企业页面相同的页面，然后调用中间件Response，然后通過该Response将爬取的数据传递给Scrapy引擎，便于对数据进行爬取。
　　（6）Scrapy引擎将获取的数据通过Response发送给网络蜘蛛，并政府精准招商的数据进行分析。
　　（7）网络蜘蛛处理Response的信息并爬取数据，然后将爬取的数据条目以及新生成的Request返回给Scrapy引擎，便于进行下一步处理。
　　（8）Scrapy引擎将爬虫爬取的数据内容（items）发送给传输管道，并调用Request将爬取的数据发送给中间件，将获取的数据保存在数据表中。
　　（9）重复第二步，获取新的企业URL，循环直到没有新的URL产生，完成整个爬取数据的处理，保证爬取的数据，退出Scrapy引擎，这样就完成了整个精准招商数据的网络爬取。
　　在对数据进行爬取的过程中，有些网站服务器不希望被网络爬虫来获取数据，在采用urllib发送网络数据请求时，很容易被服务器拒绝，这时就需对urllib的发生数据请求进行伪装处理，伪装的关键就是在urllib的数据请求头中添加User-Agent字段，以达到获取数据目的。
　　 3 结束语
　　大数据已经融入了人们生活中的方方面面，通过对网络数据的提取可以获取有效的数据，来满足人们的不同需求。在网络招商的过程中，通过利用网络爬虫技术，编写相应的数据爬取程序，将企业的复杂数据进行整合关联，形成相互联系、相互影响的数据，形成一个统一的数据库，便于政府的招商部门能够快速的获取精准的数据，提高招商的效率。
　　参考文献
　　 [1]宋亚奇，周国亮，朱永利.智能电网人数据处理技术现状与挑战[J].电网技术，2017（04）：27-35.
　　 [2]金涛.网络爬虫在网页信息提取中的应用研究[J].现代计算机，2016（01）：16-18.
　　 [3]李国杰.人数据研究的科学价值[J].中国计算机学会通讯，2017（09）：8-15.
　　 [4]郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程，2017（12）：23-24.
转载注明来源:https://www.xzbu.com/1/view-14841902.htm

查看更多→

大数据数字媒体时代网络爬虫技术下的精准招商

相关文章