您好, 访客   登录/注册

基于图文识别的广告图片检测系统的设计与分析

来源:用户上传      作者:伍祥 刘文豪 赵子祥 王啸楠

  摘要:针对目前互联网的全民普及的趋势以致不法分子利用网络散布非法信息、导向性虚假广告等造成部分防备性较弱的网民受其诱导并导致被骗取财产的现象,设计一种基于图文识别的广告图片检测系统,通过对数字图像进行处理,对疑似广告的图片加以鉴别并标记,使网络管理员及早地发现广告图片,以及时作相应的处理,从源头上避免部分网民的财产损失。
  关键词:网络;广告图片;图文识别;网民
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2020)05-0087-02
  开放科学(资源服务)标识码(OSID):
  1 概述
  随着个人计算机和智能移动设备的不断普及,互联网逐渐融入每一位国民的生活之中,因此全国网民数量和人们每天的上网时间与日俱增,据有关报告[1]显示,截至2019年6月,中国的网民已达8.54亿,这一数字既显示了我国的物质生活水平不断提高,同时也反映了人们对互联网资源的依赖程度愈加增长。
  计算机网络的普及不断改变着人们的生活方式,人与人之间的沟通形式越来越多样化,人们获取信息的方式也变得越来越繁多[2]。互联网在人们带来的便利的同时,也伴随着一些安全隐患,其中之一就是一些不法分子利用网络资源的复杂多样以及一些网民对网络信息缺乏甄别能力,对网络虚假信息防备心理较弱,利用网络散播非法信息以及导向性虚假广告,使得部分网民信以为真,进而使得网民的财产安全受到威胁[3],因此针对这一问题,设计并实现一套广告图片检测系统显得至关重要,通过该系统对可能为虚假广告的图片自动加以鉴别和标记,有助于管理员尽早地发现,减少了大量的人力物力,从而从一定程度上可以避免网民的财产损失。
  2 系统功能需求
  基于图文识别的广告图片检测系统完成对需监管的指定网站进行内容图片的爬取,内容图片的自动鉴别标记,以及将该信息传递至网络管理员处,因此该系统分为三个模块,分别为图片爬取模块、广告图片识别模块以及数据处理模块。
  系统总体流程如图1所示。
  首先,系统通过爬虫程序爬取网络管理员需要监测的指定链接的图片内容,并将其存入指定目录下,针对图库中的爬取 的图片,通过广告识别程序对图片进行检测,如果识别该图片疑似为广告图片,便对其进行标记,并通知管理员,否则继续进行图像处理。
  广告图片一般形如“加QQ*******”“办证139********”“网络兼职+152********”等,用户如果在浏览网页时正好有广告所述需求时,可能就会通过QQ号、手机号联系对方,进而一步一步落入不法分子的圈套,并可能造成巨大的财产损失,因此,当图像中包含上述类似内容时,系统将认定其为疑似广告图片,并通知管理员。
  为此,首先对图像进行预处理,预处理的过程如图2所示。
  图片中的文字信息(只要是数字和字母),可能出现在一张图片中的任何一个位置,针对图像的大小不一、信息在图像中的位置坐标的不确定性,在预处理时,要经历如图2所示的图像压缩、灰度化、灰度拉伸、开运算、二值化、Canny边缘检测、多次的形态学操作等才能将图片中的信息,其中对于图像的形态学操作(开、闭运算)主要目的是将图片的中文字信息剥离出来。
  对图像进行预处理之后,便得出字母、数字信息在图像中大致位置。接着,對该图像进行前景与背景的分割,即将除有效信息外的其他的图片中的像素点作置0处理,得到分割后的图片仅包含有效信息。
  然后对有效信息进行二值化处理,生成有效信息的黑白图像,这里可适当的改变阈值以实现更好地分辨效果。
  最后,对有效二值图像进行信息分割,得到单独的数字或字母,并对其个数进行计数,由于0Q号一般为8-11位,手机号一般为11位,因此,系统设置阈值为8,当上述计数结果大于该阈值时,系统即判定该图片为广告图片。
  当某张图像被系统检测为疑似广告图片之后,系统对其进行标记,并通知管理员,以便让管理员进行进一步的判断,并及时进行处理。
  3 系统测试
  为了验证对疑似广告图片的处理过程,选取一张如图3所示的“办证刻章”的广告图片。
  其中,图3(a)为广告原图(图像处理时为原图,后期作了马赛克处理),图3(b)为程序在图像中标出有效信息的位置,图3(c)为将有效信息和背景进行分离,图3(d)为对图像进行二值化处理。最后,得出计数值为12(左侧边框被误认为有效信息,产生值为1的误差),大于阈值,该图片被认定为疑似广告图片。
  4 结束语
  针对不法分子可能利用网络传播虚假广告或者违法广告信息,本文设计了一种基于图文识别的广告检测系统,在一定程度上可较为准确地标记出疑似广告的图片,以便让网络管理员对图片进行进一步处理;系统下一步的目标是针对违规图片的不同的类别,设计出更加普适的网络图片检测系统,以便更好地对网络环境进行监管和进化。
  参考文献:
  [1] 2019年上半年我国互联网发展呈现六大趋势特点[J].新闻世界,2019(10):15.
  [2]冯洪玉.网络普及背景下的计算机网络安全问题研究[J].煤炭技术,2013(1):242-244.
  [3]苏雯.大数据时代网络诈骗犯罪侦查策略探析[J].法制与经济,2019(9):101-102.
  【通联编辑:唐一东】
  收稿日期:2019 -11-15
  基金项目:安徽省高校自然科学重点项目“基于CamShift方法多场景下的运动目标检测和跟踪技术的分析与研究”(KJ2018A0634);2019年安徽省级大学生创新创业训练计划项目“DS定制你的美好生活”(201813613013);安徽省高校自然科学重点项目“基于Hadoop与文本挖掘技术的高校舆情监测的研究与实现”(KJ2018A0629)
  作者简介:伍祥(1991-),男,安徽芜湖人,硕士,研究方向为数据库、计算机视觉、数据挖掘;刘文豪(1998-),男,安徽无为人,本科生在读,研究方向为大数据;赵子祥(1999-),男,安徽濉溪人,本科生在读,研究方向为大数据;王啸楠(1989-),女,安徽芜湖人,硕士,研究方向为数据挖掘、数据处理。
转载注明来源:https://www.xzbu.com/8/view-15180451.htm