瓜果种植信息推荐模型
来源:用户上传
作者:
[摘要]瓜果种植信息推荐有利于实现瓜果种植规范化、标准化管理,推进瓜果产业化。通过建立瓜农用户兴趣模型和文档特征模型,并进行用户兴趣分类,使用基于内容推荐技术,建立了瓜果种植信息推荐模型,为瓜果种植用户提供个性化的农业信息服务。
[关键词]推荐系统;特征提取;用户兴趣模型;信息推荐模型;瓜果种植
[中图分类号]TP3 [文献标识码]A
1 引言
信息推荐技术包括了基于协同过滤推荐、基于内容推荐、混合型推荐、基于数据挖掘推荐等,国内外有许多学者在这方面开展了广泛研究。1992年Goldberg等提出了协同过滤概念,这是目前研究和应用最广泛而且效率较高的一类推荐技术。自 20 世纪 90 年代初期第一个推荐系统问世,推荐系统开始成为一个独立的研究领域,并一直保持着较高的研究热度。信息推荐是根据用户特征推荐满足用户需求的对象,实现个性化服务。推荐系统的优点在于能主动收集用户的特征资料,通过对用户个性、习惯、偏好的分析,为用户定制并提供其感兴趣的信息;同时能及时跟踪用户的需求变化,根据变化自动调整信息服务的方式和内容。协同过滤推荐的优势是不依赖于项目内容,而是通过计算用户行为之间的相似度来进行信息推荐。
基于内容过滤推荐技术与协同过滤推荐不同,它是利用信息内容特征和用户兴趣特征的相似性来进行过滤的。在基于内容过滤推荐系统中,每个用户都用一个用户的兴趣模型来表示其兴趣特征;对每个项目的内容进行特征提取形成特征向量。当对目标用户进行推荐时,需要把该用户的用户兴趣模型与所有项目的特征向量进行相似度计算,系统通过相似度比较来推荐项目。
基于内容的推荐系统由于没有考虑到用户行为,这就没有了协同过滤中的第一评价、稀疏性、特殊用户等问题。但是,由于基于内容的推荐系统必须分析信息的内容,因此这导致了基于内容的推荐系统只能处理文本类信息,而对于音乐、图像、视频等媒体信息是无能为力的,也无法对用户的需求或兴趣提供准确的推荐。
由于协同过滤推荐和基于内容推荐两种技术各有其优点和缺点,于是就产生了混合推荐技术,通过混合、切换、加权、层叠、特征组合、特征放大等方法将以上两种技术进行混合,这样能同时继承协同推荐和基于内容推荐的优点,提高推荐质量。
基于数据挖掘的推荐技术主要是通过数据挖掘技术,从中挖掘出有价值的知识,再将这些知识对用户进行推荐,但对农民用户这个方法不太实用。
2 瓜果种植信息推荐模型
基于内容的推荐是通过计算项目的内容特征与用户兴趣特征的相似度来进行推荐的。它的目的是用用户的兴趣模型来表征用户的兴趣特征,将项目内容进行特征提取形成特征向量,然后通过用户的用户兴趣模型与项目的特征向量进行相似度计算,以此来推荐结果项目集,该技术的核心是用户的兴趣模型的表示、特征提取以及相似度计算。
瓜果种植信息推荐模型是基于南方瓜果种植标准化体系设计的,该模块主要采用基于内容的推荐技术,通过建立农民兴趣模型和文档特征模型,对瓜农进行个性化的农业信息推荐服务。在传统的基于内容的推荐技术基础上,充分考虑瓜农不同的兴趣需求,以及整个模块的自适应修正问题,使得瓜果种植信息推荐模块更符合瓜农的需求。其主要技术内容包括如下几个方面:
2.1 数据采集与预处理
为了建立用户兴趣向量模型、文档特征向量模型和实际的用户兴趣特征模型,系统需要搜集能反映出用户兴趣的信息,主要根据用户注册信息、用户日志数据等作为用户兴趣特征模型中的原始数据。
针对收集到的大量网页信息内容,进行清洗,并且去除网页中的HTML标签,然后,通过分词器对这些内容进行分词,并在分词的过程中对一些停用词无用词进行清理。
2.2 文本表示
为了使计算机能更有效地处理和计算文本资源,必须首先将文本数据进行结构化的数学表示。因此,建立了向量空间模型来进行文本表征,它是目前运用最广泛也是最为成功的一种文本表示方法。在向量空间模型中,每一篇文本都被形式化的表示成为的词条集合。其中,每一个词条都被赋予一定的权值,每个文本可以表示成为如下向量形式:
其中是特征项,与之相对应的是权重,反映了特征词在文本中的重要程度。每一篇文本的内容都被离散化为一个一个的特征词,并且将这些特征词形式化为数值的形式。以为项的向量表示方法,把原来极其复杂的问题,变为了向量空间中的普通计算,这大大提高了运算速度和效率。
在向量空间模型中,可以采用不同的权重衡量方法以及相似度计算方法,使用者可以根据不同的数据选择不同的方法,这使得向量空间模型有较为广泛的适应性。
2.3 特征提取
在向量空间模型中,特征项权值的计算会直接影响到推荐模型的计算精确度,因此,选择权重计算方法是一个比较重要的问題。当文本经过分词、清理停用词等处理后,得到的向量空间的维度是一个异常高维度的空间,也即是我们通常所说的维数灾难的问题,它导致系统资源被大量占用,计算效率低下。为了降低特征空间的维数,减少存储空间的使用,我们必须选择合适的特征提取算法,首先通过对特征权重进行排序,然后根据TOP-N原则,选择前N个特征进行处理,或者根据事先设定好的阈值,将特征权重超过该阈值的所有特征项纳入考虑范围。特征提取不仅能避免维数灾难问题,而且还能降低整个系统的计算复杂度,最终提高整个系统的准确率。
所谓特征选择,即是从原始特征空间选择了一部分特征项组成一个新的低维空间,选择的这些特征项虽然只是原始空间中的一部分,但是他们能代表原始特征空间的特征。想要进行特征选择,权重计算是其核心影响因素。目前,特征权重计算方法有很多,如布尔函数、词语频率等。我们选用了目前比较实用的方法,即TF-IDF-IG算法。该算法通过引入了信息增益,由鲁松等人提出,它将文本集合看成是符合某种概率分布的信息源,通过训练数据集合的信息熵与文本中特征词的条件熵之间信息量增益情况来衡量该特征词在类别中所能够提供的信息量,也就是特征词在类别中的重要程度。将传统的词语权重计算公式IF-IDF改进为:
转载注明来源:https://www.xzbu.com/1/view-14979846.htm