融合类目偏好和数据场聚类的协同过滤推荐算法研究

> 中国论文网 >
历史论文 >
融合类目偏好和数据场聚类的协同过滤推荐算法研究

融合类目偏好和数据场聚类的协同过滤推荐算法研究

来源:用户上传作者:马鑫　王芳

　　摘要：［目的/意x］基于近邻用户的协同过滤推荐作为推荐系统应用最广泛的算法之一，受数据稀疏和计算可扩展问题影响，推荐效果不尽如人意。［方法/过程］针对上述问题，提出了一种改进的推荐算法（Category Preferred Data Field Clustering Based Collaborative Filtering Recommendation，CPDFC-CFR）。首先，该算法舍弃用户评分，利用评论情感构建用户―项目矩阵，以增强用户偏好表示能力；其次，该算法引入类目偏好和语义偏好的概念，利用类目偏好比对高维用户―项目矩阵进行降维，并在用户相似度计算中纳入评论情感偏好、项目类目偏好和语义偏好，以降低数据稀疏性；最后，该算法将数据场作为用户聚类的前置算法，把数据场输出（极大值点）作为K-means算法输入，以提升算法实时性和稳定性。［结果/结论］实验结果表明：①项目类目级别越低，CPDFC-CFR算法准确性（F-measure）和即时性（相似度计算次数和推荐耗时）越优；②与其他推荐算法相比，CPDFC-CFR算法能够有效提升推荐准确性和计算效率，对协同过滤推荐系统建设具有重要参考价值。
　　关键词：推荐系统；协同过滤；数据稀疏；计算可扩展；类目偏好；数据场聚类
　　DOI：10.3969/j.issn.1008-0821.2023.01.002
　　〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821（2023）01-0006-13
　　Category Preferred Data Field Clustering Based Collaborative
　　Filtering Recommendation Algorithm ResearchMa Xin1，2Wang Fang1，2*
　　（1.Business School，Nankai University，Tianjin 300110，China;
　　2.Center for Network Society Governance，Nankai University，Tianjin 300110，China）
　　Abstract：［Purpose/Significance］Collaborative filtering recommendation based on nearest users，one of the most widely used algorithms in recommender systems，is affected by the issues of data sparsity and computational scalability，and the recommendation effect is unsatisfactory.［Method/Process］To address these issues，a category preferred data field clustering based collaborative filtering recommendation algorithm（CPDFC-CFR）was proposed.First，the algorithm discarded user ratings and used comment sentiment to construct a user-item matrix to enhance the ability to express user preferences.Second，the algorithm introduced the concepts of category preference and semantic preference，reduced the dimensionality of the user-item matrix using category preferred ratio，and incorporated comment sentiment preference，category preference，and semantic preference in the user similarity calculation to reduce data sparsity.Finally，the algorithm used the data field as the pre-algorithm for user clustering and used its output（maximum point）as an input to the K-means algorithm to improve the real-time and stability performance of the algorithm.［Result/Conclusion］The findings indicated that：①the lower the item category level，the higher the accuracy（F-measure）and computational efficiency（number of similarity calculations and time-consuming of recommendation）of the CPDFC-CFR algorithm;②compared with other recommendation algorithms，CPDFC-CFR algorithm can effectively improve the recommendation accuracy and computational efficiency，which is an important reference value for the construction of collaborative filtering recommendation system.

nlc202301101728

　　Key words：recommendation system;collaborative filtering;data sparsity;computational scalability;category preferred;data field clustering
　　伴随信息通信技术的快速发展，数据呈指数式扩增，信息过载问题日益加剧［1］。为了帮助信息消费者从海量信息中获取有价值信息以及信息提供者提供高质量信息，推荐系统应运而生［2］。作为搜索引擎的重要补充，推荐系统能够通过分析用户历史数据，构建用户兴趣模型，对满足用户模糊的、不明确的信息需求具有重要意义，已被广泛应用于电子商务［3］、新闻传媒［4］、搜索引擎和文献信息获取［5］等诸多领域。
　　目前，推荐系统的常用推荐算法包括基于内容的推荐［6-7］、基于知识的推荐［8］、协同过滤推荐和混合推荐［9-10］。其中，基于内容的推荐利用项目固有的内容属性向用户产生推荐。基于知识的推荐利用用户的显示需求和项目领域知识产生推荐。混合推荐通过两种及以上推荐算法的组合为用户产生推荐。相比之下，协同过滤推荐利用用户和项目的交互评分为用户产生推荐，无需依赖项目的内容属性和领域知识，具有推荐项目类型多样、数据获取和技术复现难度小、个人信息安全性高等优势，成为众多推荐算法中最经典和最通用的一种推荐算法。协同过滤推荐包括基于模型的推荐和基于近邻的推荐［11-13］。基于模型的推荐通过算法模型（关联规则、回归、图等）预测为用户产生推荐。基于近邻的推荐通过用户或项目之间的近邻关系为用户产生推荐，分基于近邻用户的推荐和基于近邻项目的推荐两种。其中，基于近邻用户的协同过滤推荐（User-based Collaborative Filtering Recommendation，U-CFR）是最早为推荐系统开发的推荐算法之一［14］。
　　1）问题描述
　　准确、高效的推荐算法是推荐系统的核心，决定了推荐效果的优劣。对于U-CFR算法而言，数据稀疏和计算可扩展问题是最具挑战性的两个问题。为了说明这两个问题，对本研究采集的UserCats（10G）数据集进行了一些初步的实验与分析。
　　①评分数据稀疏。随机从UserCats数据集中抽取10名用户的历史数据，以研究数据稀疏问题。图1（a）和图1（b）分别绘制了10名用户的用户―项目评分矩阵（User-Item Rating，UIR）评分分布和交互次数，用户对项目进行消费且评分时记为一次交互。结果表明，多数用户仅对1 612个项目中的小部分项目感兴趣［13］，最高交互次数为86次（约为项目总量的5.33%），最低交互次数为21次（约为项目总量的1.30%），UIR矩阵稀疏度为97.25%，评分数据极为稀疏。
　　②计算可扩展性差。从相似度计算次数和推荐耗时两个方面研究算法的可扩展性。图1（c）显示随着用户数的增加，相似度计算次数呈指数式增长。类似的，从图1（d）中可以发现，U-CFR算法的耗时随用户数的增加也呈指数式上升，且变化率更大。结果表明，随着用户数的增加，相似度计算次数和推荐耗时呈指数式上升，U-CFR算法的算可扩展性将显著下降［2］。
　　尽管近年来已在U-CFR算法的基础上提出了许多改进算法，例如：用于缓解数据稀疏的基于链接开源数据的推荐［15］和基于图随机游走的推荐［16］等，用于提升计算可扩展性的基于交替最小二乘的推荐［17］和基于划分聚类的推荐［2］等，但算法仍然受到数据稀疏和计算可扩展性问题的限制。一方面，现有缓解数据稀疏性的工作本质上是有限的，受附加数据获取成本、用户隐私保护和归纳偏差等问题制约，且忽视了离散有限评分（例如：5星离散评分）对用户真实偏好的表示能力；另一方面，相比数据稀疏，针对计算可扩展性问题的研究较为欠缺，且优化模型易受超参数和可解释性问题影响，性能波动较大。因此，对U-CFR算法的数据稀疏问题和计算可扩展问题的研究仍然是一个有价值且具有挑战性的任务。
　　2）研究贡献
　　受类目偏好、数据场聚类和评论情感挖掘启发，针对U-CFR算法存在的数据稀疏和计算可扩展性问题，本研究提出了一种融合类目偏好和数据场聚类的协同过滤推荐算法（Category Preferred Data Field Clustering based Collaborative Filtering Recommendation，CPDFC-CFR）。该算法首先基于评论情感构建UIS矩阵，并利用类目偏好比将高维情感矩阵映射为低维用户―类目偏好矩阵（User-Category Preference，UCP）。然后，利用数据场聚类对UCP矩阵中的用户进行分组，按同簇用户间的综合相似度大小确定目标用户最近邻域。最后，利用最近邻域用户的综合相似度和非共有情感值预测未知项目情感，按预测值大小为目标用户生成Top-n项目推荐列表。为了进一步验证算法性能，在两个真实的电商数据集上进行了对照实验，结果表明，本研究所提CPDFC-CFR算法比U-CFR算法的系列改进算法在准确性和计算效率上有了较为显著的提升。
　　本文所提CPDFC-CFR算法的主要贡献如下：①增强了用户偏好的表示能力：该算法利用一种基于属性的无监督情感挖掘方法计算所得的评论情感代替用户评分，缓解了有限离散评分偏好表示能力有限的问题，且情感挖掘方法本身不受人工或机器标注情感标签的误差影响；②降低了数据稀疏性：该算法引入了类目偏好和用户语义的概念，并将其应用于用户聚类和相似度计算，缓解了稀疏数据对聚类和相似度计算效果的影响；③提高了计算效率和算法鲁棒性：该算法不仅利用划分聚类降低了用户相似度的计算次数，提高了推荐系统的实时性，而且将数据场作为划分聚类的前置算法，有效解决了随机初始聚类中心等对聚类效果的影响（例如：局部最优、反复迭代等），使算法结果更加稳定。

nlc202301101728

　　1相关研究
　　1.1基于近邻用户的协同过滤推荐
　　作为最早为推荐系统开发的算法之一，基于近邻用户的协同过滤推荐（User-based Collaborative Filtering Recommendation，U-CFR）的核心思想是当一个目标用户需要个性化推荐时，算法能够找到与其兴趣相近的用户，并能够将这些用户喜好的而目标用户未交互过的项目推荐给他。算法原理如图2所示。
　　首先利用用户历史评分构建用户―项目评分矩阵（UIR），并计算用户之间的评分相似度，按相似度大小确定与各用户具有相似共同偏好的最近邻用户集，然后结合近邻用户相似度和非共有历史评分对UIR矩阵缺失评分进行预测，最后按预测评分值高低为用户生成个性化项目推荐列表。
　　1.2数据稀疏性
　　关于U-CFR算法数据稀疏问题的研究，主要集中在附加外部数据和隐式图结构两个方面。对于附加外部数据，学者们主要关注如何将在线社区数据或开源数据作为稀疏评分数据的补充，以降低稀疏性对推荐效果的影响。代表性研究有：丁永刚等［18］将社交网络中的社会关系与评分结合，挖掘社交网络好友的历史偏好以缓解评分稀疏；Senthilselvan N等［15］在SVD++模型中加入链接开源数据（Linked Open Data，LOD）构建的用户隐式表示，提出了一种基于LOD的推荐算法。类似的，李浩等［19］将U-CFR算法、基于近邻项目的协同过滤推荐算法和利用项目外部附加数据构建的循环知识图谱相融合，通过实体间的依赖关系来缓解用户评分的稀疏性，以产生高质量推荐。
　　对于隐式图结构，学者们主要关注如何借助图传递或排序技术利用路径定义用户相似度，取代传统相似度计算，优化稀疏数据推荐表现。代表性研究有：张以文等［20］借助聚类构建用户信任网络，通过网络随机游走量化用户相似度，预测缺失评分并产生推荐；Zengin Alp Z等［16］在多层结构中使用不同类型节点，通过图随机游走提出了一种上下文感知推荐算法。类似的，针对多图融合可能引入的归纳偏差，Wang M等［21］提出了一个多任务多视图的图表示学习框架（M2GRL）来学习Web规模推荐系统中多视图图的节点表示，以应对评分数据的稀疏问题。
　　尽管上述方法的有效性已被证明，但其在解决数据稀疏问题中发挥的作用本质上是有限的。原因有三：其一，附加外部数据多为开源人口统计信息等个人隐私数据，存在数据滥用和泄露风险，用户的发布意愿较低，数据完整性堪忧［15］。特别是，缺少有关中文场景的链接开源数据库。其二，隐式图结构在为每个用户进行推荐时，均需迭代整个用户―项目二分图至各顶点PR值收敛，时间复杂度极高。其三，受评分规则制约，用户评分与用户喜好之间存在一定偏差，但鲜有研究关注该问题，相似度计算结果易失真。本研究利用评论情感替代用户评分，通过在相似度计算中引入类目偏好和由非隐私数据表示的用户语义偏好的方式应对U-CFR算法的数据稀疏问题。
　　1.3计算可扩展性
　　关于U-CFR算法计算可扩展性问题的研究，主要集中在评分矩阵降维和用户聚类两个方面。对于降低评分矩阵维度，学者们主要关注如何运用矩阵分解算法将高维稀疏UIR矩阵分解为低维用户和项目的稠密矩阵，利用稠密矩阵乘积近似评分矩阵并为用户推荐项目。代表性研究有：Hammou B A等［22］利用矩阵分解分解UIR矩阵，通过结合评论数据计算用户相似度，预测缺失评分并完成推荐；与随机初始化用户和项目特征不同，Zhao J等［23］提出来一种基于属性映射和自编码神经网络的矩阵分解初始化方法，进一步提升了矩阵分解效率。Hu Y等［17］提出了一种改进的矩阵分解方法（Alternating Least Squares，ALS），其采用一个交替的训练程序来获得一组用户和项目的嵌入，通过嵌入点积的形式近似原始UIR矩阵，以此产生推荐。
　　对于用户聚类，研究人员主要关注如何利用单一或组合聚类算法对用户进行分组，通过创建较少且包含目标用户的聚类簇，缩小最近邻检索范围，提升推荐算法计算效率。代表性研究有：陶维成等［24］利用灰色关联度对用户进行灰色关联聚类，结合近邻用户灰色相似度和非共有评分预测缺失评分并产生推荐；张文等［25］利用谱聚类分别对用户和项目聚类，并根据聚类结果对UIR矩阵中用户和项目位置进行重新调整，通过SVD（Singular Value Decomposition）分解局部稠密分块矩阵，利用施密特变换预测缺失评分。Li J等［2］将Canopy算法作为K-means算法的前置算法，并将输出作为K-means算法的输入（聚类数），因此提升优化聚类效果并降低算法计算耗时。
　　相比于矩阵分解方法，基于聚类的方法因具有易操作、数据利用率高和结果可解释性较强等优势，成为下提升U-CFR算法计算效率的研究热点。但是，受聚类矩阵维度和超参数（例如：随机选择的初始聚类中心）问题影响，实际应用中的用户聚类效果并不理想，容易出现计算效率低下和局部最优等情况。本研究从类目偏好角度对用于聚类的UIS矩阵进行降维，并将数据场作为K-means的前置算法，以进一步对推荐算法的计算可扩展性进行优化。
　　2融合类目偏好和数据场聚类的协同过滤推荐算法数据稀疏问题和计算可扩展问题是基于近邻用户的协同过滤推荐算法（User-based Collaborative Filtering Recommendation，U-CFR）优化研究的两个核心问题。为此，学者们借助链接开源数据［15］、图［19］、矩阵分解［17］和聚类［2］等技术方法对U-CFR算法进行了大量的改进研究。但是受用户评分失真、附加数据完整性和安全性差、超参数等问题影响，现有方法对算法准确性和计算效率的提升效果十分有限。
　　综上所述，本文在U-CFR算法基础之上，提出了一种融合类目偏好和数据场聚类的协同过滤推荐算法（Category Preferred Data Field Clustering Based Collaborative Filtering Recommendation，CPDFC-CFR）。该算法首先采用评论情感构建用户―项目矩阵，修正评分引入的用户偏好表示偏差。然后，引入类目偏好和用户语义偏好的概念，并将其与评论情感相似度结合，缓解数据稀疏问题对推荐准确性的影响。最后，利用类目偏好比对聚类的输入矩阵进行降维，并将数据场作为聚类前置算法，缓解矩阵维度和超参数对用户聚类过程的影响，减少相似度计算次数，提升算法推荐效率。

nlc202301101728

　　2.1推荐算法总体框架
　　CPDFC-CFR算法的整体计算框架如图3所示，先后分评论情感挖掘（计算单元1）、类目偏好比计算（计算单元2）、数据场聚类（计算单元3）、综合相似度计算以及评分预测（计算单元4）和推荐（计算单元5）5个计算单元。其中，计算单元1负责利用基于属性的无监督情感挖掘方法将评论整体情感量化为一个固定区间的连续值，并构建用户―项目情感矩阵（UIS）。计算单元2负责利用类目偏好比将UIS矩阵转换为维度更低且数据密度更高的用户―类目偏好矩阵（UCP）。计算单元3负责利用数据场聚类算法对用户进行分组，缩小最近邻域检索范围，减少相似度计算次数。计算单元4负责计算由评论情感相似度、类目偏好相似度和用户语义相似度构成的综合相似度，并按相似度大小确定最近邻域。计算单元5负责利用近邻用户综合相似度和非共有评论情感预测目标用户对未知项目的情感，并生成Top-n项目推荐列表。
　　2.2评论情感挖掘
　　2.3类目偏好比计算
　　2.3.1原理
　　推荐系统的数据往往过于庞大和稀疏，影响聚类和相似度计算效果，因此有必要降低UIS矩阵维度［2］。鉴于每个项目均对应1个或多个类目，本研究利用Pearson相关系数计算UserCats数据集中各用户相似度，并从中随机选择6个近邻用户和6个非近邻用户的历史数据，分析他们与各级类目交互的频率异同，结果如图4和图5所示。图46个随机近邻用户与各级类目的交互频率比较
　　由图4不难看出，在不同的类目级别上，近邻用户均表现出极为相似的类目偏好，而图5显示非近邻用户的类目偏好则有较大差异。因此，从类目偏好的角度对UIS矩阵进行降S是合理且可行的。
　　2.3.2计算
　　2.4数据场聚类
　　2.5综合相似度计算
　　2.6评分预测和产生推荐
　　3实验与分析
　　3.1实验数据
　　本研究在遵循网站Robots协议前提下，将在某知名电商平台上利用定向爬虫抓取的相关数据作为实验的原始数据集UserCats。该数据集由Categories、Comments和Products 3个json文件组成，大小为10G，存储有585万用户与15万商品的交互数据，例如：用户昵称、产品标题、类目ID、店铺信息、评论、评分等。选择该数据集的原因有两个：第一，尽管用于U-CFR算法验证的开放数据集很多，如MovieLens、Netflix等，但项目类目、评论文本和用户昵称等数据不够完整；第二，电商领域是推荐系统应用最早的领域，也是一直以来推荐重点关注的领域，平台商品类目齐全且层次清晰，数据便于获取。
　　为确保实验可行性及有效性，本研究随机从UserCats中无放回抽取若干数据生成UserCats1和UserCats2两个实验数据集，并从中剔除未进行评论的用户、无任何评论的商品和有内容安全风险的商品［3］。其中，UserCats1数据集大小为109M，为740个用户和1 006个商品的交互数据，有3个一级类目、5个二级类目和9个三级类目，评论情感稀疏度为96.34%。UserCats2数据集大小为108M，为854个用户与1 373个商品的交互数据，有6个一级类目、9个二级类目和13个三级类目。综合考虑数据实时性和算法规模，采用PC离线方法进行实验［2］（Windows 11，PyCharm 2021，Python 3.6，Inter（R）Core TM i7-8550U @ 200GHz，16G RAM）。数据集分训练集（80%）和测试集（20%）。实验数据集描述如表1所示。
　　3.2评价指标与对照算法
　　3.2.1评价指标
　　3.2.2对照算法
　　为全面验证CPDFC-CFR算法应对数据稀疏和计算可扩展性问题的有效性，本研究所选对照算法基本涵盖了现有研究提出的不同类型的U-CFR算法。下面，对本研究所选对照算法进行简要说明：
　　POP（Popular Products）：一种简单的非个性化基线算法，该算法按项目流行度的大小向各用户推荐相同的Top-n项目推荐列表。
　　ALS（Alternating Least Squares）［17］：一种矩阵分解算法，该算法采用交替训练的方式获得一组用户和项目的嵌入，通过嵌入点积的形式近似原始的用户―项目矩阵。
　　U-CFR（User-based Collaborative Filtering Recommendation）［3］：一种简单的个性化基线算法，该算法基于用户相似度为目标用户推荐其近邻用户喜欢的项目。
　　Km-CFR（K-means Based Collaborative Filtering Recommendation）［3］：一种基于聚类的推荐算法，该算法在U-CFR基础上利用K-means算法减少用户相似度计算次数，提升算法推荐效率。
　　CKm-CFR（Canopy-K-means Based Collaborative Filtering Recommendation）［2］：一种基于聚类的推荐算法，该算法将Canopy作为K-means的前置算法，缓解了聚类数k对聚类效果的影响，在提升计算效率的同时也确保了结果的稳定性。
　　上述算法均适用于用户―项目矩阵，其中行表示用户，列表示项目，行列交点表示用户评分或用户评论情感。此外，还比较了CPDFC-CFR算法的3种中间算法，以比较算法不同计算单元的优化效果：
　　U-CFR（UIS）：与U-CFR算法相比，构建用户―项目矩阵利用的是用户评论情感。
　　U-CFR（UIS+DF）：与U-CFR（UIS）算法相比，在相似度计算前利用数据场聚类对用户进行了分组。

nlc202301101728

　　U-CFR（UIS+SIM）：与U-CFR（UIS）算法相比，Pearson相关系数替换为综合相似度。
　　POP和ALS算法无用户相似度计算过程，研究仅比较了它们在推荐耗时上的计算效率表现。所有算法由Anaconda 3中Implicit推荐算法库和Sklearn、Scipy等依赖库复现。
　　3.3超参数选择
　　超参数是推荐算法开始学习过程之前人工设置值的参数。取最近邻个数N=10（总用户数的1%～2%）［34］和项目推荐列表长度n=15（与Last.fm等平台的项目推荐长度相近）［38］，通过对不同参数进行网格搜索来选择各算法的超参数，并以F-measure值大小作为最佳参数确定标准。实验结果取三折交叉验证结果的平均。各算法超参范围如下（POP除外）：
　　对于ALS，在{10，100，1 000}之间选择嵌入大小，在{500，1 000}之间选择算法迭代次数，在{0.001，0.0001}之间选择正则化因子。对于U-CFR、U-CFR（UIS）、U-CFR（UIS+DF）、Km-CFR和CKm-CFR，在Pearson相关系数之间选择相似度计算函数，在{2，3，4，5，6，7，8，9，10}之间选择最佳聚类数（仅用于Km-CFR算法），在1 000之间选择迭代次数（仅用于Km-CFR和CKm-CFR）。
　　对于U-CFR（UIS+SIM）和CPDC-CFR，有α∈［0，1］、β∈［0，1］和γ∈［0，1］3个超参数，满足。鉴于3个超参数的值对为三维空间中的等边三角形面，如图6所示，本研究在三条角平分线的7个交点和切割区域的6个对称点之间选择和的最佳取值。
　　3.4实验结果分析
　　本节报告并讨论实验结果。首先探讨不同类目级别对CPDFC-CFR算法推荐准确性和计算效率的影响（3.4.1节），然后介绍CPDFC-CFR算法整体性能（3.4.2节），最后比较不同推荐算法的结果差异（3.4.3节）。
　　3.4.1类目级别影响
　　UserCats1和UserCats2中CPDFC-CFR算法在不同商品类目级别上的性能表现如图7所示。在准确性方面，商品类目级别越高，算法F-measure值越小。在计算效率方面，商品类目级别越高，算法推荐耗时越长，相似度计算次数越多。一个可能的原因是，随着商品类目级别的提升，UCP矩阵贡献的用户类目偏好信息粒度越来越大，如图7（a1）和图7（a2）所示，弱化了用户之间的细微偏好差异，令数据场聚类效果下降，影响了算法计算效率和准确性。鉴于各评价指标值变化的拐点尚未出现，进一步降低商品类目级别（例如：细化三级类目的商品分类，构建四级商品类目），可能是一种提升CPDFC-CFR准确性和计算效率的有效途径。
　　3.4.2总体性能分析
　　对照算法和本文所提算法及其中间算法在两个实验数据集中的F-measure、推荐耗时和相似度计算次数指标的三折及平均结果如图8所示。对比U-CFR和U-CFR（UIS）可知，利用评论情感构建的UIS矩阵能蛭近邻协同过滤推荐算法提供比UIR矩阵更加接近用户真实喜好的向量表示。对比U-CFR（UIS）和U-CFR（UIS+DF）可知，利用数据场优化K-means算法的用户聚类效果是可行的，能够有效降低推荐算法的相似度计算次数和推荐耗时并提升准确性。对比U-CFR（UIS）和U-CFR（UIS+SIM）可知，尽管引入用户类目偏好信息（三级产品类目）和语义信息会令推荐耗时增加，但实验结果也基本证实了它们在缓解矩阵数据稀疏上的有效性。综合考虑上述优化思路的CPDFC-CFR算法在两个实验数据集中均取得了最高的F-measure、较少的推荐耗时和最低的相似度计算次数，与算法设计预期相符。
　　3.4.3不同推荐算法比较
　　UserCats1和UserCats2数据集中不同类型推荐算法的性能如图9所示（三折交叉验证均值）。总体而言，两个数据集中本文所提CPDFC-CFR算法均取得了整体上的最优性能（最高的准确性和较高的计算效率）。在准确性方面，交替训练ALS的F-measure值要高于Km-CFR和CKm-CFR等基于传统聚类的协同过滤推荐算法。POP表现最差，因为其基于产品流行度向所有用户推荐相同的商品列表。在计算效率方面，U-CFR耗时最长，POP耗时最短，ALS因无需反复计算相似度耗时较短。受超参数影响，Km-CFR的相似度计算次数和推荐耗时高于CKm-CFR和CPDFC-CFR。此外，从图中数据可知，无论哪种类型推荐算法，UserCats1（稀疏度96.34%）中的结果都优于UserCats2（稀疏度97.94%），这表明数据稀疏性对推荐性能有较大影响。
　　4结语
　　4.1结论
　　伴随信息过载，推荐成为信息消费者获取个性化信息以及信息提供者提供高质量信息的重要方式。受用户评分失真、附加数据完整性和安全性差以及超参数（例如：随机初始聚类中心）等问题影响，现有针对基于近邻用户的协同过滤推荐算法数据稀疏和计算可扩展性（计算效率）问题的相关研究仍有进一步优化的空间。为此，本文提出了一种融合类目偏好和数据场聚类的协同过滤推荐算法（Category Preferred Data Field Clustering Based Collaborative Filtering Recommendation，CPDFC-CFR）。该算法首先通过评论情感构建用户―项目矩阵，并利图9不同类型推荐算法的准确性和计算效率表现
　　用类目偏好比降低矩阵维度；然后，通过数据场聚类对用户进行分组，缩小最近邻域检索范围，减少相似度计算次数；最后，计算同簇中由评论情感、类目偏好和用户语义共同构成的用户相似度，同时预测UIS矩阵缺失评分，产生Top-n个性化项目推荐列表。为进一步验证算法性能，本研究在电商领域的两个真实数据集上进行了对照实验，结果表明，CPDFC-CFR算法比对照算法和U-CFR算法的系列改进算法在准确性和计算效率上有了较为明显的提升（UserCats1数据集上F-measure=27.65%，推荐耗时=3 633.50秒，相似度计算次数=263 096次；UserCats2数据集上F-measure=26.96%，推荐耗时=6 698.18秒，相似度计算次数=364 658次），整体性能最优。

nlc202301101728

　　4.2局限与未来工作
　　本研究的不足之处在于：第一，受数据采集成本限制，研究仅在电商场景中对算法准确性和计算效率进行了验证，在实验数据的多样性上可能存在一定疏漏，导致研究结果的可靠性和算法的可推广性有待进一步提升。未来工作可能会采集不同场景下的数据集，例如：新闻传媒、金融理财、研发等，在不同数据量级和不同稀疏度等组合条件下验证算法性能。第二，虽然研究未发现类目级别与算法准确性和计算效率之间的均衡点，但却可以看出一定的规律，即：随着类目级别的降低，算法准确性和计算效率逐渐上升，如图8所示。未来的工作可能会尝试利用深度学习或人工方式细化类目分类，找到类目级别与算法准确性和计算效率的均衡点，进一步提升算法推荐效果。
　　参考文献
　　［1］Chen D，Hu Y，Wang L，et al.H-PARAFAC：Hierarchical Parallel Factor Analysis of Multidimensional Big data［J］.IEEE Transactions on Parallel and Distributed Systems，2016，28（4）：1091-1104.
　　［2］Li J，Zhang K，Yang X，et al.Category Preferred Canopy―K-means Based Collaborative Filtering Algorithm［J］.Future Generation Computer Systems，2019，93：1046-1054.
　　［3］马鑫，王芳，段刚龙.面向电商内容安全风险管控的协同过滤推荐算法研究［J］.情报理论与实践，2022，45（10）：176-187.
　　［4］杨武，唐瑞，卢玲.基于内容的推荐与协同过滤融合的新闻推荐方法［J］.计算机应用，2016，36（2）：414-418.
　　［5］熊回香，李晓敏，杜瑾.基于学术关键词与共被引的学者推荐研究［J］.情报学报，2021，40（7）：725-733.
　　［6］Tian Y，Zheng B，Wang Y，et al.College Library Personalized Recommendation System Based on Hybrid Recommendation Algorithm［J］.Procedia CIRP，2019，83：490-494.
　　［7］Burke R.Hybrid Web Recommender Systems［M］.Brusilovsky P，Kobsa A，Nejdl W.The Adaptive Web：Methods and Strategies of Web Personalization.Berlin，Heidelberg;Springer Berlin Heidelberg，2007：377-408.
　　［8］马宏伟，张光卫，李鹏.协同过滤推荐算法综述［J］.小型微型计算机系统，2009，30（7）：1282-1288.
　　［9］张宜浩，朱小飞，徐传运，等.基于用户评论的深度情感分析和多视图协同融合的混合推荐方法［J］.计算机学报，2019，42（6）：1316-1333.
　　［10］Liu H，Wang Y，Peng Q，et al.Hybrid Neural Recommendation with Joint Deep Representation Learning of Ratings and Reviews［J］.Neurocomputing，2020，374：77-85.
　　［11］Aggarwal C C.推荐系统：原理与实践［M］.北京：机械工业出版社，2018.
　　［12］Elahi M，Ricci F，Rubens N.A Survey of Active Learning in Collaborative Filtering Recommender Systems［J］.Computer Science Review，2016，20：29-50.
　　［13］R鑫.基于数据场聚类的电商近邻协同过滤推荐算法研究［D］.西安：西安理工大学，2021.
　　［14］潘涛涛，文锋，刘勤让.基于矩阵填充和物品可预测性的协同过滤算法［J］.自动化学报，2017，43（9）：1597-1606.
　　［15］Senthilselvan N，Subramaniyaswamy V，Sivaramakrishnan N，et al.Resolving Data Sparsity and Cold Start Problem in Collaborative Filtering Recommender System Using Linked Open Data［J］.Expert Systems with Applications，2020，149：113248.
　　［16］Zengin Alp Z，Gündüz ?güdücü.Identifying Topical Influencers on Twitter Based on User Behavior and Network Topology［J］.Knowledge-Based Systems，2018，141：211-221.
　　［17］Hu Y，Koren Y，Volinsky C.Collaborative Filtering for Implicit Feedback Datasets［C］//Proceedings of the 2008 Eighth IEEE International Conference on Data Mining，2008.

nlc202301101728

　　［18］丁永刚，张雨琴，付强，等.基于SOM神经网络和排序因子分解机的图书资源精准推荐［J］.情报理论与实践，2019，42（9）：133-138，170.
　　［19］李浩，张亚钏，康雁，等.融合循环知识图谱和协同过滤电影推荐算法［J］.算机工程与应用，2020，56（2）：106-114.
　　［20］张以文，汪开斌，严远亭，等.基于覆盖随机游走算法的服务质量预测［J］.计算机学报，2018，41（12）：2756-2768.
　　［21］Wang M，Lin Y，Lin G，et al.M2GRL：A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems［C］//Proceedings of the Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining，New York，NY，USA，F，2020.
　　［22］Hammou B A，Lahcen A A，Mouline S.An Effective Distributed Predictive Model with Matrix Factorization and Random Forest for Big Data Recommendation Systems［J］.Expert Systems with Applications，2019，137：253-265.
　　［23］Zhao J，Geng X，Zhou J，et al.Attribute Mapping and Autoencoder Neural Network Based Matrix Factorization Initialization for Recommendation Systems［J］.Knowledge-Based Systems，2019，166：132-139.
　　［24］陶维成，党耀国.基于灰色关联聚类的协同过滤推荐算法［J］.运筹与管理，2018，27（1）：84-88.
　　［25］张文，崔杨波，李健，等.基于聚类矩阵近似的协同过滤推荐研究［J］.运筹与管理，2020，29（4）：171-178.
　　［26］王红霞，陈健，程艳芬.采用评论挖掘修正用户评分的改进协同过滤算法［J］.浙江大学学报（工学版），2019，53（3）：522-532.
　　［27］Yang H，Suh Y.Sentiment Analysis of Online Customer Reviews for Product Recommendation：Comparison with Traditional CF-based Recommendation［J］.Korea Management Information Society Conference，2015：801-805.
　　［28］Ganu G，Kakodkar Y，Marian A.Improving the Quality of Predictions Using Textual Information in Online User Reviews［J］.Information Systems，2013，38（1）：1-15.
　　［29］Zhang X，Liu H，Chen X，et al.A Novel Hybrid Deep Recommendation System to Differentiate Users Preference and Items Attractiveness［J］.Information Sciences，2020，519：306-316.
　　［30］Liu Q B，Karahanna E.The Dark Side of Reviews：The Swaying Effects of Online Product Reviews on Attribute Preference Construction［J］.Management Information Systems Quarterly，2017，41（2）：427-448.
　　［31］Zhang Y，Cheng D Z，Yao T，et al.A Model of Two Tales：Dual Transfer Learning Framework for Improved Long-tail Item Recommendation［M］.Proceedings of the Web Conference 2021.Ljubljana，Slovenia;Association for Computing Machinery，2021：2220-2231.
　　［32］Mukherjee A，Venkataraman V，Liu B，et al.What Yelp Fake Review Filter Might Be Doing？［C］//Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media，2013.
　　［33］淦文燕，李德毅，王建民.一种基于数据场的层次聚类方法［J］.电子学报，2006，34（2）：258-262.
　　［34］Rodriguez A，Laio A.Clustering By Fast Search and Find of Density Peaks［J］.Science，2014，344（6191）：1492-1496.
　　［35］Papagiannopoulou E，Tsoumakas G.Local Word Vectors Guiding Keyphrase Extraction［J］.Information Processing & Management，2018，54（6）：888-902.
　　［36］贾晓明，周h.即时文字网络心理咨询中的咨询关系［J］.中国心理卫生杂志，2011，25（12）：884-889.
　　［37］陈梦曦，田澎，李相勇，等.考虑等级的民航个性化航空路线推荐模型［J］.工业工程与管理，2019，24（3）：139-146，156.
　　［38］Melchiorre A B，Rekabsaz N，Parada-Cabaleiro E，et al.Investigating Gender Fairness of Recommendation Algorithms in the Music Domain［J］.Information Processing & Management，2021，58（5）：102666.
　　（责任编辑：王维）

nlc202301101728

转载注明来源:https://www.xzbu.com/4/view-15443887.htm

查看更多→

融合类目偏好和数据场聚类的协同过滤推荐算法研究

相关文章