您好, 访客   登录/注册

基于文本挖掘的在线众筹项目推荐方法研究

来源:用户上传      作者:

  [摘 要]随着在线众筹的快速发展,用户从海量的众筹项目中搜寻感兴趣的项目信息越发困难。本文提出了基于文本挖掘的在线众筹项目推荐方法:首先,利用LDA主题模型挖掘众筹项目的隐主题;其次,基于隐主题构建众筹项目间的关联网络;最后,对相关众筹项目进行推荐。基于京东众筹数据的实验表明,基于文本挖掘的在线众筹项目推荐方法能够对众筹项目进行有效推荐。
  [关键词]在线众筹;文本挖掘;项目推荐;关联网络
  doi:10.3969/j.issn.1673 - 0194.2020.10.069
  [中图分类号]F724.6;F832.4 [文献标识码]A [文章编号]1673-0194(2020)10-0-02
  0     引 言
  在线众筹平台的快速发展虽然为企业筹措资金、推广产品提供了有效渠道,但是,随着平台上众筹项目越来越多,消费者从海量的众筹项目中搜寻感兴趣的项目信息越发困难。因此,如何帮助用户从众多的众筹项目中找到感兴趣的项目、如何帮助众筹项目准确定位目标用户是项目众筹成功的关键,也是众筹平台关心的重要问题。研究者对在线众筹中的用户行为机制、众筹项目成功率预测方法和个性化推荐等问题进行了广泛研究,但是众筹项目的文本描述等信息在现有研究中应用不足。对众筹项目的描述文本进行深入分析,构建众筹项目的个性化推荐方法,可以有效利用项目之间的内在关联,提高众筹项目的推荐精度。本文从京东众筹平台下载了7 334个众筹项目的描述文本,在此基础上进行实验验证。本文实验表明,所提方法可以对项目的关联关系进行有效分析,有效提高众筹项目的推荐准确性。
  1     众筹项目推荐模型构建
  1.1   基于LDA的众筹项目隐主题建模
  假设是众筹项目描述的语料集合,是项目m对应的描述词集合,其中M是众筹项目的数量。设V是预先给定的隐主题数量,V是语料中不重复的词的数量,Nm是项目m的描述中词的数量。用Wm,n来标记项目m的描述中的第n个词,用Zm,n标记该词所属的主题。为了估计文档-主题分布和主题-词分布,需要计算联合分布。
  其中,语料中每个词的生成概率和可以分别计算如下。
  其中,Γ(x)是伽马函数。因此,我们可以得到联合分布的计算公式如下。
  基于联合分布和Dirichlet-Multinomial共轭分布,我们可以得到θ和Φ的计算公式如下。
  其中,表示项目m的描述文档中所有词的主题分布。基于Dirichlet期望计算方法,可以得到众筹项目描述的主题-词分布和文档-主题分布如下。
  基于φk,v,可以得到所有众筹项目描述的主题分布,对深入了解众筹项目的内容和类型起到决策支持作用。θm,k有助于分析每个众筹项目所属的众筹主题,对分析项目之间的关联关系、准确推荐众筹项目具有决策支持作用。
  1.2   基于隐主题分布的众筹项目关联分析与推荐
  假设众筹项目的关系网络用G=(D,E,W)表示,其中D表示众筹项目,E表示边的集合,即项目之间的关联关系集合,W表示項目两两之间的关联程度。为了构造项目关系网络G,本文假设两个众筹项目i和j属于同一主题,则他们之间存在一条连边,同时属于的主题数越多,连边的权重Wij则越大,即Wij等于项目i和j同时属于的主题数量。由于主题模型中每个项目几乎在所有主题上都有概率分布,而大量主题上的概率值极小。因此,针对每个项目,本文只取概率值最大的5个主题,并以此为基础构建众筹项目的关系网络G。
  基于众筹项目的关系网络G,本文构建的众筹项目推荐策略如下。①针对新用户,本文利用结点介数(node betweenness)对众筹项目在关联网络中的重要性和流行性进行排序,推荐项目集合中最重要和最流行的项目。项目i的介数定义为:。其中,njk表示从项目j到项目k的最短路径数,而nijk表示njk条最短路径中经过项目i的路径数。②如果用户搜索或点击了某一众筹项目i,本文推荐与该项目相连的T个项目。即从与项目i相连的所有项目j中,找出Wij最大的前T个项目,推荐给该用户。当与项目i直接相连的项目数量少于T时,本文采取k核方法对相关项目进行选择。
  2     实验验证
  2.1   众筹项目主题发现
  在本文实验中,文档主题数量设置为50,利用基于LDA的众筹主题建模,可以得到众筹项目的隐含特征。例如,众筹项目与眼睛保护相关,特征词包括“眼镜”“眼睛”“蓝光”“时尚”等;与室内空气健康有关,特征词包括“空气”“净化”“加湿”“霾”等;与智能硬件相关,特征词包括“产品”“智能”“科技”“市场”等。
  2.2   众筹项目关联分析
  表1给出了“你家里能有晴空万里么”和“穿在身上的低音炮SubPac”两个目标众筹项目的关联项目。可以看出,“你家里能有晴空万里么”产品的关联项目均与空气净化、室内健康等主题相关联;“穿在身上的低音炮SubPac”产品的关联项目均与智能家居、新奇设计等主题相关。表1表明,所提方法可以对项目的关联关系进行有效度量。
  2.3   推荐精度对比试验
  本文邀请50名志愿者参与推荐精度对比试验。从所获取的京东众筹项目中随机选择特定项目作为目标项目,利用不同方法产生推荐列表,将推荐列表提交给志愿者,让志愿者判断每个推荐项目与目标项目是否相关。将相关项目的数量与推荐产品数量的比值作为推荐准确度。本文选取的对比推荐方法为基于类目的推荐方法。从表2中可以看出,与基于类目的推荐策略相比,本文方法可以得到准确的众筹项目推荐结果。基于类目的推荐方法虽然可以从同一类目中选择产品推荐给用户,由于同一类目中的产品数量众多,推荐难以得到准确效果。本文所提方法可以充分利用众筹项目的隐主题信息和关联关系,取得更高的推荐精度。
  3     结 语
  本文利用众筹项目的描述文本挖掘项目特征的隐主题,基于隐主题分布构建众筹项目之间的关联网络,并提出了个性化项目推荐方法。基于京东众筹项目数据的实验表明,所提方法可以对众筹项目主题和关联关系进行有效分析,得到准确的个性化推荐结果。在后续研究中,本文将在LDA主题模型的基础上,研究基于众筹主题和项目标签的二部图模型,进而构建更加有效的众筹项目推荐方法。
  主要参考文献
  [1]毕功兵,杨云绅,梁樑.策略延迟下众筹项目的定价和激励决策[J].中国管理科学,2019(11):1-10.
  [2]李清香,王念新,吕爽,等.发起人与出资者的在线交互对众筹项目成功的影响[J].管理工程学报,2020(2):1-9.
转载注明来源:https://www.xzbu.com/3/view-15229443.htm