您好, 访客   登录/注册

文本挖掘技术支持下的用户画像设计研究

来源:用户上传      作者:

  摘 要:伴随着社会经济持续不断向前进步,互联网信息技术得到快速发展。与此同时电子商务网站也取得了巨大发展空间,关于电子商务相关行业竞争也更加越来越激烈,准确把控企业相关竞争优势,有效保证企业持续、稳定发展是很多电子商务相关企业的共同发展方向。很多互联网电子相关企业为了更好整合、优化网站运营相关活动,都应该根据实际情况。投入更多资源对网站用户进行系统化分析,使用文本挖掘相关技术创建自己相关用户画像,有很多经济实力比较强的商务网站或多或少都积累了大量用户消费信息资源。对此,我们文本挖掘技术支持下的用户画像设计研究这个作为出发点,对其进行探讨与论述。
  关键词:文本挖掘 用户画像 用户研究
  随着互联网相关电子商务经济活动持续快速发展,用户画像对于电子商务相关企业来说,其价值越来越大。电子商务相关网站涉及领域比较广泛,不单指追求、关注技术,还应该全面的分析用户需要。然而,对用户画像相关研究还是处于初级阶段,只要创建、设计出完善的用户模型,有关互联网商务网站才能更好的认识、了解客户的真实需要。用户画像需要一定的挖掘技术做保障,对此,我们就详细的讨论文本挖掘技术与用户画像相关特征。
  一、文本挖掘技术概况
  文本挖掘技术一般情况下指从相关文本信息数据中来获取可以理解、可用知识,与此同时更好的把这些知识组织起来,以便作为未来发展、参考的重要依据。它是一种非结构化信息数据,它的长度不受任何限制,没有固定的形状。另外,它的结构有比较纷繁复杂,无法从数据库来充分表现出来。通常情况下,文本挖掘都是从海量的文本信息数据中,提取有规律性的知识相关过程。它是有信息数据挖掘逐步发展起来,两者既有差异也有差距,例如,信息数据挖掘使用处理的对象大多数都是關系型比较强的信息数据库。然而,文本挖掘主要使用处理对象主要是,没有任务固定模式相关数据。在文本挖局处理过程中,其品质良好对信息相关模式的有效识别有重要影响,因此,文本预处理整个程序是非常关键环节。通常情况下,文本挖掘整个操作流程保护以下几个步骤数据文本获取、信息数据过滤、文本相关特征挑选、创建模型、模型评测。[1]
  二、关于文本获取分析
  文本挖掘所要解决的对象大多数都是使用、文本形式进行存储相关信息内容。从中找到潜在性的知识和规律,与结构化相关信息数据存在很大差异。与结构化相关信息数据可以从相关有联系的数据库里边提取出来。文本型相关数据提起的方式有很多,例如,关于Web网页数据需要对其展开有效处理,在去掉html格式标签之后,进行逐一分句、分词,将他们变成结构化形式的文本数据,除此之外,还有一些文本数据经过系统处理,存储在数据中。[2]
  三、关于文本挖掘数据清洗分析
  信息数据清洗,是文本挖局中比较重要的一个关键环节。首次获取的相关数据文件并不是关系型数据,第一步要做的就是把该数据相关文件直接转换成计算机可以识别的相关数据,同时还能够表现相关文本内容中的结构化主要形式。文本型相关数据结构都是有限的,文本型相关数据,在计算机日常处理过程中存在很大困难,因此,文本相关内容就无法通过数据相关挖掘技术进行解决和处理,必须先对文本进行及时处理。一般情况下,很多文本内容里都拥有海量文本相关信息,在去除噪音后,需要保留文档相关特征。同时使用特征相关模型来作为文本表达形式,把文本由从非结构化相关数据有效转化成结构化数据。[3]
  四、关于文本特征相关选择分析
  文本特征通常情况下,是指与文本内容联系比较紧密的元数据,主要分为两种:语义性相关特征和描述性相关特征,文本型相关数据都具有很大维度,这些问题对文本挖掘相互消耗掉海量网络资源和大量时间。尤其,在文本进行处理阶段时包含:日常使用比较多的词表删除、过滤,不管是用词表来删减那些使用率比较的低的常用词语。并且依据词语相关片段在文本与结构中位置不同,来进行不同权重。通过文本模型来表示所得到的数据规模都非常巨大,一般情况下,都带有很高维数,尤其采用向量相关空间模型时,文本向量将会达到百万级别的维数甚至会进一步扩大。假设对这种上百万数据文本进行解决与处理,必定会耗费非常多的时间,因此,一定要选择突出的特征词,把文本相关特征集压缩。以此来降低文本的维数。
  五、关于文本挖掘分析
  文本相关数据通过特征化进行处理后,之后就要进入处于挖掘阶段。文本挖掘是整个挖掘程序中比较困难,同时也是非常关键的环节。它主要包含:文本聚类、文本关联、文本分类、数据信息检索、数据链接分析等。文本型相关数据大多数比较复杂,维度相关也比较高。因此,要用传统相关文本进行挖掘与算法,来对知识进行挖掘。这种情况就扥不到好的效果。因此,在对文本挖掘时要根据语料相关特点来改进,或者使用比较创新型的算法来挖掘。通常情况下,有两个选择性比较强的因素:第一种是依据不同类型文本数据各自不同具有的特点进行模拟算法。文本挖掘相关过程核心主要是文本挖掘算法,文本挖掘常用算法是主要研究方向,使用正确的文本挖掘算法能够有效提升挖掘效率。想要获取有价值的挖掘效果,一定要认真了解各种挖掘算法,依据所要训练的文本特征并且有效结合适当、合理算法来展开挖掘。
  六、关于模式提取
  通过对用户的评估相关指标来对文本挖掘所获得知识展开评价,依据评价相关结果来选择是否使用。文本挖掘所获得结果是各种应用知识的模式,使用原先已经定义好的评估指标来对已经获取的模式来评价。如果所评价的相关结果符合一定要求,就应该保存相关知识模式,为用户使用做好充足准备。
  1.关于用户画像相关概述
  用户画像是一种有效勾画需求客户、准确联系相关用户诉求和创造方向的工具。近些年随着互联网技术的快速发展,用户画像已经被得到广泛使用。在日常操作中,通常会用比较浅显并且与生活联系密切的语言,把相关用户的行为和特点进行有效结合起来。一般情况下,用户画像相关产品在没有进入市场之前,定性化相关用户画像在很大程度上能够节省更多时间与资源,通过使用桌面研究定性化相关方法来取得用户画像。它是一种把定性和定量进行有效结合的载体,对定量化初期进行调研能够取得对一个用户群比较精准的理解,在以后用户角色创建中,能够很好的对用户顺序进行排列,把有关核心用户给重点突出来。定性化相关方法虽然不能有效统计不同单位特征,但是,能够有效对相关资料进行分类、比较。进一步对某类现象性质做出一定概况,在创建角色中使用定型化相关方式,能够有效获取海量用户的生活状况、相关使用情境、等重要资料,最终生成活生生用户类型。针对后台相关信息数据挖掘,可以将定型化与定量化有效结合在一起来建立用户画像。可以根据实际情况从后台相关信息数据中提取,通过对这些数据进行分析,能够有效了解用户相关上网环境的重要指标。在对用户使用相关场景熟悉了解后,可以抽取一部分用户ID样本,从中获得用户身份、性别、购物习惯、用户个人爱好,用户的日常交易习惯的重要因素,经过清洗后,可以使用聚类分析相关工具以此来确定区分最明显的相关因素。在用户画像还有一个非常重要的细化标准:颗粒度。举一个通俗的例子,假设“用户画像”细化到具体的生活场景里。然而,这种情况几乎不可能发生的,与此同时,假设用户相关画像颗粒度比较大,对于产品相关设计意义也就会变小,因此,从整体上有效把握画像就显的非常有必要。[4]
  2.关于用户画像设计
  用户画像是对相关用户进行深入了解,把用户真实属性有效转化成有规则、方便计算机进行存储的信息数据格式,一般情况下,是依照某种特殊模型,来规范客户相关信息。创建用户相关画像模型,主要目的是对客户进行有效数据分析,更深层次挖掘用户相关需求信息。最终达到为用户提供比较适合的物品或者其他相关服务功能。
  结语
  伴随着互联网信息技术快速发展,很多电子商务网站也获得更大发展空间,在进行网络相关交易活动中,对有关客户进行用户画像设置,是能够更加充分了解客户信息与需求的重要工具。伴随着可和规模的持续不断扩大,对大量客户进行系统化管理将会变得更加复杂。怎么在海量的信息数据中通过使用文本挖掘技术来获取相关客户信息,用户画像是最佳合适选择路径。
  参考文献
  [1]汪强兵,章成志.融合内容与用户手势行为的用户画像构建系统设计与实现[J].数据分析与知识发现,2017,1(2):80-86.
  [2]李雅坤.基于用户画像挖掘技术的网络借贷平台研究综述[J].知识经济,2017(16):70-70.
  [3]王宪朋.基于视频大数据的用户画像构建[J].电视技术,2017,41(6):20-23.
  [4]李恒超,林鸿飞,杨亮,等.一种用于构建用户画像的二级融合算法框架[J].计算机科学,2018,45(1):157-161.
转载注明来源:https://www.xzbu.com/1/view-14751309.htm