基于协同训练的低资源电商领域上下位实体关系获取
来源:用户上传
作者:阮义彰
摘要:上下位关系获取对于下游电商至关重要。由于产品更新频繁,大规模手动获取关系是不切实际的。文章主要研究从低资源电商文本中自动获取下位关系。与开放领域不同,电商领域中标记的上下位词对是有限的,且电商领域产品描述中的句式特殊,使传统的基于序列的模型无效。为此,文章提出了基于Transformer的协同训练方法,通过理解产品描述探索潜在的高置信度词模式。实验结果与最先进的方法相比,F1和召回率显著提高。
关键词:电商领域;上下位关系;对抗训练;半监督学习;负样本提取
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2022)15-0079-03
1 引言
产品与类别上下位关系的自动获取是电商应用中的一项关键任务。上下位词显示了通用类别(即上位词)和它的特定实例(即下位词)之间的关系,例如电器和冰箱。获取上下位关系有助于构建产品类别系统,本文主要研究如何从产品描述中自动获取上下位关系。
2 相关背景
现有方法通常利用文本上下文来提取上下位关系,包括基于模式的方法[1-6]和表示学习方法[7-8]。然而,在电商领域,这两种方法往往是无效的。首先,产品描述通常由形容词和各种产品属性组成,而不是实例、动词和类别或概念等固化模式。表1中商品描述“2019新款冬季男士衣物韩版修身保暖厚羽绒服外套”完全没有动词,缺乏清晰的模式使得依赖基于模式的方法无效。其次,可以看到表1中的描述没有遵循良好的自然语言结构,它们是一组描述产品属性和销售特征的短语。因此,基于句子结构特征(如依赖树和词典句法路径)的方法,通常在电商领域无效。再次,表示学习方法依赖于大量训练样本,此外,高质量负样本也是必不可少的。传统的负采样方法通常是构造低质量的样本,对训练过程贡献不大。例如,随机抽样的一对(外套、水果)很容易区分,它们甚至不会一起出现在一个产品描述中。如图1所示,当随机采样的负对数为258,462时,现实世界的电商文本语料库(即产品描述)中仅出现200对。因此随机负样本会导致很容易识别出很少出现在产品描述中的负样本。
为了应对上述挑战,提出以下两点:1)利用Transformer网络理解中间词语义,从而获取嵌入空间中的上下位关系;2)通过设计协同训练框架迭代丰富训练样本,并使用开发的基于模式的负样本进行挖掘。本文将电商下位关系获取建模为二分类问题,并提出一种半监督分类器(Semi-supervised Transformer net,ST)。其输入是一个词对和包含该词对的产品描述,其输出是1(存在上下位关系)或0(不存在上下位关系)。ST从训练样本中学习显式“路径”(即中间词序列)知识和从训练样本中学习隐性的“嵌入”(即空间变换)知识。一方面,ST派生的“路径”知识用于获得更多高质量的训练样例(尤其是反例);另一方面,ST学习到的“嵌入”知识用于区分语义并准确产生分类结果。最后,本文从真实数据集中获得了实验结果。
3 半监督Transformer网络
3.1 概述
本文将具有高预测置信度的样本标记为监督数据,并以迭代方式(即使用协同训练过程)训练分类器。首先生成负样本(即基于模式的负样本和随机样本)以及正样本。然后根据预训练的词嵌入将这些样本转换为向量表示,再分别使用这两个样本集训练两个Transformer分类器。每次迭代中,从一个分类器中选择具有高置信度的预测结果作为监督,输入另一个分类器进行进一步训练。算法1给出了协同训练过程。
以下为两个内部分类器的最小化均方误差函数:[L=12Xx∈X(yx-f(x))2]。其中[yx]表示[x]的真实标签,[x]是训练样本集。
算法1 联合训练过程
[输入:文本语料库T,预训练单词嵌入W,最大迭代次数I
1. 对T进行数据预处理,提取两类训练样本[Xp]和[Xd],前者为基于模式的样本,后者为随机样本;
2. 使用单词嵌入W将每个训练样本转换为向量表示;
3. [X'p←?] ,[X'd←?], 将 [X'p] 和 [X'd] 表示新标注的训练样本集合;
4. for [i=1,2,…,I] do;
5. 用基于词模式的方法训练集合[fp]和[fd],将样本[Xp∪X'p ]和[Xd∪X'd]循环迭代;
6. 对未标记样本进行预测,选择具有高置信度的样本作为新的训练样本来扩展 [X'p] 和 [X'd];
7. 如果 [X'p] 和 [X'd] 都在本次迭代中没有收到新的标签样品,那么停止。 ]
3.2 基于Tansformer的分类器
1)预处理
对于产品描述片段,首先删除了“\%”“*”和“\&”等特殊字符;然后使用'.''!''?'';'作为分隔符将文本片段分割成一组句子S;然后每个标记都被视为实体的候选标志,并尝试将标记链接到实体。一个句子中两个链接之间的标记列表被视为对应实体之间的单词模式。本文用[e1,p1,p2,p3…pn-1,pn,e2]来表示链接标记和之间的标记,其中[e1]是^实体,[e2]是后方实体,[p1,p2,p3…pn-1,pn]表示词模式。
2)嵌入查找
在模型中用向量表示每个标记,为了查找向量表示的单词模式和实体,使用了带有负采样的模型Skip-gram[8]从大型文本语料库(例如百度百科)中预训练单词嵌入[9]。对于词嵌入,本文将标记[p]转换为用向量表示的[p], [p=(p1,p2,…,pn)]用[n]表示[p=p1p2p3p4] ,这里[]表示串联,[p]是单词模式[p]的最终向量表示。对于一个简单的训练样本[s=(e1,p,e2)],用向量表示为: [s=e1pe2](这里[]表示串联操作)。
nlc202207151052
转载注明来源:https://www.xzbu.com/8/view-15435982.htm