基于隐层相关联算子的知识蒸馏方法
来源:用户上传
作者:吴豪杰 王妍洁 蔡文炳 王飞 刘洋 蒲鹏 林绍辉
摘要:近年恚卷积神经网络已经在人工智能领域取得了巨大成功,例如,区块链、语音识别、图像理解等.然而,随着模型准确率的不断提高,与之伴随的是网络模型计算量与参数量的大幅增长,从而带来了诸如处理速度小,内存占用大,在移动端设备上难以部署等一系列问题.知识蒸馏作为一种主流的模型压缩方法,将教师网络的知识迁移到学生网络中,从而在不增加参数量的情况下优化学生网络的表现.如何挖掘具有代表性的知识表征进行蒸馏成为了知识蒸馏领域研究的核心问题.本文提出了一种新的基于模型隐含层相关联算子的知识蒸馏方法,借助数据增强方法准确捕获了图像特征在网络中间层每个阶段的学习变化过程,利用相关联算子对该学习过程进行建模,从而在教师网络中提取出一种新的表征信息用于指导学生网络训练.实验结果表明,本文所提出的方法在 CIFAR-10、CIFAR-100两种数据集上,相较于目前最优方法均取得了更好的性能.
关键词:卷积神经网络; 模型压缩; 知识蒸馏; 知识表征; 相关联算子
中图分类号: TP183 文献标志码: A DOI:10.3969/j.issn.1000-5641.2022.05.010
Correlation operation based on intermediate layers for knowledge method
WU Haojie1, WANG Yanjie2, CAI Wenbing2, WANG Fei3 ,LIU Yang4, PU Peng5, LIN Shaohui4
(1. The 27th Research Institute of China Electronics Technology Group Corporation, Zhengzhou 450047,China;2. Beijing Institute of Tracking and Telecommunication Technology, Beijing 100094, China;3. Unit63726 of the Chinese People’s Liberation Army, Yinchuan 750004, China;4. School of Computer Scienceand Technology, East China Normal University, Shanghai 200062, China;5. School of Data Science andEngineering, East China Normal University, Shanghai 200062, China)
Abstract: Convolutional neural networks have made remarkable achievements in artificial intelligence, such as blockchain, speech recognition, and image understanding. However, improvement in model performance is accompanied by a substantial increase in the computational and parameter overhead, leading to a series of problems, such as a slow inference speed, large memory consumption, and difficulty of deployment on mobile devices. Knowledge distillation serves as a typical model compression method, and can transfer knowledge from the teacher network to the student network to improve the latter ’s performance without any increase in the number of parameters. A method for extracting representative knowledge for distillation has become the core issue in this field. In this paper, we present a new knowledge distillation method based on intermediate correlation operation, which with the help of data augmentation captures the learning andtransformation process of image features during each middle layer stage of the network. We model this feature transform procedure using a correlation operation to extract a new representation from the teacher network to guide the training of the student network. The experimental results demonstrate that our method achieves the best performance on both the CIFAR-10 and CIFAR-100 datasets, in comparison to previous state-of-the-art methods.
nlc202210091113
Keywords: convolutional neural networks; model compression; knowledge distillation; knowledge representation; correlation operation
0 引言
近年来,随着深度学习与图形处理器(Graphics Processing Unit, GPU)硬件的不断发展,卷积神经网络(Convolutional Neural Networks, CNNs)已经在诸多人工智能领域取得了显著的成效,如区块链[1]、图像分类[2]、目标检测[3]等.得益于其大规模的数据量与强大的特征提取能力,CNNs 在某些任务上甚至已经超过了人类识别的准确率[4].同时,GPU 硬件的高速发展大大提高了网络模型的计算效率.
随着网络模型性能的提升,其计算开销与存储量也在不断增加.如AlexNet[2]模型,其具有0.61亿网络参数和7.29亿次浮点计算量(Floating-point Operations per Second, FLOPs), 占用约240 MB 的存储空间.对于被广为使用的152层残差网络(Residual Network-152, ResNet-152)[4]具有0.57亿网络参数和113亿次浮点计算量,占用约230 MB 的存储空间.庞大的网络参数意味着更大的内存占用,而巨大的浮点计算量意味着高昂的训练代价与较小的推理速度.这使得如此高存储、高功耗模型无法直接在资源有限的应用场景下应用,如手机、无人机、机器人等边缘嵌入式设备.因此,在保持模型识别准确率的前提下,对于网络模型进行压缩与加速,以适应边缘设备的实际要求,成为了当前计算机视觉领域火热的研究课题.与此同时,也有研究表明[5],在巨大的网络参数内部,并不是所有的结构和参数对于网络的识别预测能力都起到决定性作用,这使得模型压缩技术,即移除冗余性参数和计算量成为了一种有效的解决方案.
当前主流的模型压缩方法可以分为5种,分别为参数剪枝、参数量化、低秩分解、轻量型网络结构设计和知识蒸馏(Knowledge Distillation, KD).知识蒸馏方法可以直接设定压缩后模型的结构、计算量和参数量,以及不引入额外的计算算子,这使得知识蒸馏技术得到了广泛关注.因此,本文也着重研究基于知识蒸馏的模型压缩方法.知识蒸馏方法将较大和较小的网络分别定义为教师网络和学生W络(也称之为压缩后网络).其主要思想在于,通过最小化该两个网络输出分布差异,来实现网络间的知识迁移,使得学生网络尽可能地获得教师网络的知识,提高学生网络的准确率.从而,学生网络可以在维持其参数量不变的情况下提升性能,尽可能逼近甚至有可能超越教师网络的性能.传统的知识蒸馏方法是将网络的输出分布作为知识在网络间进行迁移,随着该研究领域的进一步发展,研究发现[6],利用其他一些具有代表性的表征信息或知识在网络间进行迁移或蒸馏,可以获得比传统知识蒸馏方法更好的效果.知识蒸馏方法大致又可以分为:①基于网络输出层的知识蒸馏方法;②基于网络中间层的知识蒸馏方法;③基于样本关系之间的知识蒸馏方法.
本文提出了一种新的基于隐层相关联算子的知识蒸馏(Correlation Operation Based Knowledge Distillation, CorrKD)方法,通过计算教师网络与学生网络各自隐含层之间的关联性,挖掘出更有效的知识表征,从而将教师的知识表征迁移到学生的知识表征中,提高学生网络的判别性.该方法的核心是利用了被广泛应用于光流[7-8]、图像匹配[9]等领域内的相关联算子,用于提取网络中间层的知识表征.相关联算子的特性在于,可以很好地表征两个特征之间的匹配程度,并反映其特征的变化过程.首先,本文对于网络中每个阶段的输入特征与输出特征,利用相关联算子进行建模与知识提取,有效获得了图像特征的学习变化信息.然后,将教师网络每阶段通过相关联算子提取出的表征信息作为知识,迁移到学生网络中,提升学生网络判别性和学习有效性.
在 CIFAR-10和 CIFAR-100分类数据集评测结果中,相比其他中间层知识蒸馏方法,本文所提出的方法取得了较好的效果.同时,本文所提出的方法在减小网络的计算量和参数量的同时,能够有效逼近原始网络的准确率.
1 相关工作
1.1 主流模型压缩方法
除本文将详细介绍的知识蒸馏方法外,其他主流的模型压缩方法有:①参数剪枝[10-11],该方法的主要思想在于,通过对已训练好的深度神经网络模型移除冗余、信息量较少的权值,减少网络模型的参数,进而增大模型的计算速度和减小模型所占用的存储空间,实现模型压缩;②参数量化[12-14],该方法的主要思想是一种将多个参数实现共享的直接表示形式,其核心思想在于,利用较低的位来代替原始32位的浮点型参数,从而缩减网络存储和浮点计算次数;③低秩分解[15-16],该方法的核心思想在于,利用矩阵或张量的分解技术对网络模型中的原始卷积核进行分解.一般来说,卷积计算是网络中复杂度最高且最为普遍的计算操作,通过对张量进行分解从而减小模型内部冗余性,实现模型压缩;④轻量型网络结构设计,轻量型网络结构设计的方法主要是改变了卷积神经网络的结构特征,提出了一些新颖的轻量计算模块或操作,从而精简网络结构,增大处理速度.如基于深度可分离卷积的MobileNet[17],利用神经网络结构搜索得到的EfficientNet[18]等.
1.2 知识蒸馏方法
知识蒸馏方法[19]指利用教师网络中的知识表征为学生网络提供指导,以提高学生网络的性能.传统的知识蒸馏方法通过最小化教师网络和学生网络类别输出分布的 KL (Kullback-Leibler)散度来实现蒸馏.除了在输出层外,网络中间层的特征信息也被应用到知识蒸馏方法中.
nlc202210091113
中间层特征知识的构造. Romero 等[20]提出的FitNet是较早利用中间特征信息进行知识蒸馏的方法,其目标是使经过奇异值分解的学生网络尽可能学习教师网络中间层的特征信息.随后,Zagoruyko等[21]提出在网络中间层引入注意力机制,将每层的注意力特征作为可学习的知识迁移到学生网络中.近年来,随着自注意力模型被广泛运用到变形器[22]中,进而获得人工智能领域各项任务的性能突破,相关知识蒸馏方法[23-24]通过对齐教师与学生的自注意力矩阵实现知识迁移. Yim等[25]提出了 FSP (Flow of Solution Procedure)方法,将网络中每层之间的数据流动关系作为知识,由教师网络迁移到学生网络中.除此之外,样本之间的关系特征也被发现可以凝炼出更好的知识表示.例如,Park 等[26]提出 RKD (Relational Knowledge Distillation)知识蒸馏框架,对于不同样本网络输出的结构关系进行建模,将关系特征进行知识迁移.此外,Liu 等[27]通过将教师网络特征空间映射到由顶点与边构成的图表示空间中,然后对齐教师与学生网络的顶点以及它们边的对应信息实现知识蒸馏. Tung 等[28]利用网络中间层每个样本之间的相似度信息进行知识迁移. Kim 等[29]提出在教师网络的最后一层特征中提取便于学生网络理解的转移因子,将知识传递给学生网络.对于教师网络和学生网络中间层特征不一致的情况,Heo等[30]提出了使用1×1卷积进行维度对齐,并构建教师网络激活边界作为中间层知识迁移到学生网络中.不仅如此,特征图的雅可比梯度信息[31]也可以作为中间层特征知识表示.近年来,出现了一些在输出层特征进行对比学习[32]或基于自监督[33]的知识蒸馏方法,分别用于挖掘教师网络和学生网络对于不同样本之间的关系,从而将教师网络的关系知识迁移到学生网络中.不同于以上知识蒸馏方法,本文所提出的基于相关联系数的知识蒸馏方法作用于每阶段中间层特征信息,从而获得每阶段中间特征变化信息,能更好构建知识表征,提高学生网络的学习性能.
使用优化训练策略进行中间层知识蒸馏.近年来,大量生成对抗思想被应用到中间层知识蒸馏中,提高知识蒸馏性能.例如,Su等[34]引入了任务驱动的注意力机制,将教师网络和学生网络各自高层信息嵌入低层中,实现中间层信息的迁移,同时加入判别器用于增强学生网络最后输出特征的鲁棒性.类似地,Shen 等[35]提出了基于对抗学习的多教师网络集成蒸馏框架,利用自适应池化操作对齐一个学生与多个教师集成网络的中间层输出维度,同时利用生成对抗策略对池化的中间层特征进行对抗训练,提高了知识蒸馏性能. Chung 等[36]提出了基于中间层特征图的在线对抗蒸馏框架,设计教师网络和学生网络的判别器,用于共同学习和对齐这两个网络在训练过程中的特征图分布的变化情况. Jin等[37]提出了一种路线限制优化策略,预先设定好教师网络训练的中间模型状态,并通过逐步对齐学生网络与其中间层特征分布,使得学生网络获得更好的局部最优解.
2 方法
2.1 知识蒸馏方法
知识蒸馏方法[19]认为在数据的网络输出中,每一个数据的预测概率结果都可以看作是一个分布,不仅关注于置信度最高的类别所对应的结果,而且对于预测错误结果的置信度概率也具备一定的网络知识.在传统分类任务所使用的交叉熵损失函数中,只会关注对应于正确类别的概率值,对于其他类别所对应的概率是直接丢弃,没有利用的,Hinton 等[19]将其称作是暗知识.在知识蒸馏的过程中,学生网络所学习到的,不仅是预测正确的类别所对应的概率值结果,而且包括教师网络所学习到的暗知识.
在具体的实现过程中,将教师网络记为ft,学生网络记为fs,将输入记作 x,教师网络和学生网络的模型输出结果分别记为zt和 zs,且zt = ft (x), zs = fs (x), zt,zs ∈ Rd,d 为总类别数.对于网络得到的输出分布,利用Softmax对此进行归一化,得到概率分布.同时,还引入了温度分布参数τ用来平滑该层的输出分布,以强化网络输出的概率分布中所学习到的知识,通过温度平滑后的网络输出被称为软目标.对此,以教师网络为例,对于第i个输入样本xi,其软目标用公式表示为
式(1)中: zt(j)= ftj (xi )表示教师网络对样本xi 的第j 维输出结果,j 为类别维度. pt(j)(xi,τ)通过合并所有类别可以形成pt (xi,τ),同理也可以获得学生网络输出的软目标ps (xi,τ).对于分别得到的教师网络和学生网络输出的软目标,利用 KL 散度衡量两者分布之间的差异,表示为
式(2)中: n 表示样本总个数,KL (ps || pt )定x为学生网络输出分布与教师网络输出分布之间差异,具体公式表示为
所以,在学生网络训练的过程中,教师网络的软目标与真实标签共同起到监督作用.传统知识蒸馏损失函数为
式(3)中: LCE 为传统的学生网络输出与真实标签的交叉熵损失函数;α为平衡因子,用于权衡LCE 和 LKL 的重要性比例.
2.2 相关联算子
相关联算子[7]被广泛应用到光流、图像匹配、目标跟踪领域中,用于描述两张图像或两个特征之间的匹配程度(图1).对于三维的图像特征张量 A 和 B,其尺寸为 C × H × W,C 、H 和W 分别表示其特征图的通道数、高度与宽度.特征张量 A 中给定位置(i, j)的特征为PA (i, j)∈ RC,需要计算其与特征张量 B 中所对应位置图像块的特征相似度,这里所对应的图像块以(i, j)为中心,大小为 k × k,将该区域内的像素位置记为(i\,j\),所对应的特征为PB (i\,j\),与PA (i, j)类似,该像素特征均为C 维向量.因此,可以通过计算内积的方式得到对应像素特征之间的相似度,由此得到相关联算子φ,其计算公式为
nlc202210091113
式(4)中:⊙表示向量内积,为归一化系数.由此,可以得到特征张量 A 和 B 之间的相关联算子,可以将其记为φ(A, B)∈ Rk2×H×W .所以,对于给定的两个三维图像特征张量,可以通过计算像素特征与图像块中每个像素之间的相似度,得到尺寸为 k2× H × W 的相关联算子,用于反映特征之间的相似程度或匹配程度.
2.3 基于隐层相关联算子的知识蒸馏方法
借助相关联算子,可以计算网络模型隐层中尺度相同的两个特征张量之间的特征,用以反映特征的匹配相似程度,并利用其进行知识迁移(图2).图2中的 KL 损失LKL 和LCor损失分别被定义于式(2)和式(5)中,xi 和i分别为第i个输入样本和该样本增强变化后的表示.
通常,网络模型会根据其特征图空间尺寸大小的不同而划分成不同的阶段,换句话说,在相同的网络阶段内,其中间特征的维度尺寸都是相同的.因此,可以将每个阶段的第一层特征与最后一层输出特征作为相关联算子中的特征张量 A 和 B .该相关联算子的计算可以很好地反映出模型每个阶段对于数据的处理变化过程,成为非常有效的知识表征.因此,可以将相关联算子计算结果用作知识蒸馏的表征信息,由教师网络对学生网络进行指导.假设网络有 N 个阶段,教师网络和学生网络的第i个阶段的第一层输入特征分别记为Fi(t)1和 Fis1,最后一层的输出特征分别记为Fi(t)2和 Fis2,其知识迁移的过程可以利用LCor损失进行约束,对此,基于隐层相关联算子的知识迁移损失函数可以表示为
式(5)中:λi,i =1, 2, ・・・,N 表示第i阶段的权重因子,||・||2为 L2范数.为了更好形成多样的知识表征,在本文中引入数据增强和变化[4](如旋转、翻转、颜色变化等), 可以更有效地将隐含层的相关联算子的知识迁移到学生网络中, 从而产生更好的效果.通过结合了教师网络中传统知识蒸馏损失函数(式(3))和隐层相关联算子的知识迁移损失函数(式(5)), 可以得到该知识蒸馏方法完整的训练损失函数公式为
式(6)中:β为超参数,用于控制3个损失(LCE、LKL 和LCor)的平衡性.在训练过程中,本文直接使用梯度下降法优化式(6), 选择学生网络进行测试,并计算出学生网络的准确率作为该方法的评测效果.
3 实验
3.1 实验数据
本文在两个经典的分类公开数据集 CIFAR-10与 CIFAR-100上进行了实验,均包含6万张长宽尺寸均为32的图像,其中5万张用于训练,剩下的1万张用于测试,他们的分类类别数分别为10和100.
3.2 实验设置
本文所提出的方法使用Pytorch在单张 GPU 上进行实现,对于两种数据集均采用随机梯度下降方法进行优化.在训练中,图像批量大小设置为64, 学习率设置为0.05, 动量设置为0.9, 权重衰减系数为0.0005.对于教师网络,利用标准交叉熵损失函数进行训练,训练迭代次数为240, 其学习率分别在第150、180、210次迭代时,分别缩小为原来的1/10, 训练完成后将教师网络进行保存,存储于本地磁盘中.
对于学生网络,需要先读取教师网络的模型参数,利用所提出的损失函数式(6)进行训练,模型训练优化器与学习率设置均与教师网络一致,训练迭代次数设为300, 其学习率分别在第180, 220, 260次迭代时,分别缩小为原来的1/10.
在相关联算子的计算过程中,需要引入数据增强,首先,对于图像进行随机旋转与翻转.其次,在图像色彩上从灰度转化、色彩抖动、高斯模糊等操作中随机选取一种对图像进行色彩上的增强.在相关联算子的计算过程中,参数 k =7,对于所选取的网络模型,其结构均为4个阶段,也就是式(5)中的 N =4,同时将每个阶段的权重设为相等,也就是λi =1.设置式(1)中的τ=4.最后,设置式(6)中的α=0.2, β=5.
3.3 实验结果
本文所提出的方法在多种模型结构上进行实验验证,选取ResNet[4]与WideResNet[38](WRN)作为网络主干,并在多种教师网络与学生网络组合上进行实验.表1总结了4组教师网络与学生网络的参数量与计算量信息.在表2和表3中,总结了本文所提出方法的性能效果,其中本文所提出的基于隐层相关联算子的知识蒸馏方法记为CorrKD, 仅利用中间层式(5)与交叉熵损失训练得到的学生网络方法简称为Corr, KD 表示仅利用式(3)进行训练的传统知识蒸馏训练结果.注意到表2与表3中的第3和第4列分别表示教师网络与学生网络在正常情况下训练得到的基准准确率结果(即只使用交叉熵损失函数). KD 展示了学生网络在利用式(3)训练得到的传统知识蒸馏方法的结果.
从实验结果来看,单基于中间隐层相关联算子的知识迁移方法可以对于学生网络的训练带来一定的促进作用,但效果并不明显.通过结合了输出层的传统知识蒸馏方法 KD 之后,在学生网络的分类正确率上,获得了很好的性能提升.在蒸馏教师网络 WRN40-2时,在 CIFAR-10上学生网络 WRN16-2的网络参数和网络计算量都约为原来教师网络 WRN40-2的31.8%,即参数量(教师网络参数量为2.2 M, 学生网络参数量为0.7 M, 教师网络计算量为329.0 M, 学生网络计算量为101.6 M).如
表2所示,由本文所提出的CorrKD方法得到的学生网络准确率只下降了0.5百分点(教师网络准确率为95.2%,学生网络使用CorrKD方法准确率为94.7%).对于类别个数更多的 CIFAR-100上,同样蒸馏的网络选择,由本文所提出的CorrKD方法压缩 WRN40-2后的网络计算量和参数量约是压缩前的31.8%(表1), 准确率只下降1百分点(表3中教师网络准确率为76.8%,由CorrKD方法得到的准确率为75.8%).由此可见,本文所提出的方法在准确率有限下降的情况下,模型能够获得显著的压缩比,压缩后形成的学生网络能够有效嵌入受限移动设备端中.
nlc202210091113
在 CIFAR-100上,也可视化了本文所提出的CorrKD方法对于蒸馏 WRN16-2的训练损失的变化以及测试准确率的变化.如图3所示,随着训练的回合数的增加,完整训练损失 Lo 逐步减小,同时测试准确率逐渐提升.该训练结果验证了本文所提出的方法在训练上的稳定性与有效性.
在 CIFAR-100评测数据集上并以WideResNet为主干网络,将本文所提出的方法与其他经典基于中间层的知识蒸馏方法进行对比,包括FitNet[20],AT (Attention Transfer)[21],SP (Similarity- Preserving)[28]和 FT (Factor Transfer)[29].为保证公平性,上述中间层蒸馏方法都展示与传统 KD 相结合训练的实验结果,各方法所得到的结果对比如表4所示.从实验结果来看,本文所提出的知识蒸馏方法在WideResNet模型结构上,和其他中g层的知识蒸馏方法相比,取得了较好水平.例如,在学生网络为 WRN16-1时,本文所提出的方法和 AT 方法相比,准确率提高了0.1百分点(CorrKD准确率为74.6%,AT 准确率为74.5%), 同时,与教师网络 WRN40-2相比,准确率降低2.2百分点(CorrKD准确率为74.6%,WRN40-2准确率为76.8%(表3)).
3.4 参数敏感性分析实验
本节主要探索部分超参数对于实验效果的影响,主要包括相关联算子中参数k 的影响以及完整的训练损失函数中参数α, β的影响.实验均在 CIFAR-100上进行,教师网络结构选取 WRN40-2, 学生网络结构选取 WRN16-2.对于3组参数的实验结果分别如表5和表6所示 ,“教师网络→学生网络”表示教师网络蒸馏学生网络所使用的网络模型.在k 相关的实验中,固定α=0.2, β=5;同理,在α与β相关的实验中,固定其他两个参数.从实验结果看出,实验中所选取的参数k =7, α=0.2, β=5均为最佳参数.
4 总结
本文提出了一种新的基于隐层相关联算子的知识蒸馏方法,首次将用于光流中的相关联算子计算操作运用到模型中间隐含层的特征提取中,相关联算子可以对特征之间的匹配程度或变化过程进行有效建模,反映模型中间层的表征信息.同时在数据增强的作用下,进行中间层的知识迁移,结合输出层的传统知识蒸馏方法,构成了本文所提出的全新知识蒸馏框架.实验表明,本文所提出的知识蒸馏方法在两种公开数据集上均取得了优越性能,并在WideResNet模型上取得了同类型中间层知识蒸馏方法中的最优水平.在未来的研究中,可以考虑将该模型中间层表征知识提取方法利用到更多视觉领域下游任务的蒸馏中,并在多个任务上验证本文所提出方法的压缩效果.
[参考文献 ]
[1]袁勇, 周涛, 周傲英, 等.区块链技术:从数据智能到知识自动化[J].自动化学报, 2017, 43(9):1485-1490.
[2] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedingsof the Advances in Neural Information Processing Systems.2012:1097-1105.
[3] RENS Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.
[4] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2016:770-778.
[5]纪荣嵘, 林绍辉, 晁飞, 等.深度神经网络压缩与加速综述[J].计算机研究与发展, 2018, 55(9):1871-1888.
[6]孟宪法, 刘方, 李广, 等.卷积神经网络压缩中的知识蒸馏技术综述[J].计算机科学与探索, 2021, 15(10):1812-1818.
[7] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: Learning optical flow with convolutional networks [C]// Proceedings of theIEEE International Conference on Computer Vision.2015:2758-2766.
[8] ILG E, MAYER N, SAIKIA T, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks [C]// Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2017:2462-2470.
[9] WANG H, TRAN D, TORRESANI L, et al. Video modeling with correlation networks [C]// Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2020:352-361.
nlc202210091113
[10] LI H, KADAV A, DURDANOVIC I, et al. Pruning filters for efficient convnets [EB/OL].(2017-03-10)[2022-06-11]. https://arxiv.org/pdf/1608.08710.pdf.
[11] LIN J, RAO Y M, LU J W, et al. Runtime neural pruning [C]// Proceedings of Advances in Neural Information Processing Systems.2017:2178C2188.
[12] HUBARA I, COURBARIAUS M, SOUDRY D, et al. Binarized neural networks: Training deep neural networks with weights and activationsconstrained to +1 or C1[EB/OL].(2016-03-17)[2022-06-01]. https://arxiv.org/pdf/1602.02830.pdf.
[13] JACOB B, KLIGYS S, CHEN B, et al. Quantization and training of neural networks for efficient integer-arithmetic-only inference[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:2704-2713.
[14]章振宇, T国平, 周思源.基于1-bit压缩感知的高效无线联邦学习算法[J].计算机应用, 2022, 42(6):1675-1682.
[15] TAI C, XIAO T, ZHANG Y, et al. Convolutional neural networks with low-rank regularization [EB/OL].(2016-02-14)[2022-06-15].https://arxiv.org/pdf/1511.06067.pdf.
[16] IOANOU Y, ROBERTSON D, SHOTTON J, et al. Training CNNs with low-rank filters for efficient image classification [C]//Proceedings of the International Conference on Learning Representation.2016:45-61.
[17] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL].(2017-04-17)[2022-06-01]. https://arxiv.org/pdf/1704.04861.pdf.
[18] TAN M, LE Q. EfficientNet: Rethinking model scaling for convolutional neural networks [C]// Proceedings of the InternationalConference on Machine Learning.2019:6105C6114.
[19] HINTON G E, VINYALS O, DEAN J. Distilling the knowledge in a neural network [C]// Proceedings of the International Conferenceon Learning Representation Workshop.2015:60-72.
[20] ROMERO A, BALLAS N, KAHOU S E, et al. FitNets: Hints for thin deep nets [C]// Proceedings of the International Conference onLearning Representation.2015:73-85.
[21] ZAGORUYKO S, KOMODAKIS N. Paying more attention to attention: Improving the performance of convolutional neural networksvia attention transfer [EB/OL].(2017-02-12)[2022-06-14].03928https://arxiv.org/pdf/1612..pdf.
[22] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition atscale [EB/OL].(2021-06-03)[2022-06-13].11929v2https://arxiv.org/pdf/2010..pdf.
[23] WANG W H, WEI F R, DONG L, et al. MINILM: Deep self-attention distillation for task-agnostic compression of pre-trainedtransformers [C]// Proceedings of the Advances in Neural Information Processing Systems.2020:5776-5788.
nlc202210091113
[24] AGUILAR G, LING Y, ZHANG Y, et al. Knowledge distillation from internal representations [C]// Proceedings of the Association forthe Advancement of Artificial Intelligence.2020:7350-7357.
[25] YIM J, JOO D, BAE J, et al. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:7130C7138.
[26] PARK W, KIM D, LU Y, et al. Relational knowledge distillation [C]// Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2019:3967-3976.
[27] LIU Y F, CAO J J, LI B, et al. Knowledge distillation via instance relationship graph [C]// Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2019:7096-7104.
[28] TUNG F, MORI G. Similarity-preserving knowledge distillation [C]// Proceedings of the IEEE International Conference on ComputerVision.2019:1365-1374.
[29] KIM J, PARK S, KWAK N. Paraphrasing complex network: Network compression via factor transfer [C]// Proceedings of theAdvances in Neural Information Processing System.2018:2760C2769.
[30] HEO B, LEE M, YUN S, et al. Knowledge transfer via distillation of activation boundaries formed by hidden neurons [C]//Proceedings of the Association for the Advancement of Artificial Intelligence.2019:3779-3787.
[31] SRINIVAS S, FLEURET F. Knowledge transfer with jacobian matching [C]// Proceedings of the 35th International Conference onMachine Learning.2018:4723-4731.
[32] TIAN Y L, KRISHNAN D, ISOLA P. Contrastive representation distillation [EB/OL].(2019-10-23)[2022-06-06]. https://arxiv.org/pdf/1910.10699v1.pdf.
[33] XU G D, LIU Z W, LI X X, et al. Knowledge distillation meets self-supervision [C]// Proceedings of the European Conference onComputer Vision.2020:588-604.
[34] SU C, LI P, XIE Y, et al. Hierarchical knowledge squeezed adversarial network compression [C]// Proceedings of the Association forthe Advancement of Artificial Intelligence.2020:11370-11377.
[35] SHEN Z Q, HE Z K, XUE X Y. MEAL: Multi-model ensemble via adversarial learning [C]// Proceedings of the Association for theAdvancement of Artificial Intelligence.2019:4886-4893.
[36] CHUNG I, PARK S U, KIM J, et al. Feature-map-level online adversarial knowledge distillation [C]// Proceedings of theInternational Conference on Machine Learning.2020:2006-2015.
[37] JIN X, PENG B Y, WU Y C, et al. Knowledge distillation via route constrained optimization [C]// Proceedings of the IEEEInternational Conference on Computer Vision.2019:1345-1354.
[38] ZAGORUYKO S, KOMODAKIS N. Wide residual networks [EB/OL].(2017-05-23)[2022-06-01]. https://arxiv.org/pdf/1605.07146.pdf.
(任编辑:陈丽贞)
nlc202210091113
转载注明来源:https://www.xzbu.com/1/view-15440635.htm