基于因子-聚类分析模型的中药材鉴别
来源:用户上传
作者:秦梦洁 丁学利 王静
关键词:中药材鉴别;特征波;因子分析;K-均值聚类 -1)的不同主要分成三种:远红外(波数:10-400 cm)、中红外(波数:400-4000 cm)、近红外(波数:4000-14000 cm)。
通过对红外光谱进行分析可以快速对中药材进行分类,目前药材鉴别分类的方法大致可以分为有监督的分类和无监督的分类两种。有监督的分类常用方法有K-邻近法、BP神经网络、支持向量机SVM等。其中K-邻近法的结果容易受噪声数据的影响,BP神经网络的收敛速度慢并且存在局部极小问题,SVM算法对大数据集难以实施且很难解决多分类问题。无监督的分类方法主要是聚类分析,聚类分析包括层次聚类、划分聚类和K-均值聚类等。其中K-均值聚类具有简单、高效的显著特点,且该方法对大数据集也具备较好的处理能力。由于红外光谱数据量大、冗余度高,单独使用无监督的分类方法,效果较差。因此本文考虑先利用因子分析降维,再用K-均值聚类分析对中药材进行合理分类。
1 数据来源与分析
1.1数据预处理
本研究的数据来源于2021年全国大学生数学建模竞赛E题的附件1。附件1提供了425个中药材样本(No表示药材编号)数据,分别记录了每个样本在波数652-3999cm下的吸光度(见表1)。图1是425个中红外光谱数据的曲线图。从图1可以看出3个样本的吸光度数值过高,明显不符合该药材的光谱特征。通过筛查确定异常数据编号为64、136和201的药材,将异常数据剔除,剔除后的光谱数据曲线如图2所示。
1.2 特征波段选取
本研究将波数视为指标变量,可以发现数据中所给的波数多达3348条,并且所给波数是连续不间断的,这就需要充分挖掘数据,提取特征波进行降维处理。从图2可以看出强谱峰出现在652~1780cm区域,这主要与药材所含官能团有关,也就是说在652~1780cm这个区间里存在较多的化学信息,即652~1780cm的波数内存在较多的特征波段。
在同一波迪拢标准差越大,说明数据波动越大,样本间的差异越大,也就是说该波数可以作为特征波数提取出来。将不同波数下的吸光度标准差绘制成散点图,如图3所示。图3极大值点所对应的波数(单位为cm)分别为:652、758、1030、1048、1245、1383、1463、1734、2850、2918、3274,将这11个波数视为特征波段。
2 因子-聚类分析模型
2.1 因子分析
因子分析是把多个变量归纳为少数几个综合因子,使得这些综合因子所包含的信息无重叠,从而实现降维的目的。因子分析之前必须对原变量进行相关性检验,可以采用KMO检验和Bartlett球形检验。然后根据累积贡献率提取主因子,计算因子得分和综合得分。
2.2 聚类分析
聚类分析是一种无监督的分类方法,它将具有相同或相似性质的事物归为一类,性质差距较大的事物归入不同类的一种分析方法。
因子-聚类分析本质上就是因子分析和K-均值聚类的综合,首先需要提取主因子,计算因子得分和综合得分。再将综合得分作为分析变量,使用K-均值聚类模型对中药材进行鉴别分类。这种因子-聚类分析模型很大程度上提高了分类的准确性,为中药材的鉴别提供了一种新思路。
3 结果分析
3.1 因子分析结果
将11个特征波段分别记为变量,,…,,做因子分析。在做因子分析之前需要判断一下该数据是否可以进行因子分析,将11个特征波段的吸光度数据导入SPSS软件,进行相关系数以及KMO和Bartlett球形检验,检验结果见表2。
从KMO和Bartlett检验结果可以看到KMO值为0.865>0.5,显著性Sig值为0.000,说明可以对其进行因子分析。因子分析的结果见表3和图4。
nlc202204071902
转载注明来源:https://www.xzbu.com/1/view-15427685.htm