您好, 访客   登录/注册

基于机器学习的白细胞六分类研究

来源:用户上传      作者:孙凯 姚旭峰 黄钢

  摘  要: 鉴于现有机器学习白细胞分类方法难以验证网络泛化性与鲁棒性,本研究提出了一种联合多类型特征的白细胞分类方法。首先使用图像剪裁与中心化及改进型颜色阈值分割完成11865张六种类别白细胞图像的预处理与分割操作。随后在特征提取部分筛选出细胞几何、纹理、小波三部分共63个特征;通过主成分分析法实现了降维后得到8个主成分。最后使用支持向量机、多层感知机与决策树分别进行分类工作,结果为高质量图像最高88.6%;噪声图像最高84.5%;低分辨率图像最高87.6%的分类精度。实验结果验证了所提出方法的鲁棒性和泛化性好,可实现白细胞的准确分类。
  关键词: 机器学习;图像处理;分类;白细胞
  中图分类号: TP391.41    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.10.024
  本文著录格式:孙凯,姚旭峰,黄钢. 基于机器学习的白细胞六分类研究[J]. 软件,2020,41(10):98101+134
  【Abstract】: In view of the difficulty in verifying the generalization and robustness of existing machine learning leukocyte classification methods, this study proposes a white blood cell classification method that combines multiple types of features. First, use image cropping and centralization and improved color threshold segmentation to complete the preprocessing and segmentation of 11,865 six subtypes of white blood cell images. In the feature extraction part, 63 features including cell geometry, texture and wavelet were screened out; 8 principal components were obtained after dimensionality reduction was achieved by principal component analysis. Finally, support vector machines, multi-layer perception and decision trees were used for classification. The results were high-quality images up to 88.6%; noise images up to 84.5%; low-resolution images up to 87.6%. The experimental results verify that the proposed method has good robustness and generalization, and can achieve accurate classification of white blood cells.
  【Key words】: Machine learning; Image processing; Classification; White blood cells
  0  引言
  血液白細胞通常可以划分为五种类型,分别为嗜碱性粒细胞(Basophils,bas)、嗜中性粒细胞(Neutrophilic,neu)、单核细胞(Monocytes,mon)、淋巴细胞(Lymphocytes,lym)以及嗜酸性粒细胞(Eosinophils,eos),嗜中性粒细胞可分为嗜中性杆状核粒细胞(Band Neutrophil,ban)以及嗜中性分叶核粒细胞(Segmented Neutrophil,seg)[1]。白细胞根据形态差异又可以分为颗粒和无颗粒两类细胞,其中嗜酸性粒细胞、嗜碱性粒细胞及中性粒细胞属于颗粒细胞,单核细胞及淋巴细胞属于无颗粒细胞[2]。白细胞浓度异常可能代表某些血液疾病的发病迹象[3]。因此,实现白细胞的精确分类有助于帮助医生筛查白细胞相关病症,在临床应用中具有重要研究意义[4-5]。
  白细胞分类方法包括人工镜检、流式细胞仪与图像处理方法三种[1]。在图像处理方法中,机器学习方法因其可靠性与鲁棒性成为白细胞分类热门研究领域。Ravikumar[6]在相关向量机(Relevance Vector Machine,RVM)基础上使用改进型的fast-RVM分类器,不仅分类精度较RVM有所提高,同时分类速度大大超过RVM分类器。Roy等[7]首次证明细胞的形态学特征对分类结果有重要影响,Agaian等[8]结合形态学特征提出Cell Energy特征,在ALL-IDB数据集上对急性白血病(Acute Leukaemia)的分类精确度超过94%;Duan等[9]结合纹理、空间与光谱特征,利用支持向量机(Support Vector Machine,SVM)对五类高光谱白细胞图像实现了98.3%的分类精度。可见,使用新型特征或改进型分类器可实现白细胞高精度分类。
  然而,目前白细胞分类研究依旧存在以下三大问题:第一以往研究大多只进行白细胞5分类研究,没有对白细胞实现更多分类;第二,以往研究大多只针对一种白细胞数据集,对网络泛化性与鲁棒性验证效果欠佳。为解决上述问题,本研究采用六分类白细胞数据集,并提取出纹理、小波与形态特征,使用支持向量机、多层感知机(Multilayer Perceptron,MLP)与决策树(Decision Tree,DT)三种分类器分类。在此基础上,使用高质量、噪声与低分辨率数据集,验证本研究方法的泛化性与鲁棒性好。   1  方法
  1.1  实验数据
  本研究与北昂生物科技公司合作,采集到六类共11865张白细胞图像,分别为2000张嗜中性杆状核粒细胞、2126张嗜中性分叶核粒细胞、1854张嗜酸性粒细胞、2000张淋巴细胞、2144张单核细胞以及1741张嗜碱性粒细胞图像,大小均为224×224像素,每张图像只含有一个白细胞,全部白细胞图像由富有经验的医生标注完毕。图1展示了原始数据库六种类别的白细胞图像。
  为了验证对低质量细胞图像的分类精度,本研究在原始数据库基础上加入噪声与降低分辨率图像两类低质量图像验证网络鲁棒性,低质量图像在已分割图像基础上制作而成。如图2(a)所示为原始已分割图像;图2(b)所示为加入了均值为0,标准差为0.02的高斯噪声之后的噪声图像;图2(c)所示为112×112的低分辨率图像。
  1.2  细胞图像预处理与分割
  本研究预处理方法包含细胞图像裁剪、图像插值处理两部分。原始图像含有大量红细胞及背景区域,无法直接用于机器学习训练,因此需要对图片进行裁剪,并统一使用对图像质量损失较小的双三次差值将细胞图像转成网络训练所需要的224×224像素[10]。
  细胞图像分割对机器学习的特征提取步骤有极大影响[11]。本研究采用改进型颜色阈值自动分割方法,此方法結合颜色阈值与区域生长法原理,可对细胞图像实现高通量快速细胞分割。在分割前,首先对输入图像勾画感兴趣区域,避免冗余信息影响,对待分割白细胞进行更为精确地阈值提取。随后,采用与区域生长法相似的原理,先确定初始区域生长点,然后与初始区域生长点相似的邻域像素点被加入到生长区域中,直至邻域没有符合生长规则的像素点。完成区域生长后,将区域内彩色阈值输出,以备后续处理。
  本课题白细胞图像均使用苏木精—伊红染色法(Hematoxylin-eosin Staining,HS),这使得白细胞核内的染色质与细胞质内的核酸为紫蓝色,与红细胞的红色及背景的白色区别较大,因此使用颜色阈值作为主要分割手段,通过设置合适的阈值区间分离白细胞与图像中其他区域。
  本方法会选取同一类别部分细胞图像,根据此类细胞的阈值特点选择合适阈值区间。对于本研究细胞数据集,紫蓝色的色彩数值更低,因此在阈值选择时会调低阈值下限,同时抑制阈值上限,这样避免分割到红细胞区域。在完成阈值设置后,批量导入图片实现阈值分割与输出,对于不同类别的细胞采用不同的阈值设置,使分割效果更好。图3为本课题所使用的改进型颜色阈值分割效果。
  1.3  白细胞图像特征提取与筛选
  特征提取能够显著影响白细胞分类效果,因此正确选择适合本课题数据集的特征非常重要[12]。前人的研究显示多类型的特征相比单一类型特征更能提高分类精度[13],因此本课题从几何特征、纹理特征、小波特征三个方面实现特征的提取。
  1.3.1  几何特征
  提取到几何特征包括基于尺度不变特征变换(Scale-invariant feature transform,SIFT)的细胞角点数目[14]、面积(Area)及周长(Perimeter)[15],共3个轮廓与区域特征。
  1.3.2  纹理特征
  纹理特征以灰度图像为基础,反映了图像中物体表面的某些变化情况。提取的纹理特征包括方差(Variance)、逆差矩(Inverse Difference Moment,IDM)、对比度(Contrast)、熵(Entropy)、角二阶矩(Angular Second Moment,ASM)、相关性(Correlation)、差分熵(DifferenceEntropy)、差分方差(DifferenceVariance)、度量信息1(InfoMeas1)、度量信息2(InfoMeas2)、平均和(SumAverage)、平均熵(SumEntropy)、平均方差(SumVariance)分别从0度、45度、90度及135度提取,共计52个特征;均值(Mean)、等价局部二进制模式(Uniform Pattern LBP,UPLBP)[16]共计2个特征;Granularity1- Granularity7共7个细胞粒度特征,合计61个特征。
  1.3.3  小波特征
  小波特征通过时域频域变换实现纹理特征的提取。本研究提取出Gabor小波特征。
  1.3.4  特征筛选与降维
  本研究共提取出65个白细胞特征。为降低计算复杂度,本研究使用主成分分析(Principal Component Analysis,PCA)进行特征筛选与降维。主成分分析就是将数据不同属性的特征变量转化为较少的综合变量,这些综合变量即为主成分。主成分由变化之前的特征变量线性组合而成,可以代表大部分特征变量所含有的属性信息[17-18]。根据公因子方差与旋转后成分矩阵发现Granularity4与Granularity5两个特征在成分1到成分4的因子载荷系数绝对值均在0.4以下,信息贡献少且贡献分散在不同特征中,特征信息难以被利用,因此将Granularity4与Granularity5特征删除,保留63个特征。随后进行主成分分析得到8个主成分。
  1.4  分类器选择
  传统机器学习分类器是传统机器学习过程的关键性环节,其原理是将已知类别的数据输入分类器,通过训练迭代分类器参数,从而达到预期训练结果的过程[19]。本课题选用支持向量机、多层感知机以及决策树三种分类器互为对照,验证分类结果。
  1.4.1  支持向量机
  SVM的基本原理是求解能够正确划分数据集且具有最大几何区间的分割超平面。SVM最初用于二分类,经过核函数的改进,能够很好地支持多分类任务的需求。   1.4.2  多层感知机
  MLP包括输入层、隐藏层和输出层。相邻层神经元为全连接状态,即相邻层神经元相互连接,同层神经元之间不存在同层连接和跨层连接。输入层负责输入数据,隐含层负责处理数据,输出層最终负责输出结果。
  1.4.3  决策树
  决策树属于监督学习网络的一种,通过网络结构内部的节点判断属性,通过不同的节点分支判断输出结果,最后使用叶节点输出分类结果,因此决策树算法复杂度与树深度相关[20-21]。
  1.5  模型验证与评估
  实验结果评价采用准确度(Accuracy)、召回率(Recall)、精确度(Precision)、F1值与受试者工作特征曲线(Receiver Operating Characteristic,ROC)来评价结果的质量。如式1可见,准确度定义为真阳性率(True Positive Rate,TPR)与真阴性率(True Negative Rate,TNR)之和与总样本数之比。如公式2可见,召回率定义为真阳性率与真阳性率及假阴性率和之比。如公式3可见,精确度定义为真阳性率与真阳性率及假阳性率和之比。TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性。如公式4可见,F1值为精确度与召回率的加权调和平均,其中P代表精确度,R代表召回率。ROC曲线使用真阳性率为纵坐标,假阳性率(False Positive Rate,FPR)为横坐标,如式5与式6所示。
  2  实验结果与分析
  实验使用原始数据库、噪声数据库与低分辨率数据库进行,每种数据库均包含11865张已分割图像。实验采用十折交叉验证方法进行模型训练和模型验证。支持向量机实验均设置使用径向基函数作为核函数;多层感知机隐藏层数为1,隐藏层1中单元数为6,隐藏层采用双曲正切函数作为激活函数,输出层采用SoftMax作为激活函数及交叉熵损失函数;决策树模型采用卡方自动交叉检验(Chi-squared Automatic Interaction Detector,CHAID)生长法,树深度为3,父节点中最小个案数为100,子节点中最小个案数为50,最中含有20个节点,14个终端节点。
  支持向量机六分类结果如表1所示,总分类精度为88.6%。六分类ROC曲线如图4所示,标签0-5分别代表嗜中性杆状核粒细胞、嗜中性分叶核粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞及单核细胞。嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞与单核细胞的ROC曲线最为靠近左上角坐标轴,曲线下面积也较大,说明这四类细胞分类精度较高;嗜中性杆状核细胞与嗜中性分叶核细胞曲线下面积较小,说明分类精度较低,这与表1反映的分类结果是一一对应的。
  为验证本研究所用方法的鲁棒性与泛化性,使用三种分类器对三种数据库分别进行分类实验,结果如表2所示。由表可以得知,支持向量机的分类性能略优于多层感知机,大幅领先决策树;噪声数据库的分类精度最低,说明加入噪声会影响分类精度[22];三种分类器低质量图像的分类结果均低于高质量图像,高质量与低质量精度差距在1%-6%之间。
  产生这种现象的原因可能有四点:第一,嗜中性杆状核粒细胞和嗜中性分叶核粒细胞均属于嗜中性粒细胞,这两种细胞的形态差异较小,形成的特征差异较小,导致这两类细胞分类精度较差;第二,本课题数据集较大,大批量分割细胞时存在少量白细胞未完全分割或白细胞过分割等情况,影响分类精度;第三,加入噪声后影响纹理及小波特征提取的准确性,造成分类精度下降;第四,低分辨率数据库分类精度略低于高质量数据库分类精度,说明分辨率对分类结果的影响较小。
  3  结论
  本研究联合多类型特征实现基于机器学习的白细胞分类方法。为了解决以往研究白细胞类别少、网络泛化性与鲁棒性验证困难的问题,本研究首先收集到11865张六种类别的白细胞图像,并处理为高质量、噪声与低分辨率数据库,随后通过预处理与颜色阈值分割去除图像中无关信息,然后提取并筛选出63个几何、小波与纹理特征。经过主成分分析降维处理后,选择支持向量机、多层感知机与决策树进行六分类实验,并得到了高质量图像最高88.6%;噪声图像最高84.5%;低分辨率图像最高87.6%的六分类精度。实验结果说明所提出方法具有很好的分类效果,并且泛化性与鲁棒性好。
  参考文献
  [1]孙凯, 姚旭峰, 马风玲, 等. 基于机器学习的血细胞分类研究进展[J]. 中国医学物理学杂志, 2020, 37(01): 127-132.
  [2]SAPNA S, RENUKA A. Techniques for Segmentation and Classification of Leukocytes in Blood Smear Images-A Review[C]//2017 IEEE International Conference on Computational Intelligence and Computing Research (ICCIC). IEEE, 2017: 1-5.
  [3]赵子豪. 基于卷积神经网络的白细胞图像检测及分类技术[D]. 西北大学, 2019.
  [4]QIN F, GAO N, PENG Y, et al. Fine-grained leukocyte classification with deep residual learning for microscopic images[J]. Computer methods and programs in biomedicine, 2018, 162: 243-252.
  [5]RAWAT J, BHADAURIA H S, Singh A, et al. Review of leukocyte classification techniques for microscopic blood images[C]//2015 2nd International Conference on Computing for Sustainable Global Development (INDIACom). IEEE, 2015: 1948-1954.   [6]RAVIKUMAR S. Image segmentation and classification of white blood cells with the extreme learning machine and the fast relevance vector machine[J]. Artificial cells, nanomedicine, and biotechnology, 2016, 44(3): 985-989.
  [7]ROY R, SASI S. Classification of WBC Using Deep Learning for Diagnosing Diseases[C]//2018 Second International Conference on Inventive Communication and Computational Technologies (ICICCT). IEEE, 2018: 1634-1638.
  [8]AGAIAN S, MADHUKAR M, Chronopoulos A T. A new acute leukaemia-automated classification system[J]. Computer Methods in Biomechanics and Biomedical Engineering: Imaging & Visualization, 2018, 6(3): 303-314.
  [9]DUAN Y, WANG J, HU M, et al. Leukocyte classification based on spatial and spectral features of microscopic hyperspectral images[J]. Optics & Laser Technology, 2019, 112: 530-538.
  [10]EGMONT-PETERSEN M, DE RIDDER D, HANDELS H. Image processing with neural networks—a review[J]. Pattern recognition, 2002, 35(10): 2279-2301.
  [11]王秋萍, 张志祥, 朱旭芳. 图像分割方法综述[J]. 信息记录材料, 2019, 20(7): 12-14.
  [12]袁满. 血细胞图像白细胞的自动检测与识别[D]. 南京: 东南大学, 2017.
  [13]金松. 基于机器学习的尿沉渣图像有形成分检测算法的研究[D]. 电子科技大学, 2019.
  [14]朱思聪, 周德龙. 角点检测技术综述[J]. 计算机系统应用 , 2020, 29(01): 22-28.
  [15]臧启元, 黄钢, 徐磊, 等. 基于机器学习与细胞形态学对癌细胞分类[J]. 软件, 2019, 40(9): 81-83.
  [16]刘丽, 谢毓湘 , 魏迎梅, 等. 局部二进制模式方法综述[J]. 中国图象图形学报, 2014, 19(12): 1696-1720.
  [17]聂敬云, 李春青, 李威威, 等. 关于遗传算法优化的最小二乘支持向量机在MBR仿真预测中的研究[J]. 软件, 2015, 36(5): 40-44+48.
  [18]DUNTEMAN G H. Principal components analysis[M]. Sage, 1989.
  [19]ALPAYDIN E. Introduction to machine learning[M]. MIT press, 2020.
  [20]赵力衡. 基于决策树的手写數字识别的应用研究[J]. 软件, 2018, 39(03): 90-94.
  [21]周捷, 朱建文. 机器学习分类问题及算法研究[J]. 软件, 2019, 40(7): 205-208.
  [22]GHOSH S, BHATTACHARYA S. Classification of RBC and WBC in Noisy Microscopic Images of Blood Smear[M]//  Information, Photonics and Communication. Springer, Singapore, 2020: 195-200.
转载注明来源:https://www.xzbu.com/8/view-15375407.htm