您好, 访客   登录/注册

基于深度神经网络的癌细胞识别系统研究

来源:用户上传      作者:

  摘 要:癌症是发病率和死亡率极高的疾病,癌细胞正确识别与癌症等级正确判断具有极其重要的意义。深度神经网络(DNN)可用神经网络模拟大脑识别过程,底层提取初级特征,高层对底层特征进行组合与抽象。以乳腺癌细胞图像为例,采用BreaKHis官网数据集,在Linux操作系统安装Pycharm开发软件,以Tensorflow为框架,搭载Python2.7编译环境,增加现有神经网络的卷积层数和全连接层数,提出一种优化的深度神经网络癌细胞识别方法。实验结果表明,该方法能更加准确地识别癌细胞图像特征,有效降低现有神经网络分类错误,对癌细胞平均识别率达89.58%,对恶性癌细胞识别率最高可达96.75%。
  关键词:癌细胞识别;数据集;神经网络;训练速度
  DOI:10. 11907/rjdk. 191574
  中图分类号:TP303   文献标识码:A                 文章編号:1672-7800(2020)003-0065-04
  Research Cancer Cell Recognition System Based on Deep Neural Network
  YANG Xiao-ling,WANG Zhen-qi,LI Jia
  (School of Electronic Information Engineering,Zhuhai College of Jilin University,Zhuhai 519041,China)
  Abstract: Cancer has become a major disease with high morbidity and mortality in China. Correct identification of cancer cells and correct judgement of cancer grade are of great significance to the development of Chinese medicine. This system employs official website’s BreaKHis Data and takes breast cancer cell image as an example. Pycharm development software was installed on Linux operating system in Python2.7 compiler environment within the framework of Tensorflow to speed up network training and deepen convolutional layers and fully layers of existing neural networks. A cancer cell recognition method based on optimized deep neural network is proposed.  The experimental results show that, this method can recognize the image features of cancer cells more accurately, effectiving reduce the existing neural networks classification errors, the average recognition rate of cancer cells was 89.58%, and the highest recognition rate of malignant cancer cells was 96.75%.
  Key Words: cancer cell recognition; data set; neural network; training speed
  0 引言
  深度学习算法是近几年兴起的特征学习及分类算法,具有强大的特征学习能力,可同时实现特征学习与分类。深度学习在癌细胞识别中的应用尚不普遍,目前最具代表性的研究是Cruz-Roa等[1]基于深度学习网络的基底细胞癌(Basal-Cell Carcinoma Cancer)自动检测系统。深度学习模型不仅能大幅提高图像识别精度,而且避免消耗大量时间进行人工特征提取,使运行效率大大提升。普通神经网络和深度神经网络区别如图1所示[2]。深度学习通过多个处理层组成复杂的计算模型,自动获取数据的表示与多个抽象级别,利用深度神经网络具有的网络深度和大样本量训练集,将其应用于癌细胞识别,可以更好地表达癌细胞图像特征并区分细胞,提高癌细胞识别率。本文以乳腺癌细胞识别为例,通过深度学习进行癌细胞识别应用,对癌症的临床判断具有极其重要的意义。
  1 深度神经网络模型架构
  基于经典的LeNet-5[3]构建深度神经网络,主要包括两个卷积层、一个池化层和两个全链接层。卷积神经网络为癌细胞识别系统的主体部分,通过网络中的多个隐含层实现对癌细胞数据更深层次的特征提取。对现有的卷积神经网络结构进行优化,通过增加并联卷积层扩宽网络宽度,生成一个训练样本学习系统。通过增加训练样本数量使网络学到更多并且更加准确。深度神经网络模型如图2所示。
  2 癌细胞识别模型
  基于深度神经网络的癌细胞识别系统流程分为癌细胞图像预处理、癌细胞特征提取和分类3个部分,实现方案如图3所示。   癌细胞图像预处理主要对癌细胞图像的形态学特征进行融合,将融合后的一维向量转化为二维图像。特征提取由深度卷积神经网络自动完成,最后使用一种常用的分类器Softmax[4]进行分类并得到识别结果。癌细胞识别过程如图4所示。通过加深卷积层数和全连接层数,提高训练速度与识别率,图4右边为每层网络的数据结构。
  2.1 癌细胞图像预处理
  首先通过使用高阶中值滤波器算法检测癌细胞图像噪声,去除癌细胞图像漂移噪声,并利用小波变换算法,选择合适的小波基函数和阈值去除信号干扰并重构时域信号,得到去噪后的癌细胞图像;然后利用融合技术将癌细胞图像的形态学特征进行融合,将特征的时间值归一化到[0,1]之间,实现数据的归一化处理;最后将一维特征融合向量转化为二维的二值图像,作为卷积神经网络的输入,利用跳白格和游程编码对二值图像进行降维。
  2.2 癌细胞图像特征提取
  癌细胞图像特征提取步骤如下:①对特定类型癌细胞图像通过特定选择程序进行预提取,选择出更具代表性的癌细胞图像作为训练样本集;②构建深度卷积神经网络模型,如图2所示。设置模型中的特征图片数量及各层参数(卷积核、步长等);③确定训练集、验证集及样本集中的癌细胞数量;④利用深度卷积神经网络对输入自动提取高层特征;⑤利用改进的深度神经网络方法(如图4所示)加快训练的收敛速度、提高分类准确率。
  2.3 Softmax分类
  使用Softmax分类器进行特征识别,将目标变量分为多类算法。分类器利用Logistic 模型[3]对多分类问题进行推广。假设有[N]幅输入图像[xi,yiNi=1],每幅图像标记[yi∈{1,2,?,k},k2]共[k] 类,本文设[k=2]。对于给定的测试图像[xi],用假设函数估计出其属于每个类别[j]的概率值[p(yi=j|xi)],则假设函数[hθ(xi)]为:
  式(1)中,[1j=1keθTjxi]代表对概率分布进行归一化,全部概率之和为1。[θ]表示Softmax分类器的参数。
  Softmax分类器损失函数为:
  其中[1(yi=j)]为指示性函数,其取值规则为:1{值为真的表达式}=1,1{值为假的表达式}=0。最后通过随机梯度下降法得到最小化误差loss函数。
  3 方案实现与实验结果分析
  3.1 数据集
  本文采用BreaKHis官网公开的数据集[5],该数据集包含82位患者的7 909幅已标注乳腺癌病理图像,其中良性肿瘤图像2 480幅,恶性肿瘤图像5 429幅。每幅癌细胞图像均采用4种不同的放大倍数(40X、100X、200X、400X),固定大小为700×460像素,模式为RGB三通道图像(24位颜色,每个通道8位)。不同放大倍数的良、恶性肿瘤图像分布情况如表1所示。
  不同放大倍数的良性和恶性癌细胞图例如图5所示,肉眼可以直观看到:随着放大倍数的增大,良性癌细胞和恶性癌细胞的细胞核特征区别很大,恶性癌细胞明显呈现颜色深等特点。
  3.2 系统设计与实现
  首先读取图像数据和标签数据,对封装的数据加载并进行乱序处理,如果不进行乱序处理会有某种特征数据连续出现从而影响训练效果。把相关数据抽象为数据类进行处理,包括图像信息、标签信息、图像总数据、数据批次;然后对所得图像进行训练或预测,将图像数据传入卷积层,经过处理得到压缩的图像数据。把数据传入全连接层,经过数据分析输出特征,再通过Softmax函数把特征提取出来,对结果进行误差计算以及优化,最后打印出训练和预测结果。系统实现过程如图6所示。
  3.3 实验结果分析
  由于每个病变文件夹下都包含40X、100X、200X、400X 等几种分辨率图片,进行数据提取后得到训练数据和验证数据两种结构的数据集,每部分包含良性和恶性两种。两种癌细胞的召回率、识别精确率和平均识别率如表2所示,可以看到系统对恶性癌细胞的整体识别效果更好。
  随着训练次数增加,通过模型预测的准确率平均值是89.58%,最高可达96.75%。训练结束后的准确率和误差如图7所示,可以看出,loss随训练次数的增大衰减很快,到训练100次时基本衰减为0.012。第100次训练时,训练集的loss为0.001 1,准确率为100%;验证集的loss为0.510 3,准确率为87.44%。
  4 结语
  本文以乳腺癌为例,研究了利用深度神经网络方法实现癌细胞图像识别系统,采用加深现有神经网络模型的卷积层和全连层方法,使其具有更深、更复杂的结构,加快网络训练速度。系统对乳腺癌癌细胞图像识别分类效果良好,识别准确率最高可达96.75%,改善了现有神经网络分类识别率不高的问题。后续将继续学习深度神经网络模型,研究影响模型性能的因素,如染色对于图片的影响、预处理方法、分类器改进等,满足更高临床要求。
  參考文献:
  [1]Y L, Y B, G H. Deep learning [J]. Nature, 2015, 521(7):353-436.
  [2]M Y,WANG Y. Research on image classification model based on deep convolution neural network [J]. Springer,2019(1):1186-1191.
  [3]AHIALE AKOGO,DARLINGTON,PALMER XAVIER LEWIS. End- to-end learning via a convolutional neural network for cancer cell line classification[J].  ResearchGate,2018(3):889-902.   [4]SHAJY L, SMITHA P, BONEY SHANKER E. Segmentation and feature extraction of sputum cell for early detection of lung cancer[J].  IEEEXplore,2015,25(6):1222-1224.
  [5]MAO J,XU W,YANG Y,et al. Deep captioning with multimodal recurrent neural networks (m-rnn)[J]. Eprint Arxiv,2014(2):921-935.
  [6]TAHER F,WERGHI N,H AL AHMAD. Rule based classification of sputum images for early lung cancer detection[J].  IEEE International Conference on Electronics,2015(12):1109-1121.
  [7]LIAN M J,HUANG C L. Texture feature extraction of gray-level co-occurrence matrix for metastatic cancer cells using scanned laser pico-projection images[J].  Springer,2018(10):1007-1011.
  [8]HUANG C L,CHIU W T,LO Y L. Optical detection of metastatic cancer cells using a scanned laser pico-projection system[J]. Laser Physics Letters,2015(2):1612-1616.
  [9]FENG Y Q,ZHANG L,ZHANG Y. Breast cancer cell nuclei classification in histopathology images using deep neural networks[J].  Springer,2018(9):17-21.
  [10]RAJBONGSHI N,BORA K,DC NATH. Analysis of morphological features of benign and malignant breast cell extracted from fnac microscopic image using the pearsonian system of curves[J]. Europe PMC,2018(11):198-202.
  [11]謝欣,夏哲雷.  深度卷积神经网络的宫颈癌细胞图像识别[J].  中国计量大学学报,2018,6(2):200-203.
  [12]何雪英,韩忠义,魏本征. 基于深度学习的乳腺癌病理图像自动分类[J]. 计算机工程与应用,2018,54(12):121-125.
  [13]陶源,王佳飞,杜俊龙,等. 基于卷积神经网络的细胞识别[J].  中国医学物理学杂志,2017,1(1):53-57.
  [14]宁梓淯,罗微,李燕,等. 基于细胞核特征的宫颈癌细胞图像的识别与分类[J]. 自动化与仪器仪表,2016,10(10):197-199.
  [15]余玥,张晓琨. 人工智能技术在乳腺癌诊疗领域的应用[J].  心血管外科杂志,2018,1(6):50-54.
  [16]全永志,高树辉,杨孟京,等.  基于卷积神经网络的宫颈细胞病变图像识别研究[J].  激光与光电子学进展,2019,20(12):48-53.
  [17]赵国超. 基于细胞核分析的癌细胞图像特征提取与识别[D].  武汉:武汉理工大学,2013(12):78-82.
  [18]蔡武斌. 癌细胞病理图像的检测技术研究[D].  太原:中北大学,2018.
  [19]唐思源. 基于人工神经网络的肺癌细胞图像特征的提取与识别[J]. 电子世界,2017, 8(2):34-38.
  (责任编辑:杜能钢)
  收稿日期:2019-04-21
  基金项目:广东省高校青年创新人才类项目(2019KQNCX198);广东省大学生创新创业训练计划项目(S201913684044S);吉林大学珠海学院教学质量工程项目(ZLGC20191015)
  作者简介:杨晓玲(1984-),女,硕士,吉林大学珠海学院电子信息工程学院讲师,研究方向为图像处理、人工智能。
转载注明来源:https://www.xzbu.com/8/view-15217861.htm