基于降维和支持向量机的医学诊断

来源:公文范文时间:2022-10-25 08:50:06 点击：推荐访问: 医学医学专业医学专业技术工作述评

��zoޛ�)j首�� 学习的医疗诊断系统中，分类算法的设计至关重要。为了提高医疗诊断系统的分类准确率，提出了先降维后分类的方法。采用有监督的LLE算法对高维医学数据进行特征提取。通过SVM算法对降维后的医学数据进行分类。以UCI数据库为数据来源，在MATLAB平台上进行各种分类算法的比较。实验结果表明，新算法的分类识别率和时间复杂度均优于传统的分类算法，非常适用于医学诊断领域。

关键词：医学诊断；有监督的LLE算法； SVM算法

中图分类号：TP301 文献标志码：A 文章编号：1006-8228（2018）11-60-04

Abstract： In the machine learning based medical diagnosis system， the design of classifier is very important. In order to improve the classification accuracy of the medical diagnosis system， a method is proposed that reduces the dimension firstly and then do the classification. Supervised locally linear embedding method is used to feature extraction of high dimensional medical data. Support vector machine is used to classify the data after dimensionality reduction. Using UCI database as data source， various classification algorithms are compared on MATLAB platform. The experimental results show that the new method has higher classification recognition rate and shorter running time than the traditional classification algorithms.

Key words： medical diagnosis； supervised locally linear embedding； support vector machine

0 引言

随着科学技术的发展，医学诊断领域出现大量的高维数据。自动化医学诊断技术被广泛地应用。自动化医学诊断是机器学习的重要应用领域之一，通过收集样本的病理特征，运用机器学习算法来分析特征与疾病的映射关系，据此预测具有某些病理特征的病人是否患有某种疾病的可能[1]。在基于机器学习的医疗诊断系统中，分类算法的设计至关重要[2]。传统的分类算法如决策树算法、支持向量机算法都已经广泛运用到医学诊断系统中[3-4]。然而，医学诊断所涉及的数据存在大量的噪声样本和冗余的特征信息，仅使用分类技术，分类的识别率较低，花费的时间也较长。

本文提出一种先降维后分类的方法。采用有监督的LLE算法，对高维医学数据进行特征提取，通过支持向量机算法对降维后的数据进行分类。与传统分类算法相比，不仅提高了分类识别率，也缩短了运行时间。

1 降维技术

医学诊断领域所涉及的医学数据集一般都是有标签的高维数据集。由于训练样本的有限性和数据的高维性，直接对医学数据集进行分类往往效果不佳[5]。因此，对医学数据集进行降维是非常有必要的。

1.1 降维的定义

所谓降维就是将高维数据通过线性或非线性方式映射到低维空间的过程[6]。数据降维的数学描述为：假设高维数据集X={x1，x2，…，xN}为D维空间的一个数据集，通过映射表示为Y={y1，y2，…，yn} ，y为x的低维表示。

1.2 LLE算法介绍

LLE算法是Roweis和Saul[7]在2000年首次提出的非線性降维方法。LLE算法的基本思想是通过保持数据的局部线性结构在高低维空间的一致性来实现数据的投影映射[8-11]。LLE算法中数据的局部线性结构是用局部重建权值矩阵来衡量的[12]。LLE算法的具体步骤如下。

⑴ 计算每个点的近邻域。用Dijkstra距离作为数据点之间的度量，寻找每个数据点xi的k个近邻点，k是根据经验的预先给定值。

⑵ 通过每个样本点的近邻点计算样本点的局部重建权值矩阵w，使重构误差函数达到最小值，即：

1.3 有监督的LLE算法

一般情况下，收集到的医学数据集都是带有类标签的高维数据集。为了实现医学数据集的特征提取，需要在LLE算法的基础上融入监督信息[13]。

LLE算法在整个降维过程中局部重建权值矩阵都保持不变。为了更好地区分数据的类别，有监督的LLE算法对局部重建权值矩阵做了一定的修改。由于LLE算法中局部重建权值矩阵与数据点之间的距离成反比关系，即扩大局部重建权值矩阵，则相应数据点之间的距离靠近。因此有监督的LLE算法的监督信息融入策略为：尽量缩小类间数据点的局部重建权值矩阵，扩大类内数据点的局部重建权值矩阵。具体思想可以用公式⑺表示：

该线性权重的调整方式依赖于参数δ，参数δ的选取方式为网格搜索。

2 支持向量机（SVM）算法

支持向量机算法主要有线性和非线性两种方式，本文采用的是非线性支持向量机算法。非线性支持向量机算法的基本思想是把输入向量映射到高维空间，在高维空间中构造线性最优分类面对数据进行分类[14-16]。将低维空间非线性问题转化为高维空间线性可分问题。

假设数据集通过非线性映射Φ（x）映射到D维空间（d

选择不同的核函数，可以构造不同的分类器。非线性支持向量机算法常用的核函数有如下三种[17]：

本文采取的核函数是径向基核函数。

3 实验分析

3.1 数据集及实验设置

实验在MATLAB平台上实现，主要用于心脏病和乳腺癌的诊断。数据集来源于UCI机器学习网站。

心脏病数据集包含303个数据样本，每个数据项有13个属性，分别为：病人的年龄、性别、心痛类型、静息血压、血清类固醇、血糖、心电图、最大心率、有无运动引起的心绞痛、由运动引起ST段下降、运动ST段的峰值斜率、主要血管数、缺陷类型。心脏病状况分为两类：有（用数值1，2，3，4来标记）和无（用数值0来标记）。

乳腺癌数据集有369个数据样本，每个数据项有9个属性，分别为：肿块厚度、细胞大小均匀性、细胞形状均匀性、边缘粘、单上皮细胞大小、裸核、乏味染色体、正常核、有丝分裂。乳腺肿块状况主要分为两类：良性（用数值2来标记）和恶性（用数值4来标记）。

3.2 性能指标

分类算法的分类效果主要由识别率，误识率和运行时间决定。识别率和误识率的定义如下：

3.3 实验结果与分析

评价分类算法的分类效果，主要看分类算法的识别率、误识率和运行时间。好的分类算法应该具有高识别率、低误识率和较短的运行时间。将文中的方法、决策树分类算法和支持向量机算法用于诊断心脏病和乳腺癌，表1为这几种分类方法应用于心脏病数据集的分类效果。表2为这几种分类方法应用于乳腺癌数据集的分类效果。由表1和表2可以看出，与传统的决策树、支持向量机分类算法相比较，本文提出的方法具有较高的识别率和较低的误识率，运行时间也较短。

本文提出的方法先采用有监督的LLE算法对医学数据集进行了特征提取，保持了同类数据之间的相似性，拉大了异类数据之间的差异性，因此文中的方法的识别率较高，误识率较低。

本文提出的方法采用先降维后分类的方式，支持向量机算法分类的只是降维后的低维数据，与传统的分类算法相比，时间复杂度较低，运行时间较短。

4 结束语

提出了一种先降维后分类的方法，采用有监督的LLE算法对高维医学数据进行特征提取，通过支持向量机算法对降维后的数据进行分类。实验结果表明，与传统的分类算法相比较，文中提出的方法识别率较高，误识率较低，运行时间较短。但本文提出的算法主要针对的是二类医学数据集的分类，对更多类别的医学数据集的分类问题还需要考虑到多类的支持向量机算法，还需要进一步研究。

参考文献（References）：

[1] 韦艳艳，李陶深，张超群.集成分类器组合算法及其在医学诊断中的应用[J].广西大学学报（自然科学版），2013.38（5）：1152-1156

[2] OZA， N C， TUMER.K， Classifier ensembles：Select real-world applications[J].Information Fusion，2008.9（1）：4-20

[3] 閻威武，邵惠鹤.支持向量机分类器在医学诊断中的应用研究[J].计算机仿真，2003.20（2）：69-70

[4] 黄锦静，陈岱，李梦天.基于粗糙集的决策树在医疗诊断中的应用[J].计算机技术与发展，2017.27（12）： 148-152

[5] 康辉英，李明亮.基于降维BP神经网络的高维数据分类研究[J].计算机工程与应用，2013.49（20）：183-187

[6] 吴晓婷，闫德勒.数据降维方法分析与研究[J].计算机应用研究，2009.26（8）：2833-2835

[7] S T Roweis L K Saul Nonlinear dimensionality reduction by locally linear embedding[J].Science 2000.290：2323-2326

[8] 马瑞.基于局部线性嵌入（LLE）非线性降维的多流形学习[J].清华大学学报（自然科学版），2009.48（4）：582-585

[9] 张少龙，巩知乐，廖海斌.融合LLE和ISOMAP的非线性降维方法[J].计算机应用研究，2014.31（1）：277-280

[10] 胡鹏.基于流形学习的数据降维技术研究[D].长沙理工大学，2011.

[11] BELHUMEUR P N， HESPANHA J P， KRIEGMAN D：Recognition using class specific linear projection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，1997.19（7）： 711-720

[12] 郭海凤，孙周宝.改进的LLE算法在图像分类中的应用[J].计算机应用于软件，2014.31（12）：256-258

[13] 张蕾.基于有监督流形降维的自动化医学诊断[D].扬州大学，2015.

[14] 汪海燕，黎建辉，杨风雷.支持向量机理论及算法研究综述[J].计算机应用研究，2014.31（5）：1282-1286

[15] 祝曙光，钱丽艳，樊卫兵等.非线性支持向量机若干关键问题研究[J].计算机工程与科学，2010.32（5）： 41-44

[16] 吕世聘，王秀坤，孙岩等.改进的支持向量机特征选择算法[J].计算机工程，2009.35（1）：171-172

[17] 王东，史晓霞，尹交英.不同核函数的支持向量机用于空调负荷预测的对比研究[J].电工技术学报，2015.30（1）：531-535

上一篇：多波混频量子控制
下一篇：结合线性与非线性模式的计算机基础课程教学

扩展阅读文章

推荐阅读文章