面向不均衡医学数据集的疾病预测模型研究

	面向不均衡医学数据集的疾病预测模型研究
	陈旭 1; 刘鹏鹤 1; 孙毓忠 1; 沈曦 1; 张磊 2; 王晓青 3; 孙晓平 1; 程伟 4
	2019
发表期刊	计算机学报
ISSN	0254-4164
卷号	000 期号:003 页码:596
摘要	基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然而,在医疗领域往往存在着样本数据集不均衡的问题,导致模型的预测效果降低.欠采样技术是目前解决样本不均衡问题的常用手段.其主要采用一定的方法从多数类样本中抽取部分样本,与少数类样本组成平衡数据集后再构建模型.现有的欠采样方法往往可以显著提高模型对少数类样本的召回率,然而其通常也会造成模型准确率的降低,从而限制了预测模型的整体提升效果.为此,该文提出了一种新的基于迭代提升欠采样的集成分类方法(Under-Sampling with Iteratively Boosting,USIB),该方法迭代地从多数类样本中进行欠抽样,构建多组弱分类器,并采用加权组合方式将这些弱分类器构成一个强分类器,从而提升样本不平衡条件下单种疾病预测效果.另外,医学病例样本数据集通常是多类别、多标签的,为此,该文将多个单种疾病的预测模型进行组合构成一个多标签疾病预测模型,以满足临床意义上的多病种以及并发症的诊断.为了进一步提升多标签预测模型的效果,该文设计了一种基于标签最大互信息生成树的标签选择方法(Labels Selection method based on Maximum Mutual Information Spanning Tree,LS-MMIST),该方法根据原始数据集的分布构建标签之间的最大互信息生成树,在每一次的样本预测阶段,借助树中疾病标签之间的关系确定最终的预测标签集合.实验方面,该文首先选择三种公开的不均衡二分类数据集和我们私有的四种稀有疾病的数据集,对该文提出的迭代提升欠采样方法进行性能评估.其次,分别对比了该文提出的多标签预测模型与现有的多标签预测技术在中医和西医两种多标签数据集上的预测性能.实验结果显示,相对于目前主流的八种欠采样以及两种集成采样技术,该文提出的迭代提升欠采样方法在各个不均衡二分类数据集上的F1值平均提升22.58%;与现有的各种多标签预测技术相比,该文提出的多标签预测方法在西医和中医数据集上正确率分别提升6.30%和12.43%,召回率分别提升4.33%和5.86%,F1值分别提升5.48%和11.16%.
关键词	疾病预测不均衡数据集欠采样二分类多标签分类
语种	英语
文献类型	期刊论文
条目标识符	http://119.78.100.204/handle/2XEOYT63/35838
专题	中国科学院计算技术研究所期刊论文_中文
作者单位	1.中国科学院计算技术研究所 2.中国中医科学院中医临床基础研究所 3.首都医科大学 4.中国中医科学院西苑医院
第一作者单位	中国科学院计算技术研究所
推荐引用方式 GB/T 7714	陈旭,刘鹏鹤,孙毓忠,等. 面向不均衡医学数据集的疾病预测模型研究[J]. 计算机学报,2019,000(003):596.
APA	陈旭.,刘鹏鹤.,孙毓忠.,沈曦.,张磊.,...&程伟.(2019).面向不均衡医学数据集的疾病预测模型研究.计算机学报,000(003),596.
MLA	陈旭,et al."面向不均衡医学数据集的疾病预测模型研究".计算机学报 000.003(2019):596.