一种基于日志信息和CNN-text的软件系统异常检测方法

	一种基于日志信息和CNN-text的软件系统异常检测方法
	梅御东 1; 陈旭 1; 孙毓忠 1; 牛逸翔 1; 肖立 1; 王海荣 3; 冯百明 4
	2020
发表期刊	计算机学报
ISSN	0254-4164
卷号	43.0 期号:002 页码:366
摘要	当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用.而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中,每天都产生着数以百万计的系统日志,这些日志的数据量之庞杂、关系之混乱,已大大影响了程序员对系统的人工监控效率,同时也提高了新程序员的培养成本.为解决以上问题,数据挖掘及系统分析两个领域相结合是一种必然的趋势,也因此,机器学习模型也越来越多地被业界提及用于做系统日志分析.然而大多数情况下,系统日志中,报告系统运行状态为“严重”的日志占少数,而这些少数信息才是程序员最需要关注的,然而大多数用于系统日志分析的机器学习模型都假设训练集的数据是均衡数据,因此这些模型在做系统日志预警时容易过度偏向大样本数据,以至于效果不够理想.本文将从深度学习角度出发,探究深度学习中的CNN-text(CT)在系统日志分析方面的应用能力,通过将CT与主流的系统日志分析机器学习模型SVM、决策树对比,探究CT相对于这些算法的优越性;将CT与CNN-RNN-text(CRT)进行对比,分析CT对特征的处理方式,证实CT在深度学习模型中处理系统日志类文本的优越性;最后将所有模型应用至两套不同的日志类文本数据中进行对比,证明CT的普适性.在CT同日志分析的主流机器学习模型对比的实验中,CT相较于最优模型的结果召回率提升了近15%;在CT同CRT模型对比的实验中,CT相较于更为先进的CRT,模型准确率高出约20%,召回率高出约80%、查准率高出约60%;在CT的普适性实验中,将各类模型融入到本文的实验数据集logstash和公开数据集WC85_1中,在准确率同其他表现较优的模型同为100%的情况下,CT的召回率高出其余召回率最高的模型(DT-Bi)近14%.从中可看出,相较于主流系统日志分析机器学习模型,如支持向量机、决策树、朴素贝叶斯等,CNN-text的局部特征提取能力及非线性拟合能力都有更为优异的表现;同时相较于同为深度学习CNN簇的CNN-RNN-text将大量权重投入到系统日志的序列特征中的特点,CNN-text则报以较少的关注,反而在序列不规则的系统日志中展现出比CNN-RNN-text更优秀的表现.最终证明了CNN-text是本文所提到的方法中最适合进行软件系统异常检测的方法.
关键词	系统日志分析系统异常预警不均衡数据机器学习深度学习 CNN-text
语种	英语
文献类型	期刊论文
条目标识符	http://119.78.100.204/handle/2XEOYT63/35210
专题	中国科学院计算技术研究所期刊论文_中文
作者单位	1.中国科学院计算技术研究所 2.中国科学院大学 3.北方民族大学 4.西北师范大学
第一作者单位	中国科学院计算技术研究所
推荐引用方式 GB/T 7714	梅御东,陈旭,孙毓忠,等. 一种基于日志信息和CNN-text的软件系统异常检测方法[J]. 计算机学报,2020,43.0(002):366.
APA	梅御东.,陈旭.,孙毓忠.,牛逸翔.,肖立.,...&冯百明.(2020).一种基于日志信息和CNN-text的软件系统异常检测方法.计算机学报,43.0(002),366.
MLA	梅御东,et al."一种基于日志信息和CNN-text的软件系统异常检测方法".计算机学报 43.0.002(2020):366.