Institute of Computing Technology, Chinese Academy IR
一种基于日志信息和CNN-text的软件系统异常检测方法 | |
梅御东1; 陈旭1; 孙毓忠1; 牛逸翔1; 肖立1; 王海荣3; 冯百明4 | |
2020 | |
发表期刊 | 计算机学报 |
ISSN | 0254-4164 |
卷号 | 43.0期号:002页码:366 |
摘要 | 当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用.而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中,每天都产生着数以百万计的系统日志,这些日志的数据量之庞杂、关系之混乱,已大大影响了程序员对系统的人工监控效率,同时也提高了新程序员的培养成本.为解决以上问题,数据挖掘及系统分析两个领域相结合是一种必然的趋势,也因此,机器学习模型也越来越多地被业界提及用于做系统日志分析.然而大多数情况下,系统日志中,报告系统运行状态为“严重”的日志占少数,而这些少数信息才是程序员最需要关注的,然而大多数用于系统日志分析的机器学习模型都假设训练集的数据是均衡数据,因此这些模型在做系统日志预警时容易过度偏向大样本数据,以至于效果不够理想.本文将从深度学习角度出发,探究深度学习中的CNN-text(CT)在系统日志分析方面的应用能力,通过将CT与主流的系统日志分析机器学习模型SVM、决策树对比,探究CT相对于这些算法的优越性;将CT与CNN-RNN-text(CRT)进行对比,分析CT对特征的处理方式,证实CT在深度学习模型中处理系统日志类文本的优越性;最后将所有模型应用至两套不同的日志类文本数据中进行对比,证明CT的普适性.在CT同日志分析的主流机器学习模型对比的实验中,CT相较于最优模型的结果召回率提升了近15%;在CT同CRT模型对比的实验中,CT相较于更为先进的CRT,模型准确率高出约20%,召回率高出约80%、查准率高出约60%;在CT的普适性实验中,将各类模型融入到本文的实验数据集logstash和公开数据集WC85_1中,在准确率同其他表现较优的模型同为100%的情况下,CT的召回率高出其余召回率最高的模型(DT-Bi)近14%.从中可看出,相较于主流系统日志分析机器学习模型,如支持向量机、决策树、朴素贝叶斯等,CNN-text的局部特征提取能力及非线性拟合能力都有更为优异的表现;同时相较于同为深度学习CNN簇的CNN-RNN-text将大量权重投入到系统日志的序列特征中的特点,CNN-text则报以较少的关注,反而在序列不规则的系统日志中展现出比CNN-RNN-text更优秀的表现.最终证明了CNN-text是本文所提到的方法中最适合进行软件系统异常检测的方法. |
关键词 | 系统日志分析 系统异常预警 不均衡数据 机器学习 深度学习 CNN-text |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/35210 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学院计算技术研究所 2.中国科学院大学 3.北方民族大学 4.西北师范大学 |
第一作者单位 | 中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 梅御东,陈旭,孙毓忠,等. 一种基于日志信息和CNN-text的软件系统异常检测方法[J]. 计算机学报,2020,43.0(002):366. |
APA | 梅御东.,陈旭.,孙毓忠.,牛逸翔.,肖立.,...&冯百明.(2020).一种基于日志信息和CNN-text的软件系统异常检测方法.计算机学报,43.0(002),366. |
MLA | 梅御东,et al."一种基于日志信息和CNN-text的软件系统异常检测方法".计算机学报 43.0.002(2020):366. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[梅御东]的文章 |
[陈旭]的文章 |
[孙毓忠]的文章 |
百度学术 |
百度学术中相似的文章 |
[梅御东]的文章 |
[陈旭]的文章 |
[孙毓忠]的文章 |
必应学术 |
必应学术中相似的文章 |
[梅御东]的文章 |
[陈旭]的文章 |
[孙毓忠]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论