CSpace  > 中国科学院计算技术研究所期刊论文  > 中文
基于统计特征的垃圾博客过滤
刘玮1; 廖祥文1; 许洪波1; 王丽宏2
2008
发表期刊中文信息学报
ISSN1003-0077
卷号22.0期号:006页码:86
摘要该文根据垃圾博客和正常博客在统计特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出基于博客页面统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97%,比基于词频特征的过滤方法提高了约7%,在不同规模训练集上的准确性保持在95%左右,具有更好的泛化能力。
关键词计算机应用 中文信息处理 内容分析 垃圾博客过滤 统计特征 词频特征 泛化能力
语种英语
文献类型期刊论文
条目标识符http://119.78.100.204/handle/2XEOYT63/35738
专题中国科学院计算技术研究所期刊论文_中文
作者单位1.中国科学院计算技术研究所
2.中国国家计算机网络与信息安全管理中心
第一作者单位中国科学院计算技术研究所
推荐引用方式
GB/T 7714
刘玮,廖祥文,许洪波,等. 基于统计特征的垃圾博客过滤[J]. 中文信息学报,2008,22.0(006):86.
APA 刘玮,廖祥文,许洪波,&王丽宏.(2008).基于统计特征的垃圾博客过滤.中文信息学报,22.0(006),86.
MLA 刘玮,et al."基于统计特征的垃圾博客过滤".中文信息学报 22.0.006(2008):86.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[刘玮]的文章
[廖祥文]的文章
[许洪波]的文章
百度学术
百度学术中相似的文章
[刘玮]的文章
[廖祥文]的文章
[许洪波]的文章
必应学术
必应学术中相似的文章
[刘玮]的文章
[廖祥文]的文章
[许洪波]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。