Institute of Computing Technology, Chinese Academy IR
高维特征空间中文本聚类研究 | |
姜宁1; 宫秀军1; 史忠植2 | |
2002 | |
发表期刊 | 计算机工程与应用 |
ISSN | 1002-8331 |
卷号 | 38.0期号:010页码:63 |
摘要 | 依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。 |
关键词 | 高维特征空间 文本聚类 信息量 平均准确率 数据挖掘 数据库 |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/34714 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学技术大学北京研究生院 2.中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 姜宁,宫秀军,史忠植. 高维特征空间中文本聚类研究[J]. 计算机工程与应用,2002,38.0(010):63. |
APA | 姜宁,宫秀军,&史忠植.(2002).高维特征空间中文本聚类研究.计算机工程与应用,38.0(010),63. |
MLA | 姜宁,et al."高维特征空间中文本聚类研究".计算机工程与应用 38.0.010(2002):63. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[姜宁]的文章 |
[宫秀军]的文章 |
[史忠植]的文章 |
百度学术 |
百度学术中相似的文章 |
[姜宁]的文章 |
[宫秀军]的文章 |
[史忠植]的文章 |
必应学术 |
必应学术中相似的文章 |
[姜宁]的文章 |
[宫秀军]的文章 |
[史忠植]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论