CSpace  > 中国科学院计算技术研究所期刊论文  > 中文
FPC:大规模网页的快速增量聚类
余钧1; 郭岩1; 张凯1; 刘林2; 刘悦1; 俞晓明1; 程学旗1
2016
发表期刊中文信息学报
ISSN1003-0077
卷号30.0期号:002页码:182
摘要面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。
关键词DOM树分层向量 网页簇中心 局部敏感哈希 快速增量聚类
语种英语
文献类型期刊论文
条目标识符http://119.78.100.204/handle/2XEOYT63/34357
专题中国科学院计算技术研究所期刊论文_中文
作者单位1.中国科学院计算技术研究所
2.中国信息安全测评中心
第一作者单位中国科学院计算技术研究所
推荐引用方式
GB/T 7714
余钧,郭岩,张凯,等. FPC:大规模网页的快速增量聚类[J]. 中文信息学报,2016,30.0(002):182.
APA 余钧.,郭岩.,张凯.,刘林.,刘悦.,...&程学旗.(2016).FPC:大规模网页的快速增量聚类.中文信息学报,30.0(002),182.
MLA 余钧,et al."FPC:大规模网页的快速增量聚类".中文信息学报 30.0.002(2016):182.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[余钧]的文章
[郭岩]的文章
[张凯]的文章
百度学术
百度学术中相似的文章
[余钧]的文章
[郭岩]的文章
[张凯]的文章
必应学术
必应学术中相似的文章
[余钧]的文章
[郭岩]的文章
[张凯]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。