Institute of Computing Technology, Chinese Academy IR
FPC:大规模网页的快速增量聚类 | |
余钧1; 郭岩1; 张凯1; 刘林2; 刘悦1; 俞晓明1; 程学旗1 | |
2016 | |
发表期刊 | 中文信息学报 |
ISSN | 1003-0077 |
卷号 | 30.0期号:002页码:182 |
摘要 | 面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。 |
关键词 | DOM树分层向量 网页簇中心 局部敏感哈希 快速增量聚类 |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/34357 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学院计算技术研究所 2.中国信息安全测评中心 |
第一作者单位 | 中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 余钧,郭岩,张凯,等. FPC:大规模网页的快速增量聚类[J]. 中文信息学报,2016,30.0(002):182. |
APA | 余钧.,郭岩.,张凯.,刘林.,刘悦.,...&程学旗.(2016).FPC:大规模网页的快速增量聚类.中文信息学报,30.0(002),182. |
MLA | 余钧,et al."FPC:大规模网页的快速增量聚类".中文信息学报 30.0.002(2016):182. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[余钧]的文章 |
[郭岩]的文章 |
[张凯]的文章 |
百度学术 |
百度学术中相似的文章 |
[余钧]的文章 |
[郭岩]的文章 |
[张凯]的文章 |
必应学术 |
必应学术中相似的文章 |
[余钧]的文章 |
[郭岩]的文章 |
[张凯]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论