Institute of Computing Technology, Chinese Academy IR
PDMiner: 基于云计算的并行分布式数据挖掘工具平台 | |
何清; 庄福振; 曾立; 赵卫中; 谭庆 | |
2014 | |
发表期刊 | 中国科学. 信息科学 |
ISSN | 1674-7267 |
卷号 | 44期号:7页码:871 |
摘要 | 随着信息技术和互联网的发展, 各种信息呈现爆炸性增长, 且包含丰富的知识. 从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题. 近几十年来, 数据挖掘技术, 作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究. 但是由于数据规模的增长, 以往的很多研究工作并不能有效地处理大规模数据, 因此, 开发设计或者扩展已有算法使之能处理大规模数据集, 已经成为数据挖掘中非常重要的研究课题. 近年来, 基于云计算的数据挖掘技术研究已经成为一个热点话题, 本文中我们研究开发一个基于大规模数据处理平台Hadoop 的并行分布式数据挖掘工具平台PDMiner. 在PDMiner 中, 开发实现了各种并行数据挖掘算法, 比如数据预处理、关联规则分析以及分类、聚类等算法. 实验结果表明, 并行分布式数据挖掘工具平台PDMiner 中实现的并行算法: 1)能够处理大规模数据集, 达到TB 级别; 2)具有很好的加速比性能; 3)大大整合利用已有的计算资源, 因为这些算法可以在由这些商用机器构建的并行平台上稳定运行, 提高了计算资源的利用效率; 4)可以有效地应用到实际海量数据挖掘中. 此外, 在PDMiner 中还开发了工作流子系统, 提供友好统一的接口界面方便用户定义数据挖掘任务. 更重要的是, 我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法. |
关键词 | 云计算 并行算法 分布式 数据挖掘 大数据 |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/26001 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 中国科学院计算技术研究所 |
第一作者单位 | 中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 何清,庄福振,曾立,等. PDMiner: 基于云计算的并行分布式数据挖掘工具平台[J]. 中国科学. 信息科学,2014,44(7):871. |
APA | 何清,庄福振,曾立,赵卫中,&谭庆.(2014).PDMiner: 基于云计算的并行分布式数据挖掘工具平台.中国科学. 信息科学,44(7),871. |
MLA | 何清,et al."PDMiner: 基于云计算的并行分布式数据挖掘工具平台".中国科学. 信息科学 44.7(2014):871. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[何清]的文章 |
[庄福振]的文章 |
[曾立]的文章 |
百度学术 |
百度学术中相似的文章 |
[何清]的文章 |
[庄福振]的文章 |
[曾立]的文章 |
必应学术 |
必应学术中相似的文章 |
[何清]的文章 |
[庄福振]的文章 |
[曾立]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论