Institute of Computing Technology, Chinese Academy IR
面向固态硬盘的Spark数据持久化方法设计 | |
陆克中1; 朱金彬2; 李正民3; 隋秀峰4 | |
2017 | |
发表期刊 | 计算机研究与发展 |
ISSN | 1000-1239 |
卷号 | 54.0期号:006页码:1381 |
摘要 | 基于固态硬盘(solid-state drive,SSD)和硬盘(harddisk drive,HDD)混合存储的数据中心已经成为大数据计算领域的高性能载体,数据中心负载应该可将不同特性的数据按需持久化到SSD或HDD,以提升系统整体性能.Spark是目前产业界广泛使用的高效大数据计算框架,尤其适用于多次迭代计算的应用领域,其原因在于Spark可以将中间数据持久化在内存或硬盘中,且持久化数据到硬盘打破了内存容量不足对数据集规模的限制.然而,当前的Spark实现并未专门提供显式的面向SSD的持久化接口,尽管可根据配置信息将数据按比例分布到不同的存储介质中,但是用户无法根据数据特征按需指定RDD的持久化存储介质,针对性和灵活性不足.这不仅成为进一步提升Spark性能的瓶颈,而且严重影响了混合存储系统性能的发挥.有鉴于此,首次提出面向SSD的数据持久化策略.探索了Spark数据持久化原理,基于混合存储系统优化了Spark的持久化架构,最终通过提供特定的持久化API实现用户可显式、灵活指定RDD的持久化介质.基于SparkBench的实验结果表明,经本方案优化后的Spark与原生版本相比,其性能平均提升14.02%.关键词大数据;混合存储;固态硬盘;Spark;持久化中图法分类号TP303“大数据”描述了信息爆炸时代所产生的海量数据,它不仅聚焦于数据规模本身,更强调了数据量激增背景下的数据分析与应用所面临的巨大挑战1.与传统数据相比,大数据来源广、种类丰富且格式多样,其中囊括了结构化、半结构化和非结构化数据2.目前,大数据已经渗透到人类社会的各行各业,已成为起决定性作用的生产要素.挖掘隐藏在大数据内部的有价值的信息,可以有效推进相关工作的展开,提高领导者的决策和管理水平3_4.大数据技术是指从各种类型的大数据中快速提取高价值信息的能力,其中涉及数据的采集、清洗、存储、管理、信息挖掘和可视化等内容.面对海量数据,如何在有效的时间内管理、分析并提取有价值的信息,成为人们亟需解决的问题.然而,无论是规模、种类还是结构,大数据对人们驾驭数据的能力提出了巨大挑战.Spark是目前高效且在产业界被广泛使用的大数据 |
关键词 | 大数据 混合存储 固态硬盘 Spark 持久化 |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/37646 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.深圳大学计算机与软件学院 2.广东工业大学计算机学院 3.国家计算机网络应急技术处理协调中心 4.中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 陆克中,朱金彬,李正民,等. 面向固态硬盘的Spark数据持久化方法设计[J]. 计算机研究与发展,2017,54.0(006):1381. |
APA | 陆克中,朱金彬,李正民,&隋秀峰.(2017).面向固态硬盘的Spark数据持久化方法设计.计算机研究与发展,54.0(006),1381. |
MLA | 陆克中,et al."面向固态硬盘的Spark数据持久化方法设计".计算机研究与发展 54.0.006(2017):1381. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[陆克中]的文章 |
[朱金彬]的文章 |
[李正民]的文章 |
百度学术 |
百度学术中相似的文章 |
[陆克中]的文章 |
[朱金彬]的文章 |
[李正民]的文章 |
必应学术 |
必应学术中相似的文章 |
[陆克中]的文章 |
[朱金彬]的文章 |
[李正民]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论