CSpace  > 中国科学院计算技术研究所期刊论文  > 中文
面向固态硬盘的Spark数据持久化方法设计
陆克中1; 朱金彬2; 李正民3; 隋秀峰4
2017
发表期刊计算机研究与发展
ISSN1000-1239
卷号54.0期号:006页码:1381
摘要基于固态硬盘(solid-state drive,SSD)和硬盘(harddisk drive,HDD)混合存储的数据中心已经成为大数据计算领域的高性能载体,数据中心负载应该可将不同特性的数据按需持久化到SSD或HDD,以提升系统整体性能.Spark是目前产业界广泛使用的高效大数据计算框架,尤其适用于多次迭代计算的应用领域,其原因在于Spark可以将中间数据持久化在内存或硬盘中,且持久化数据到硬盘打破了内存容量不足对数据集规模的限制.然而,当前的Spark实现并未专门提供显式的面向SSD的持久化接口,尽管可根据配置信息将数据按比例分布到不同的存储介质中,但是用户无法根据数据特征按需指定RDD的持久化存储介质,针对性和灵活性不足.这不仅成为进一步提升Spark性能的瓶颈,而且严重影响了混合存储系统性能的发挥.有鉴于此,首次提出面向SSD的数据持久化策略.探索了Spark数据持久化原理,基于混合存储系统优化了Spark的持久化架构,最终通过提供特定的持久化API实现用户可显式、灵活指定RDD的持久化介质.基于SparkBench的实验结果表明,经本方案优化后的Spark与原生版本相比,其性能平均提升14.02%.关键词大数据;混合存储;固态硬盘;Spark;持久化中图法分类号TP303“大数据”描述了信息爆炸时代所产生的海量数据,它不仅聚焦于数据规模本身,更强调了数据量激增背景下的数据分析与应用所面临的巨大挑战1.与传统数据相比,大数据来源广、种类丰富且格式多样,其中囊括了结构化、半结构化和非结构化数据2.目前,大数据已经渗透到人类社会的各行各业,已成为起决定性作用的生产要素.挖掘隐藏在大数据内部的有价值的信息,可以有效推进相关工作的展开,提高领导者的决策和管理水平3_4.大数据技术是指从各种类型的大数据中快速提取高价值信息的能力,其中涉及数据的采集、清洗、存储、管理、信息挖掘和可视化等内容.面对海量数据,如何在有效的时间内管理、分析并提取有价值的信息,成为人们亟需解决的问题.然而,无论是规模、种类还是结构,大数据对人们驾驭数据的能力提出了巨大挑战.Spark是目前高效且在产业界被广泛使用的大数据
关键词大数据 混合存储 固态硬盘 Spark 持久化
语种英语
文献类型期刊论文
条目标识符http://119.78.100.204/handle/2XEOYT63/37646
专题中国科学院计算技术研究所期刊论文_中文
作者单位1.深圳大学计算机与软件学院
2.广东工业大学计算机学院
3.国家计算机网络应急技术处理协调中心
4.中国科学院计算技术研究所
推荐引用方式
GB/T 7714
陆克中,朱金彬,李正民,等. 面向固态硬盘的Spark数据持久化方法设计[J]. 计算机研究与发展,2017,54.0(006):1381.
APA 陆克中,朱金彬,李正民,&隋秀峰.(2017).面向固态硬盘的Spark数据持久化方法设计.计算机研究与发展,54.0(006),1381.
MLA 陆克中,et al."面向固态硬盘的Spark数据持久化方法设计".计算机研究与发展 54.0.006(2017):1381.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[陆克中]的文章
[朱金彬]的文章
[李正民]的文章
百度学术
百度学术中相似的文章
[陆克中]的文章
[朱金彬]的文章
[李正民]的文章
必应学术
必应学术中相似的文章
[陆克中]的文章
[朱金彬]的文章
[李正民]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。