CSpace  > 中国科学院计算技术研究所期刊论文  > 中文
NV-Shuffle:基于非易失内存的Shuffle机制
潘锋烽; 熊劲
2018
发表期刊计算机研究与发展
ISSN1000-1239
卷号55期号:2页码:229
摘要Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略--NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffle-heavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间.
关键词大数据处理 非易失内存 非易失缓冲区 容错
语种英语
文献类型期刊论文
条目标识符http://119.78.100.204/handle/2XEOYT63/37084
专题中国科学院计算技术研究所期刊论文_中文
作者单位中国科学院计算技术研究所
第一作者单位中国科学院计算技术研究所
推荐引用方式
GB/T 7714
潘锋烽,熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展,2018,55(2):229.
APA 潘锋烽,&熊劲.(2018).NV-Shuffle:基于非易失内存的Shuffle机制.计算机研究与发展,55(2),229.
MLA 潘锋烽,et al."NV-Shuffle:基于非易失内存的Shuffle机制".计算机研究与发展 55.2(2018):229.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[潘锋烽]的文章
[熊劲]的文章
百度学术
百度学术中相似的文章
[潘锋烽]的文章
[熊劲]的文章
必应学术
必应学术中相似的文章
[潘锋烽]的文章
[熊劲]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。