Institute of Computing Technology, Chinese Academy IR
NV-Shuffle:基于非易失内存的Shuffle机制 | |
潘锋烽; 熊劲 | |
2018 | |
发表期刊 | 计算机研究与发展 |
ISSN | 1000-1239 |
卷号 | 55期号:2页码:229 |
摘要 | Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略--NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffle-heavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间. |
关键词 | 大数据处理 非易失内存 非易失缓冲区 容错 |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/37084 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 中国科学院计算技术研究所 |
第一作者单位 | 中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 潘锋烽,熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展,2018,55(2):229. |
APA | 潘锋烽,&熊劲.(2018).NV-Shuffle:基于非易失内存的Shuffle机制.计算机研究与发展,55(2),229. |
MLA | 潘锋烽,et al."NV-Shuffle:基于非易失内存的Shuffle机制".计算机研究与发展 55.2(2018):229. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[潘锋烽]的文章 |
[熊劲]的文章 |
百度学术 |
百度学术中相似的文章 |
[潘锋烽]的文章 |
[熊劲]的文章 |
必应学术 |
必应学术中相似的文章 |
[潘锋烽]的文章 |
[熊劲]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论