Institute of Computing Technology, Chinese Academy IR
| 基于Spark/Shark的电力用采大数据OLAP分析系统 | |
| 王亚玲1; 刘越2; 洪建光3; 崔蔚1; 李彦虎2; 苏伊鹏2; 黄高攀4; 张明明4; 刘万涛2 | |
| 2016 | |
| 发表期刊 | 中国科学技术大学学报
![]() |
| ISSN | 0253-2778 |
| 卷号 | 46期号:1页码:66 |
| 摘要 | 用电信息大数据上的OLAP查询涉及数据量大,具有多表连接操作频繁、SQL结构复杂等特点,传统关系型数据库面对该类应用,表现出可扩展性弱、数据写入吞吐量低与查询效率低等问题.为此设计了一套基于Spark/Shark的电力大数据OLAP分析系统,该系统采用分布式文件系统HDFS保存电力用电信息采集系统的大数据,通过Shark进行前端SQL解析,Spark进行查询计算;然而,原生Shark只支持粗粒度分区,不支持细粒度的索引技术,难以高效地过滤无关数据,影响了查询性能.为克服这一不足,该系统设计了一种基于前缀树的细粒度索引结构TrieIndex,并通过数据重组技术优化了数据在HDFS的分布,提升了Shark的数据过滤能力以及用电信息大数据OLAP分析的性能.真实用电信息采集系统数据与查询的实验结果表明,该系统比关系型数据库的写入速度提升了12倍,比原生Shark的查询效率提升了10倍以上. |
| 关键词 | 电力大数据 索引 前缀树 |
| 语种 | 英语 |
| 文献类型 | 期刊论文 |
| 条目标识符 | http://119.78.100.204/handle/2XEOYT63/37018 |
| 专题 | 中国科学院计算技术研究所期刊论文_中文 |
| 作者单位 | 1.国网信息通信产业集团有限公司 2.中国科学院计算技术研究所 3.国网浙江省电力公司 4.国网江苏省电力公司信息通信分公司 |
| 推荐引用方式 GB/T 7714 | 王亚玲,刘越,洪建光,等. 基于Spark/Shark的电力用采大数据OLAP分析系统[J]. 中国科学技术大学学报,2016,46(1):66. |
| APA | 王亚玲.,刘越.,洪建光.,崔蔚.,李彦虎.,...&刘万涛.(2016).基于Spark/Shark的电力用采大数据OLAP分析系统.中国科学技术大学学报,46(1),66. |
| MLA | 王亚玲,et al."基于Spark/Shark的电力用采大数据OLAP分析系统".中国科学技术大学学报 46.1(2016):66. |
| 条目包含的文件 | 条目无相关文件。 | |||||
| 个性服务 |
| 推荐该条目 |
| 保存到收藏夹 |
| 查看访问统计 |
| 导出为Endnote文件 |
| 谷歌学术 |
| 谷歌学术中相似的文章 |
| [王亚玲]的文章 |
| [刘越]的文章 |
| [洪建光]的文章 |
| 百度学术 |
| 百度学术中相似的文章 |
| [王亚玲]的文章 |
| [刘越]的文章 |
| [洪建光]的文章 |
| 必应学术 |
| 必应学术中相似的文章 |
| [王亚玲]的文章 |
| [刘越]的文章 |
| [洪建光]的文章 |
| 相关权益政策 |
| 暂无数据 |
| 收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论