CSpace

浏览/检索结果: 共5条,第1-5条 帮助

已选(0)清除 条数/页:   排序方式:
Accelerating Parallel Structures in DNNs via Parallel Fusion and Operator Co-Optimization 期刊论文
ACM TRANSACTIONS ON ARCHITECTURE AND CODE OPTIMIZATION, 2025, 卷号: 22, 期号: 3, 页码: 26
作者:  Di, Zhanyuan;  Wang, Leping;  Ma, Zhaojia;  Shao, En;  Zhao, Jie;  Ren, Ziyi;  Feng, Siyuan;  Tao, Dingwen;  Tan, Guangming;  Sun, Ninghui
收藏  |  浏览/下载:4/0  |  提交时间:2025/12/03
Deep learning  tensor compiler  inference optimization  code generation  GPU  
Efficient and Fast High-Performance Library Generation for Deep Learning Accelerators 期刊论文
IEEE TRANSACTIONS ON COMPUTERS, 2025, 卷号: 74, 期号: 1, 页码: 155-169
作者:  Bi, Jun;  Wen, Yuanbo;  Li, Xiaqing;  Zhao, Yongwei;  Guo, Yuxuan;  Zhou, Enshuai;  Hu, Xing;  Du, Zidong;  Li, Ling;  Chen, Huaping;  Chen, Tianshi;  Guo, Qi
收藏  |  浏览/下载:14/0  |  提交时间:2025/06/25
Optimization  Space exploration  Schedules  Libraries  Biological cells  Deep learning  Costs  Computers  Search problems  Tensors  Code generation  compiler optimization  tensor computation  
IrGEMM: An Input-Aware Tuning Framework for Irregular GEMM on ARM and X86 CPUs 期刊论文
IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS, 2024, 卷号: 35, 期号: 9, 页码: 1672-1689
作者:  Wei, Cunyang;  Jia, Haipeng;  Zhang, Yunquan;  Yao, Jianyu;  Li, Chendi;  Cao, Wenxuan
收藏  |  浏览/下载:34/0  |  提交时间:2024/12/06
Kernel  Libraries  Computer architecture  Tuning  Layout  Optimization  Codes  Batch GEMM  code generation  compact GEMM  dynamic programming  TSMM  
Automatic Generation of High-Performance FFT Kernels on Arm and X86 CPUs 期刊论文
IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS, 2020, 卷号: 31, 期号: 8, 页码: 1925-1941
作者:  Li, Zhihao;  Jia, Haipeng;  Zhang, Yunquan;  Chen, Tun;  Yuan, Liang;  Vuduc, Richard
收藏  |  浏览/下载:98/0  |  提交时间:2020/12/10
AutoFFT  FFT  code generation  template  DFT  
面向稀疏卷积神经网络的GPU性能优化方法 期刊论文
软件学报, 2020, 卷号: 31, 期号: 9, 页码: 2944
作者:  董晓;  刘雷;  李晶;  冯晓兵
收藏  |  浏览/下载:45/0  |  提交时间:2023/12/04
neural networks  sparse  GPU  performance optimization  convolution  code generation  神经网络  稀疏  GPU  性能优化  卷积  代码生成