gpu的话把reduce和gemm优化的版本实现一下