1. NHWC vs NCHW
- NCHW:GPU/训练友好,卷积更快,适合训练。
- NHWC:CPU/推理友好,访存连续,适合推理/端侧。
- 选法:训练优先 NCHW,推理看框架/硬件。
2. 何时关 Shared Memory
- Bank Conflict 严重、优化不动时
- 数据复用少,SM 开销 > L2 直接读收益
- 小核、低算力 GPU 上 SM 紧张
3. Shared Memory 结果异常排查
- 越界读写、未__syncthreads()
- Bank Conflict 导致性能/数值抖动
- 多warp 写同地址、未正确同步
- 类型/大小对齐错误
4. Thread/Warp/Block/SM/Grid