1. NHWC vs NCHW - NCHW:GPU/训练友好,卷积更快,适合训练。 ​ - NHWC:CPU/推理友好,访存连续,适合推理/端侧。 ​ - 选法:训练优先 NCHW,推理看框架/硬件。   2. 何时关 Shared Memory - Bank Conflict 严重、优化不动时 ​ - 数据复用少,SM 开销 > L2 直接读收益 ​ - 小核、低算力 GPU 上 SM 紧张   3. Shared Memory 结果异常排查 - 越界读写、未__syncthreads() ​ - Bank Conflict 导致性能/数值抖动 ​ - 多warp 写同地址、未正确同步 ​ - 类型/大小对齐错误   4. Thread/Warp/Block/SM/Grid