cuda实现:reduction,softmax,matrix transpose,avg pooling,算两堆bbox的iou,大部分情况下都是实现kernel即可,少数情况需要跟cpu对齐。 c++实现:NMS,conv2d,双线性插值,layernorm,单例模式 请问这些实现有什么比较好的参考吗