评论详情-牛客网

cuda实现：reduction，softmax，matrix transpose，avg pooling，算两堆bbox的iou，大部分情况下都是实现kernel即可，少数情况需要跟cpu对齐。 c++实现：NMS，conv2d，双线性插值，layernorm，单例模式请问这些实现有什么比较好的参考吗