如何保证推理一致性,自定义op如何验证反向传播的正确性,cuda底层实现方式,这几个能讲解一下吗