个人理解,LoRA微调里面,AB反过来初始化可以,但不可以全0,A的梯度更新过程依赖于B,B的梯度更新依赖于A,因此初始化是需要AB其中之一非0,而AB其中之一为0可以保证在微调的初始阶段,原模型从大的文本语料库中学到的信息被保留下来,所以AB其中之一需要为0