7 下一个token是q,存qv cache没用。8 考虑全精度,少梯度,优化器一阶,二阶和activation 另外佬对3D和4D并行有啥经验分享吗,不知道有没有模板分法