我超,***了,经提醒,才发现面试官其实就是想问为什么softmax要减去最大值,为了防止值溢出,确实是常规softmax实现的时候都操作
,我一直在想为什么flash attention要这样操作,淦!