transformer 前馈神经网络的结构, 为什么会先提升维度后缩小维度 这个要怎么回答好呢?