注意力机制,是否可以把注意力机制的系数去掉 - bert 中的确去掉了

这个能详细说下么 这个系数指的 encoder hidden state的系数么