我也在做差不多的东西
BERT提取的特征是矩阵形式, 768 * 自己设的句子长度(包括CLS和SEP), 如果用transformer解码就用整个矩阵做decoder的输入(K和V),如果用GRU解码就用CLS对应的向量做GRU的hidden state
有好的想法可以交流一下