更长序列 transformerXL 或者分段加attention了比如HAN。 主要还是看什么任务吧