你好,Transformer的并行性这里是不是有点问题呢? Transformer的一个核心特性:输入序列中每个位置的单词都有自己独特的路径流经编码器。在自注意力层中,这些路径之间存在依赖关系。而前馈层没有这些依赖关系。因此在前馈层时可以并行执行各种路径。