是的,LLM 输出的是离散的 Token,机器人控制需要处理的是连续的物理量,在理论上存在严重的Modality Mismatch,最好还是语义+技能+执行