哥们儿是基础视觉组多模态吗?