如果需要你做一个多模态的agent benchmark框架,你会如何实现?这个怎么回答的啊呢