把A存L1,B按列分块,分块乘。ACM现场有遇到卡效率的题,只能想到这个,记得有别的优化