Any Author
我把c数组的维度适配成了2^p 因为可以通过位移运算快速计算下标 但是我发现速度甚至慢了 30% 我把这个关了矩阵乘法速度立刻上来了 我猜可能是体系结构方面的问题,没有考虑到缓存 Mineral: 然后去评测机一测甚至发现有爆内存直接re 的情况