能加入matmulfreellm吗？

能加入matmulfreellm吗？1.3B 参数模型的训练速度从每次迭代 1.52 秒提高到 1.21 秒，比 Vanilla 实现快了 25.6%. 对于最大的 13B 参数模型，matMul-free 语言模型仅使用 4.19 GB 的 GPU 内存，并且有 695.48 毫秒的延迟，而 Transformer++ 需要 48.50 GB 的内存，并表现出 3183.10 毫秒的延迟

hiyouga / LLaMA-Factory

能加入matmulfreellm吗？ #4604