请问算子融合的实现主要在哪里呢？

我了解到OpenPPL-LLM有执行四个关键的算子融合：1）我们将合并残差链接与归一化层之间的操作全部融合，这将减少数次对全局内存的访问；2）我们将横向合并Q, K, V矩阵乘，更大规模的矩阵乘将更充分地利用算力；3）我们将合并Rotary Embedding的相关操作，这将减少数次全局内存访问；4）我们将使用flash attention这一较高性能的实现。请问一些融合的实现在代码中的那个位置呢？

OpenPPL / ppl.nn

请问算子融合的实现主要在哪里呢？ #964