Refactor Phi3TornadoVMLayerPlanner by consolidating FFN tasks into fusedGateUpSiLUDownOptimized, removing redundant operations, and updating worker grid mappings for improved efficiency and maintainability.

mikepapadim · mikepapadim · commit 3e1887d5db5c · 2025-08-03T22:41:00.000+03:00
diff --git a/src/main/java/com/example/tornadovm/Phi3TornadoVMLayerPlanner.java b/src/main/java/com/example/tornadovm/Phi3TornadoVMLayerPlanner.java
@@ -66,13 +66,6 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                     .task("splitQKV", TransformerComputeKernelsLayered::splitQKV,
                             state.wrapQkv, state.wrapQ, state.wrapK, state.wrapV,
                             config.dim(), config.headSize() * config.numberOfKeyValueHeads())
-//                    .task("copyQ", TransformerComputeKernelsLayered::copyTo,
-//                            state.wrapQkv, 0, state.wrapQ,0, config.dim())
-//                    .task("copyK", TransformerComputeKernelsLayered::copyTo,
-//                            state.wrapQkv, config.dim(), state.wrapK, 0, config.headSize() * config.numberOfKeyValueHeads())
-//                    .task("copyV", TransformerComputeKernelsLayered::copyTo,
-//                            state.wrapQkv, config.dim() + config.headSize() * config.numberOfKeyValueHeads(),
-//                            state.wrapV, 0, config.headSize() * config.numberOfKeyValueHeads())
                     .task("rope", TransformerComputeKernelsLayered::ropeRotationPhi3,context,
                             state.positionHolder, state.wrapQ, state.wrapK, config.kvDim(),
                             config.headSize())
@@ -88,13 +81,22 @@ public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLa
                             state.wrapX, config.dim(), config.rmsNormEps(), state.localSize)
                     .task("mapContextFFN", TransformerComputeKernelsLayered::reductionOneBlock2WithLayer, context, state.wrapXb,
                             state.wrapX, weights.rms_ffn_weightLayered[layerIndex], state.tempFFN)
-                    .task("wGateUp", TransformerComputeKernelsLayered::matrixVectorGeneric, context,
-                            state.wrapXb,   state.wrapHb, weights.wUpLayered[layerIndex],  config.dim(), 2 * config.hiddenDim(),  LOCAL_WORK_GROUP_SIZE_ALLOC)
-                    // Copy gate chunk: hb[0:hiddenDim] -> hbG[0:hiddenDim]
-                    .task("gateUpSiLU", TransformerComputeKernelsLayered::splitGateUpAndSiLU,
-                            state.wrapHb, state.wrapHbG, state.wrapHbU, config.hiddenDim())
-                    .task("wDown", TransformerComputeKernelsLayered::matrixVectorGenericWithResidual, context,
-                            state.wrapHbU, state.wrapX, weights.wDownLayered[layerIndex], config.hiddenDim(), config.dim(),  LOCAL_WORK_GROUP_SIZE_ALLOC)
+                    // Before (3 tasks):
+                    // .task("wGateUp", ...)
+                    // .task("gateUpSiLU", ...)
+                    // .task("wDown", ...)
+
+                    // After (1 fused task):
+                    .task("fusedFFN", TransformerComputeKernelsLayered::fusedGateUpSiLUDownOptimized, context,
+                            state.wrapXb, state.wrapX, weights.wUpLayered[layerIndex],
+                            weights.wDownLayered[layerIndex], config.dim(), config.hiddenDim(),
+                            LOCAL_WORK_GROUP_SIZE_ALLOC)
+//                    .task("wGateUp", TransformerComputeKernelsLayered::matrixVectorGeneric, context,
+//                            state.wrapXb,   state.wrapHb, weights.wUpLayered[layerIndex],  config.dim(), 2 * config.hiddenDim(),  LOCAL_WORK_GROUP_SIZE_ALLOC)
+//                    .task("gateUpSiLU", TransformerComputeKernelsLayered::splitGateUpAndSiLU,
+//                            state.wrapHb, state.wrapHbG, state.wrapHbU, config.hiddenDim())
+//                    .task("wDown", TransformerComputeKernelsLayered::matrixVectorGenericWithResidual, context,
+//                            state.wrapHbU, state.wrapX, weights.wDownLayered[layerIndex], config.hiddenDim(), config.dim(),  LOCAL_WORK_GROUP_SIZE_ALLOC)
                     .persistOnDevice(
                             state.wrapX
                     );
@@ -334,13 +336,7 @@ private GridScheduler setupGridSchedulersLayered() {
         tornadoForwardScheduler.addWorkerGrid("activationUpdate.updateX", singleWorker);
         for (int i = 0; i < config.numberOfLayers(); i++) {
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".qkvmatmul", qkvDimRowMajorGlobalWorker);
-//            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".copyQ", copyQWorker);
-//            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".copyK", copyKWorker);
-//            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".copyV", copyVWorker);
-
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".splitQKV", splitQKVWorker);
-
-
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".rope", ropeWorker);
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".matmul1", configDimRowMajorGlobalWorker);
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".wDown", configDimRowMajorGlobalWorker);
@@ -352,12 +348,8 @@ private GridScheduler setupGridSchedulersLayered() {
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".parallel-attention", parallelAttentionWorker);
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".copyToCaches", copyToCachesWorker);
             // New FFN tasks
-            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".gateUpSiLU", splitGateUpSiLUWorker);
-
-//            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".copyGate", hiddenDimWorker);
-//            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".copyUp", hiddenDimWorker);
-//            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".siluActivation", hiddenDimWorker);
-//            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".gatedMultiply", hiddenDimWorker);
+//            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".gateUpSiLU", splitGateUpSiLUWorker);
+            tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".fusedFFN", configDimRowMajorGlobalWorker);
 
         }
 
diff --git a/src/main/java/com/example/tornadovm/TransformerComputeKernelsLayered.java b/src/main/java/com/example/tornadovm/TransformerComputeKernelsLayered.java
@@ -144,8 +144,7 @@ public static void copyTo(FloatArray src, int srcOffset, FloatArray dest, int de
         }
     }
 
-    public static void splitQKV(FloatArray qkv, FloatArray q, FloatArray k, FloatArray v,
-            int dimQ, int dimKV) {
+    public static void splitQKV(FloatArray qkv, FloatArray q, FloatArray k, FloatArray v, int dimQ, int dimKV) {
         int totalSize = dimQ + 2 * dimKV;
 
         for (@Parallel int i = 0; i < totalSize; i++) {
@@ -949,7 +948,6 @@ public static void reductionFinalNormalization(KernelContext context, FloatArray
         }
     }
 
-
     public static void splitGateUpAndSiLU(FloatArray hb, FloatArray hbG, FloatArray hbU, int hiddenDim) {
         // Copy and apply SiLU to gate in one pass
         for (@Parallel int i = 0; i < hiddenDim; i++) {
@@ -964,4 +962,88 @@ public static void splitGateUpAndSiLU(FloatArray hb, FloatArray hbG, FloatArray
             hbU.set(i, siluGate * upVal);
         }
     }
+
+    public static void fusedGateUpSiLUDownOptimized(KernelContext context,
+            FloatArray input,
+            FloatArray output,
+            HalfFloatArray wUp,
+            HalfFloatArray wDown,
+            int dim,
+            int hiddenDim,
+            int localWorkGroupSize) {
+
+        int rowId = context.groupIdx;
+        int localId = context.localIdx;
+
+        if (rowId >= dim) return;
+
+        // Shared memory for input vector (reused across all hidden computations)
+        float[] sharedInput = context.allocateFloatLocalArray(dim);
+        float[] localSum = context.allocateFloatLocalArray(localWorkGroupSize);
+
+        // Cooperatively load input into shared memory
+        for (int i = localId; i < dim; i += localWorkGroupSize) {
+            sharedInput[i] = input.get(i);
+        }
+        context.localBarrier();
+
+        float accumulator = 0.0f;
+
+        // Each thread processes multiple hidden dimensions
+        for (int h = localId; h < hiddenDim; h += localWorkGroupSize) {
+            // Compute gate and up values using shared input
+            float gateValue = 0.0f;
+            float upValue = 0.0f;
+
+            int gateRowOffset = h * dim;
+            int upRowOffset = (h + hiddenDim) * dim;
+
+            // Unrolled loop for better performance
+            int i = 0;
+            for (; i < dim - 3; i += 4) {
+                float in0 = sharedInput[i];
+                float in1 = sharedInput[i + 1];
+                float in2 = sharedInput[i + 2];
+                float in3 = sharedInput[i + 3];
+
+                gateValue += wUp.get(gateRowOffset + i).getFloat32() * in0;
+                gateValue += wUp.get(gateRowOffset + i + 1).getFloat32() * in1;
+                gateValue += wUp.get(gateRowOffset + i + 2).getFloat32() * in2;
+                gateValue += wUp.get(gateRowOffset + i + 3).getFloat32() * in3;
+
+                upValue += wUp.get(upRowOffset + i).getFloat32() * in0;
+                upValue += wUp.get(upRowOffset + i + 1).getFloat32() * in1;
+                upValue += wUp.get(upRowOffset + i + 2).getFloat32() * in2;
+                upValue += wUp.get(upRowOffset + i + 3).getFloat32() * in3;
+            }
+
+            // Handle remainder
+            for (; i < dim; i++) {
+                float inVal = sharedInput[i];
+                gateValue += wUp.get(gateRowOffset + i).getFloat32() * inVal;
+                upValue += wUp.get(upRowOffset + i).getFloat32() * inVal;
+            }
+
+            // Apply SiLU and multiply
+            float activated = (gateValue / (1.0f + TornadoMath.exp(-gateValue))) * upValue;
+
+            // Apply down projection
+            accumulator += wDown.get(rowId * hiddenDim + h).getFloat32() * activated;
+        }
+
+        // Final reduction and residual add
+        localSum[localId] = accumulator;
+        context.localBarrier();
+
+        for (int stride = localWorkGroupSize / 2; stride > 0; stride >>= 1) {
+            if (localId < stride) {
+                localSum[localId] += localSum[localId + stride];
+            }
+            context.localBarrier();
+        }
+
+        if (localId == 0) {
+            output.set(rowId, output.get(rowId) + localSum[0]);
+        }
+    }
 }