PaddlePaddle
diff --git a/‎llm/auto_parallel/deepseek-v3/run_pretrain_auto.py
Lines changed: 17 additions & 4 deletions b/‎llm/auto_parallel/deepseek-v3/run_pretrain_auto.py
Lines changed: 17 additions & 4 deletions
diff --git a/‎llm/auto_parallel/gpt-3/run_pretrain_auto.py
Lines changed: 17 additions & 4 deletions b/‎llm/auto_parallel/gpt-3/run_pretrain_auto.py
Lines changed: 17 additions & 4 deletions
diff --git a/‎llm/auto_parallel/llama/run_pretrain_auto.py
Lines changed: 11 additions & 11 deletions b/‎llm/auto_parallel/llama/run_pretrain_auto.py
Lines changed: 11 additions & 11 deletions
diff --git a/‎llm/auto_parallel/qwen/run_pretrain_auto.py
Lines changed: 17 additions & 4 deletions b/‎llm/auto_parallel/qwen/run_pretrain_auto.py
Lines changed: 17 additions & 4 deletions
@@ -460,12 +460,25 @@ def main():
     else:
         model_args, data_args, training_args = parser.parse_args_into_dataclasses()
 
-    if training_args.enable_linear_fused_grad_add:
+    do_enable_linear_fused_grad_add = training_args.enable_linear_fused_grad_add
+    do_enable_mp_async_allreduce = (
+        training_args.enable_auto_parallel
+        and training_args.tensor_parallel_degree > 1
+        and "enable_mp_async_allreduce" in training_args.tensor_parallel_config
+        and not training_args.sequence_parallel
+    )
+    do_enable_sp_async_reduce_scatter = (
+        training_args.enable_auto_parallel
+        and training_args.tensor_parallel_degree > 1
+        and training_args.sequence_parallel
+        and "enable_sp_async_reduce_scatter" in training_args.tensor_parallel_config
+    )
+    if (
+        do_enable_linear_fused_grad_add or do_enable_mp_async_allreduce or do_enable_sp_async_reduce_scatter
+    ) and not training_args.to_static:
         from llm.utils.fused_layers import mock_layers
 
-        mock_layers(
-            mp_async_allreduce=True if "enable_mp_async_allreduce" in training_args.tensor_parallel_config else False
-        )
+        mock_layers(do_enable_linear_fused_grad_add, do_enable_mp_async_allreduce, do_enable_sp_async_reduce_scatter)
 
     if model_args.tokenizer_name_or_path is None:
         model_args.tokenizer_name_or_path = model_args.model_name_or_path
 
@@ -444,12 +444,25 @@ def main():
     else:
         model_args, data_args, training_args = parser.parse_args_into_dataclasses()
 
-    if training_args.enable_linear_fused_grad_add:
+    do_enable_linear_fused_grad_add = training_args.enable_linear_fused_grad_add
+    do_enable_mp_async_allreduce = (
+        training_args.enable_auto_parallel
+        and training_args.tensor_parallel_degree > 1
+        and "enable_mp_async_allreduce" in training_args.tensor_parallel_config
+        and not training_args.sequence_parallel
+    )
+    do_enable_sp_async_reduce_scatter = (
+        training_args.enable_auto_parallel
+        and training_args.tensor_parallel_degree > 1
+        and training_args.sequence_parallel
+        and "enable_sp_async_reduce_scatter" in training_args.tensor_parallel_config
+    )
+    if (
+        do_enable_linear_fused_grad_add or do_enable_mp_async_allreduce or do_enable_sp_async_reduce_scatter
+    ) and not training_args.to_static:
         from llm.utils.fused_layers import mock_layers
 
-        mock_layers(
-            mp_async_allreduce=True if "enable_mp_async_allreduce" in training_args.tensor_parallel_config else False
-        )
+        mock_layers(do_enable_linear_fused_grad_add, do_enable_mp_async_allreduce, do_enable_sp_async_reduce_scatter)
 
     if model_args.tokenizer_name_or_path is None:
         model_args.tokenizer_name_or_path = model_args.model_name_or_path
 
@@ -464,18 +464,25 @@ def main():
     else:
         model_args, data_args, training_args = parser.parse_args_into_dataclasses()
 
+    do_enable_linear_fused_grad_add = training_args.enable_linear_fused_grad_add
+    do_enable_mp_async_allreduce = (
+        training_args.enable_auto_parallel
+        and training_args.tensor_parallel_degree > 1
+        and "enable_mp_async_allreduce" in training_args.tensor_parallel_config
+        and not training_args.sequence_parallel
+    )
     do_enable_sp_async_reduce_scatter = (
         training_args.enable_auto_parallel
         and training_args.tensor_parallel_degree > 1
         and training_args.sequence_parallel
         and "enable_sp_async_reduce_scatter" in training_args.tensor_parallel_config
     )
-    if training_args.enable_linear_fused_grad_add and not do_enable_sp_async_reduce_scatter:
+    if (
+        do_enable_linear_fused_grad_add or do_enable_mp_async_allreduce or do_enable_sp_async_reduce_scatter
+    ) and not training_args.to_static:
         from llm.utils.fused_layers import mock_layers
 
-        mock_layers(
-            mp_async_allreduce=True if "enable_mp_async_allreduce" in training_args.tensor_parallel_config else False
-        )
+        mock_layers(do_enable_linear_fused_grad_add, do_enable_mp_async_allreduce, do_enable_sp_async_reduce_scatter)
 
     if model_args.tokenizer_name_or_path is None:
         model_args.tokenizer_name_or_path = model_args.model_name_or_path
@@ -611,13 +618,6 @@ def fn(layer):
 
         model.apply(fn)
 
-    if do_enable_sp_async_reduce_scatter:
-        from llm.utils.sp_async_reduce_scatter import (
-            mock_layers_sp_async_reduce_scatter,
-        )
-
-        mock_layers_sp_async_reduce_scatter(model)
-
     # Create the learning_rate scheduler and optimizer
     if training_args.decay_steps is None:
         training_args.decay_steps = training_args.max_steps
 
@@ -433,12 +433,25 @@ def main():
     else:
         model_args, data_args, training_args = parser.parse_args_into_dataclasses()
 
-    if training_args.enable_linear_fused_grad_add:
+    do_enable_linear_fused_grad_add = training_args.enable_linear_fused_grad_add
+    do_enable_mp_async_allreduce = (
+        training_args.enable_auto_parallel
+        and training_args.tensor_parallel_degree > 1
+        and "enable_mp_async_allreduce" in training_args.tensor_parallel_config
+        and not training_args.sequence_parallel
+    )
+    do_enable_sp_async_reduce_scatter = (
+        training_args.enable_auto_parallel
+        and training_args.tensor_parallel_degree > 1
+        and training_args.sequence_parallel
+        and "enable_sp_async_reduce_scatter" in training_args.tensor_parallel_config
+    )
+    if (
+        do_enable_linear_fused_grad_add or do_enable_mp_async_allreduce or do_enable_sp_async_reduce_scatter
+    ) and not training_args.to_static:
         from llm.utils.fused_layers import mock_layers
 
-        mock_layers(
-            mp_async_allreduce=True if "enable_mp_async_allreduce" in training_args.tensor_parallel_config else False
-        )
+        mock_layers(do_enable_linear_fused_grad_add, do_enable_mp_async_allreduce, do_enable_sp_async_reduce_scatter)
 
     if model_args.tokenizer_name_or_path is None:
         model_args.tokenizer_name_or_path = model_args.model_name_or_path