pytorch
diff --git a/‎test/distributed/tensor/test_redistribute.py
Lines changed: 66 additions & 0 deletions b/‎test/distributed/tensor/test_redistribute.py
Lines changed: 66 additions & 0 deletions
diff --git a/‎torch/distributed/tensor/_api.py
Lines changed: 13 additions & 4 deletions b/‎torch/distributed/tensor/_api.py
Lines changed: 13 additions & 4 deletions
diff --git a/‎torch/distributed/tensor/_dtensor_spec.py
Lines changed: 8 additions & 1 deletion b/‎torch/distributed/tensor/_dtensor_spec.py
Lines changed: 8 additions & 1 deletion
@@ -695,5 +695,71 @@ def test_redistribute_shard_dim_multi_dim_mesh(self):
             self.assertEqual(local_out_dt, local_expected_dt)
 
 
+class DeviceOrderRedistributeTest(DTensorTestBase):
+    @property
+    def world_size(self) -> int:
+        return 8
+
+    @with_comms
+    def test_redistribute_mesh_dim_reorder(self):
+        mesh = init_device_mesh(self.device_type, (2, 2, 2))
+        input_data = torch.randn((8, 8, 8), device=self.device_type)
+        sharding_src_dst_pairs_with_order = [
+            # after reodering: S(0)S(0)S(0) -> RS(0)S(0) (S(0) to mesh axis
+            # I_{0,1,2}->I_{1,2}). 2: S0->R, 1: S0->R, 0: S0->R, 1: R->S0, 2:
+            # R->S0
+            (
+                ([Shard(0), Shard(0), Shard(0)], [0, 1, 2]),
+                ([Replicate(), Shard(0), Shard(0)], [0, 1, 2]),
+            ),
+            # same as above, device order will be default to [0,1,2] if not
+            # specified
+            (
+                ([Shard(0), Shard(0), Shard(0)], None),
+                ([Replicate(), Shard(0), Shard(0)], None),
+            ),
+            # after reodering: S(0)S(0)S(0) -> RS(0)S(0) (S(0) to mesh axis
+            # I_{1,0,2}->I_{1,2}). 2: S0->R, 0: S0->R, 2: R->S0
+            (
+                ([Shard(0), Shard(0), Shard(0)], [1, 0, 2]),
+                ([Replicate(), Shard(0), Shard(0)], [0, 1, 2]),
+            ),
+            # after reodering: S(0)S(0)S(0) -> S(0)S(0)R (S(0) to mesh axis
+            # I_{0,1,2}->I_{0,1}). 2: S0->R
+            (
+                ([Shard(0), Shard(0), Shard(0)], [0, 1, 2]),
+                ([Replicate(), Shard(0), Shard(0)], [2, 0, 1]),
+            ),
+            # after reodering: RS(0)S(0) -> RS(1)S(0). (S(0) to mesh axis
+            # I_{1,2}->I_{2}) 2: S0->R, 1: S0->R, 2: R->S0, 1: R->S1
+            # TODO: this can be optimized to replace one allreduce to alltoall.
+            (
+                ([Replicate(), Shard(0), Shard(0)], [0, 1, 2]),
+                ([Shard(1), Shard(0), Replicate()], [1, 2, 0]),
+            ),
+        ]
+        excepted_comm_counts = [3, 3, 2, 1, 2]
+        comm_mode = CommDebugMode()
+        for idx, ((src_placement, src_order), (dst_placement, dst_order)) in enumerate(
+            sharding_src_dst_pairs_with_order
+        ):
+            sharded_dt = distribute_tensor(
+                input_data, mesh, src_placement, device_order=src_order
+            )
+            expected_dt = distribute_tensor(
+                input_data.clone(), mesh, dst_placement, device_order=dst_order
+            )
+            with comm_mode:
+                out_dt = sharded_dt.redistribute(
+                    mesh, dst_placement, device_order=dst_order
+                )
+                self.assertEqual(
+                    comm_mode.get_total_counts(), excepted_comm_counts[idx]
+                )
+                local_out_dt = out_dt.to_local()
+                local_expected_dt = expected_dt.to_local()
+                self.assertEqual(local_out_dt, local_expected_dt)
+
+
 if __name__ == "__main__":
     run_tests()
@@ -487,6 +487,7 @@ def redistribute(
         self,
         device_mesh: Optional[DeviceMesh] = None,
         placements: Optional[Sequence[Placement]] = None,
+        device_order: Optional[Sequence[int]] = None,
         *,
         async_op: bool = False,
         forward_dtype: Optional[torch.dtype] = None,
@@ -562,7 +563,13 @@ def redistribute(
 
         # pyre-fixme[16]: `Redistribute` has no attribute `apply`.
         return Redistribute.apply(
-            self, device_mesh, placements, async_op, forward_dtype, backward_dtype
+            self,
+            device_mesh,
+            placements,
+            device_order,
+            async_op,
+            forward_dtype,
+            backward_dtype,
         )
 
     def full_tensor(
@@ -662,6 +669,7 @@ def distribute_tensor(
     tensor: torch.Tensor,
     device_mesh: Optional[DeviceMesh] = None,
     placements: Optional[Sequence[Placement]] = None,
+    device_order: Optional[Sequence[int]] = None,
     *,
     src_data_rank: Optional[int] = 0,
 ) -> DTensor:
@@ -761,10 +769,10 @@ def distribute_tensor(
 
     local_tensor = tensor.detach()
 
-    # TODO(xilun): address sharding order
-    # distribute the tensor according to the placements.
     placements = list(placements)
-    for idx, placement in enumerate(placements):
+    device_order = device_order or list(range(device_mesh.ndim))
+    assert len(device_order) == device_mesh.ndim
+    for idx, placement in zip(device_order, placements):
         if placement.is_shard():
             placement = cast(Shard, placement)
             if placement.dim < 0:
@@ -791,6 +799,7 @@ def distribute_tensor(
     spec = DTensorSpec(
         mesh=device_mesh,
         placements=placements,
+        device_order=tuple(device_order),
         tensor_meta=TensorMeta(
             shape=tensor.size(),
             stride=tensor.stride(),
 
@@ -25,13 +25,18 @@ class TensorMeta(NamedTuple):
 class DTensorSpec:
     mesh: DeviceMesh
     placements: tuple[Placement, ...]
-
     # tensor meta will only be set during sharding propagation
     tensor_meta: Optional[TensorMeta] = None
+    # device order is used to specify the order of the device mesh, range(0, mesh.ndim)
+    device_order: Optional[tuple[int, ...]] = None
 
     def __post_init__(self) -> None:
         if not isinstance(self.placements, tuple):
             self.placements = tuple(self.placements)
+        if not self.device_order:
+            self.device_order = tuple(range(self.mesh.ndim))
+        if not isinstance(self.device_order, tuple):
+            self.device_order = tuple(self.device_order)
         self._hash: Optional[int] = None
 
     def __setattr__(self, attr: str, value: Any) -> None:
@@ -55,6 +60,7 @@ def _hash_impl(self) -> int:
                     self.tensor_meta.shape,
                     self.tensor_meta.stride,
                     self.tensor_meta.dtype,
+                    self.device_order,
                 )
             )
         return hash((self.mesh, self.placements))
@@ -82,6 +88,7 @@ def __eq__(self, other: object, /) -> bool:
             self.tensor_meta.shape == other.tensor_meta.shape  # type: ignore[union-attr]
             and self.tensor_meta.stride == other.tensor_meta.stride  # type: ignore[union-attr]
             and self.tensor_meta.dtype == other.tensor_meta.dtype  # type: ignore[union-attr]
+            and self.device_order == other.device_order  # type: ignore[union-attr]
         )
 
     def __str__(self) -> str: