pytorch
diff --git a/‎aten/src/ATen/CMakeLists.txt
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/CMakeLists.txt
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/cpu/vec/functional_base.h
Lines changed: 5 additions & 10 deletions b/‎aten/src/ATen/cpu/vec/functional_base.h
Lines changed: 5 additions & 10 deletions
diff --git a/‎aten/src/ATen/cpu/vec/vec.h
Lines changed: 1 addition & 0 deletions b/‎aten/src/ATen/cpu/vec/vec.h
Lines changed: 1 addition & 0 deletions
diff --git a/‎aten/src/ATen/cpu/vec/vec128/vec128.h
Lines changed: 9 additions & 0 deletions b/‎aten/src/ATen/cpu/vec/vec128/vec128.h
Lines changed: 9 additions & 0 deletions
@@ -54,7 +54,7 @@ if(NOT BUILD_LITE_INTERPRETER)
 endif()
 EXCLUDE(ATen_CORE_SRCS "${ATen_CORE_SRCS}" ${ATen_CORE_TEST_SRCS})
 
-file(GLOB base_h "*.h" "detail/*.h" "cpu/*.h" "cpu/vec/vec512/*.h" "cpu/vec/vec256/*.h" "cpu/vec/vec256/vsx/*.h" "cpu/vec/vec256/zarch/*.h" "cpu/vec/sve/*.h" "cpu/vec/*.h" "quantized/*.h" "functorch/*.h")
+file(GLOB base_h "*.h" "detail/*.h" "cpu/*.h" "cpu/vec/vec512/*.h" "cpu/vec/vec128/*.h" "cpu/vec/vec256/*.h" "cpu/vec/vec256/vsx/*.h" "cpu/vec/vec256/zarch/*.h" "cpu/vec/sve/*.h" "cpu/vec/*.h" "quantized/*.h" "functorch/*.h")
 file(GLOB base_cpp "*.cpp" "detail/*.cpp" "cpu/*.cpp" "functorch/*.cpp")
 file(GLOB cuda_h "cuda/*.h" "cuda/detail/*.h" "cuda/*.cuh" "cuda/detail/*.cuh" "cuda/tunable/*.cuh" "cuda/tunable/*.h")
 file(GLOB cuda_cpp "cuda/*.cpp" "cuda/detail/*.cpp" "cuda/tunable/*.cpp")
 
@@ -85,24 +85,19 @@ struct VecReduceAllSIMD<float, Op> {
     using Vec = Vectorized<float>;
     Vec v = acc_vec;
 
-    // 128-bit shuffle: [a1, a2, a3, a4, a5, a6, a7, a8] -> [a5, a6, a7, a8, a1, a2, a3, a4]
-    Vec v1 = {v.get_high(), v.get_low()};
-    // [a1+a5, a2+a6, a3+a7, a4+a8, -, -, -, -] ('+' stands for the reduction function. Note that the last 4 elements are not required)
-    v = vec_fun(v, v1);
-
     // 64-bit shuffle: [a1+a5, a2+a6, a3+a7, a4+a8, -, -, -, -] -> [a3+a7, a4+a8, a1+a5, a2+a6, -, -, -, -]
-    float32x4_t v1_1 = vextq_f32(v.get_low(), v.get_low(), 2);
-    v1 = {v1_1, v1_1};
+    float32x4_t v1_1 = vextq_f32(v, v, 2);
+    Vec v1 = v1_1;
     // [a1+a3+a5+a7, a2+a4+a6+a8, a1+a3+a5+a7, a2+a4+a6+a8, -, -, -, -]
     v = vec_fun(v, v1);
 
     // 32-bit shuffle: [a1+a3+a5+a7, a2+a4+a6+a8, a1+a3+a5+a7, a2+a4+a6+a8, -, -, -, -] -> [a2+a4+a6+a8, a1+a3+a5+a7, a2+a4+a6+a8, a1+a3+a5+a7, -, -, -, -]
-    v1_1 = vrev64q_f32(v.get_low());
-    v1 = {v1_1, v1_1};
+    v1_1 = vrev64q_f32(v);
+    v1 = v1_1;
     // [a1+a2+a3+a4+a5+a6+a7+a8, a1+a2+a3+a4+a5+a6+a7+a8, a1+a2+a3+a4+a5+a6+a7+a8, a1+a2+a3+a4+a5+a6+a7+a8, -, -, -, -]
     v = vec_fun(v, v1);
 
-    return v.get_low()[0];
+    return v[0];
   }
 };
 #endif // defined(__aarch64__)
 
@@ -3,6 +3,7 @@
 #if defined(CPU_CAPABILITY_AVX512)
 #include <ATen/cpu/vec/vec512/vec512.h>
 #else
+#include <ATen/cpu/vec/vec128/vec128.h>
 #include <ATen/cpu/vec/vec256/vec256.h>
 #endif
 
 
@@ -0,0 +1,9 @@
+#pragma once
+// ARM NEON uses 128-bit vector registers.
+
+#include <ATen/cpu/vec/intrinsics.h>
+
+#if !defined(CPU_CAPABILITY_SVE)
+#include <ATen/cpu/vec/vec128/vec128_float_neon.h>
+#include <ATen/cpu/vec/vec128/vec128_half_neon.h>
+#endif