google · copybara-service · Nov 6, 2024 · Nov 6, 2024
diff --git a/src/x32-packw/gen/x32-packw-x16-gemm-gio-avx-prfm.c b/src/x32-packw/gen/x32-packw-x16-gemm-gio-avx-prfm.c
@@ -7,7 +7,6 @@
 // This source code is licensed under the BSD-style license found in the
 // LICENSE file in the root directory of this source tree.
 
-
 #include <assert.h>
 #include <stddef.h>
 #include <stdint.h>
@@ -45,13 +44,6 @@ void xnn_x32_packw_gemm_gio_ukernel_x16__avx_prfm(
   assert(packed_weights != NULL);
 
   const __m256 vzero = _mm256_setzero_ps();
-  static const int32_t mask_table[32] = {
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    0, 0, 0, 0, 0, 0, 0, 0,
-    0, 0, 0, 0, 0, 0, 0, 0,
-  };
-
   const float* b = (const float*) bias;
   float* packed_w = (float*) packed_weights;
   do {
@@ -72,9 +64,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x16__avx_prfm(
       }
       packed_w += 16;
 
-      // KC main loop
-      // todo: KBLOCK rows at a time
-      for (size_t k = kc; k > 0; --k) {
+      size_t k = kc;
+      // KC remainder loop
+      for (; k > 0; --k) {
         const __m256 v0 = _mm256_loadu_ps(w + 0);
         const __m256 v8 = _mm256_loadu_ps(w + 8);
         xnn_prefetch_to_l1((const int8_t*) w + 960);
@@ -90,14 +82,11 @@ void xnn_x32_packw_gemm_gio_ukernel_x16__avx_prfm(
     if XNN_UNLIKELY(n != 0) {
       assert(n >= 1);
       assert(n <= 15);
-      const __m256i vmask0 = _mm256_loadu_si256((const __m256i*) &mask_table[16 - n]);
-      const __m256i vmask8 = _mm256_loadu_si256((const __m256i*) &mask_table[16 - n]);
 
       if XNN_LIKELY(b != NULL) {
-        const __m256 vb0 = _mm256_maskload_ps(b + 0, vmask0);
-        const __m256 vb8 = _mm256_maskload_ps(b + 8, vmask8);
-        _mm256_store_ps(packed_w + 0, vb0);
-        _mm256_store_ps(packed_w + 8, vb8);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = b[i];
+        }
         b += n;
       } else {
         _mm256_store_ps(packed_w + 0, vzero);
@@ -107,10 +96,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x16__avx_prfm(
 
       // KC main loop
       for (size_t k = kc; k > 0; --k) {
-        const __m256 v0 = _mm256_maskload_ps(w + 0, vmask0);
-        const __m256 v8 = _mm256_maskload_ps(w + 8, vmask8);
-        _mm256_store_ps(packed_w + 0, v0);
-        _mm256_store_ps(packed_w + 8, v8);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = w[i];
+        }
         w += k_stride;
         packed_w += 16;
       }

diff --git a/src/x32-packw/gen/x32-packw-x16-gemm-gio-avx.c b/src/x32-packw/gen/x32-packw-x16-gemm-gio-avx.c
@@ -7,7 +7,6 @@
 // This source code is licensed under the BSD-style license found in the
 // LICENSE file in the root directory of this source tree.
 
-
 #include <assert.h>
 #include <stddef.h>
 #include <stdint.h>
@@ -44,13 +43,6 @@ void xnn_x32_packw_gemm_gio_ukernel_x16__avx(
   assert(packed_weights != NULL);
 
   const __m256 vzero = _mm256_setzero_ps();
-  static const int32_t mask_table[32] = {
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    0, 0, 0, 0, 0, 0, 0, 0,
-    0, 0, 0, 0, 0, 0, 0, 0,
-  };
-
   const float* b = (const float*) bias;
   float* packed_w = (float*) packed_weights;
   do {
@@ -71,9 +63,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x16__avx(
       }
       packed_w += 16;
 
-      // KC main loop
-      // todo: KBLOCK rows at a time
-      for (size_t k = kc; k > 0; --k) {
+      size_t k = kc;
+      // KC remainder loop
+      for (; k > 0; --k) {
         const __m256 v0 = _mm256_loadu_ps(w + 0);
         const __m256 v8 = _mm256_loadu_ps(w + 8);
         _mm256_store_ps(packed_w + 0, v0);
@@ -88,14 +80,11 @@ void xnn_x32_packw_gemm_gio_ukernel_x16__avx(
     if XNN_UNLIKELY(n != 0) {
       assert(n >= 1);
       assert(n <= 15);
-      const __m256i vmask0 = _mm256_loadu_si256((const __m256i*) &mask_table[16 - n]);
-      const __m256i vmask8 = _mm256_loadu_si256((const __m256i*) &mask_table[16 - n]);
 
       if XNN_LIKELY(b != NULL) {
-        const __m256 vb0 = _mm256_maskload_ps(b + 0, vmask0);
-        const __m256 vb8 = _mm256_maskload_ps(b + 8, vmask8);
-        _mm256_store_ps(packed_w + 0, vb0);
-        _mm256_store_ps(packed_w + 8, vb8);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = b[i];
+        }
         b += n;
       } else {
         _mm256_store_ps(packed_w + 0, vzero);
@@ -105,10 +94,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x16__avx(
 
       // KC main loop
       for (size_t k = kc; k > 0; --k) {
-        const __m256 v0 = _mm256_maskload_ps(w + 0, vmask0);
-        const __m256 v8 = _mm256_maskload_ps(w + 8, vmask8);
-        _mm256_store_ps(packed_w + 0, v0);
-        _mm256_store_ps(packed_w + 8, v8);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = w[i];
+        }
         w += k_stride;
         packed_w += 16;
       }

diff --git a/src/x32-packw/gen/x32-packw-x32-gemm-gio-avx-prfm.c b/src/x32-packw/gen/x32-packw-x32-gemm-gio-avx-prfm.c
@@ -7,7 +7,6 @@
 // This source code is licensed under the BSD-style license found in the
 // LICENSE file in the root directory of this source tree.
 
-
 #include <assert.h>
 #include <stddef.h>
 #include <stdint.h>
@@ -45,17 +44,6 @@ void xnn_x32_packw_gemm_gio_ukernel_x32__avx_prfm(
   assert(packed_weights != NULL);
 
   const __m256 vzero = _mm256_setzero_ps();
-  static const int32_t mask_table[64] = {
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    0, 0, 0, 0, 0, 0, 0, 0,
-    0, 0, 0, 0, 0, 0, 0, 0,
-    0, 0, 0, 0, 0, 0, 0, 0,
-    0, 0, 0, 0, 0, 0, 0, 0,
-  };
-
   const float* b = (const float*) bias;
   float* packed_w = (float*) packed_weights;
   do {
@@ -82,9 +70,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x32__avx_prfm(
       }
       packed_w += 32;
 
-      // KC main loop
-      // todo: KBLOCK rows at a time
-      for (size_t k = kc; k > 0; --k) {
+      size_t k = kc;
+      // KC remainder loop
+      for (; k > 0; --k) {
         const __m256 v0 = _mm256_loadu_ps(w + 0);
         const __m256 v8 = _mm256_loadu_ps(w + 8);
         const __m256 v16 = _mm256_loadu_ps(w + 16);
@@ -105,20 +93,11 @@ void xnn_x32_packw_gemm_gio_ukernel_x32__avx_prfm(
     if XNN_UNLIKELY(n != 0) {
       assert(n >= 1);
       assert(n <= 31);
-      const __m256i vmask0 = _mm256_loadu_si256((const __m256i*) &mask_table[32 - n]);
-      const __m256i vmask8 = _mm256_loadu_si256((const __m256i*) &mask_table[32 - n]);
-      const __m256i vmask16 = _mm256_loadu_si256((const __m256i*) &mask_table[32 - n]);
-      const __m256i vmask24 = _mm256_loadu_si256((const __m256i*) &mask_table[32 - n]);
 
       if XNN_LIKELY(b != NULL) {
-        const __m256 vb0 = _mm256_maskload_ps(b + 0, vmask0);
-        const __m256 vb8 = _mm256_maskload_ps(b + 8, vmask8);
-        const __m256 vb16 = _mm256_maskload_ps(b + 16, vmask16);
-        const __m256 vb24 = _mm256_maskload_ps(b + 24, vmask24);
-        _mm256_store_ps(packed_w + 0, vb0);
-        _mm256_store_ps(packed_w + 8, vb8);
-        _mm256_store_ps(packed_w + 16, vb16);
-        _mm256_store_ps(packed_w + 24, vb24);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = b[i];
+        }
         b += n;
       } else {
         _mm256_store_ps(packed_w + 0, vzero);
@@ -130,14 +109,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x32__avx_prfm(
 
       // KC main loop
       for (size_t k = kc; k > 0; --k) {
-        const __m256 v0 = _mm256_maskload_ps(w + 0, vmask0);
-        const __m256 v8 = _mm256_maskload_ps(w + 8, vmask8);
-        const __m256 v16 = _mm256_maskload_ps(w + 16, vmask16);
-        const __m256 v24 = _mm256_maskload_ps(w + 24, vmask24);
-        _mm256_store_ps(packed_w + 0, v0);
-        _mm256_store_ps(packed_w + 8, v8);
-        _mm256_store_ps(packed_w + 16, v16);
-        _mm256_store_ps(packed_w + 24, v24);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = w[i];
+        }
         w += k_stride;
         packed_w += 32;
       }

diff --git a/src/x32-packw/gen/x32-packw-x32-gemm-gio-avx.c b/src/x32-packw/gen/x32-packw-x32-gemm-gio-avx.c
@@ -7,7 +7,6 @@
 // This source code is licensed under the BSD-style license found in the
 // LICENSE file in the root directory of this source tree.
 
-
 #include <assert.h>
 #include <stddef.h>
 #include <stdint.h>
@@ -44,17 +43,6 @@ void xnn_x32_packw_gemm_gio_ukernel_x32__avx(
   assert(packed_weights != NULL);
 
   const __m256 vzero = _mm256_setzero_ps();
-  static const int32_t mask_table[64] = {
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    0, 0, 0, 0, 0, 0, 0, 0,
-    0, 0, 0, 0, 0, 0, 0, 0,
-    0, 0, 0, 0, 0, 0, 0, 0,
-    0, 0, 0, 0, 0, 0, 0, 0,
-  };
-
   const float* b = (const float*) bias;
   float* packed_w = (float*) packed_weights;
   do {
@@ -81,9 +69,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x32__avx(
       }
       packed_w += 32;
 
-      // KC main loop
-      // todo: KBLOCK rows at a time
-      for (size_t k = kc; k > 0; --k) {
+      size_t k = kc;
+      // KC remainder loop
+      for (; k > 0; --k) {
         const __m256 v0 = _mm256_loadu_ps(w + 0);
         const __m256 v8 = _mm256_loadu_ps(w + 8);
         const __m256 v16 = _mm256_loadu_ps(w + 16);
@@ -102,20 +90,11 @@ void xnn_x32_packw_gemm_gio_ukernel_x32__avx(
     if XNN_UNLIKELY(n != 0) {
       assert(n >= 1);
       assert(n <= 31);
-      const __m256i vmask0 = _mm256_loadu_si256((const __m256i*) &mask_table[32 - n]);
-      const __m256i vmask8 = _mm256_loadu_si256((const __m256i*) &mask_table[32 - n]);
-      const __m256i vmask16 = _mm256_loadu_si256((const __m256i*) &mask_table[32 - n]);
-      const __m256i vmask24 = _mm256_loadu_si256((const __m256i*) &mask_table[32 - n]);
 
       if XNN_LIKELY(b != NULL) {
-        const __m256 vb0 = _mm256_maskload_ps(b + 0, vmask0);
-        const __m256 vb8 = _mm256_maskload_ps(b + 8, vmask8);
-        const __m256 vb16 = _mm256_maskload_ps(b + 16, vmask16);
-        const __m256 vb24 = _mm256_maskload_ps(b + 24, vmask24);
-        _mm256_store_ps(packed_w + 0, vb0);
-        _mm256_store_ps(packed_w + 8, vb8);
-        _mm256_store_ps(packed_w + 16, vb16);
-        _mm256_store_ps(packed_w + 24, vb24);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = b[i];
+        }
         b += n;
       } else {
         _mm256_store_ps(packed_w + 0, vzero);
@@ -127,14 +106,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x32__avx(
 
       // KC main loop
       for (size_t k = kc; k > 0; --k) {
-        const __m256 v0 = _mm256_maskload_ps(w + 0, vmask0);
-        const __m256 v8 = _mm256_maskload_ps(w + 8, vmask8);
-        const __m256 v16 = _mm256_maskload_ps(w + 16, vmask16);
-        const __m256 v24 = _mm256_maskload_ps(w + 24, vmask24);
-        _mm256_store_ps(packed_w + 0, v0);
-        _mm256_store_ps(packed_w + 8, v8);
-        _mm256_store_ps(packed_w + 16, v16);
-        _mm256_store_ps(packed_w + 24, v24);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = w[i];
+        }
         w += k_stride;
         packed_w += 32;
       }

diff --git a/src/x32-packw/gen/x32-packw-x8-gemm-gio-avx-prfm.c b/src/x32-packw/gen/x32-packw-x8-gemm-gio-avx-prfm.c
@@ -7,7 +7,6 @@
 // This source code is licensed under the BSD-style license found in the
 // LICENSE file in the root directory of this source tree.
 
-
 #include <assert.h>
 #include <stddef.h>
 #include <stdint.h>
@@ -45,11 +44,6 @@ void xnn_x32_packw_gemm_gio_ukernel_x8__avx_prfm(
   assert(packed_weights != NULL);
 
   const __m256 vzero = _mm256_setzero_ps();
-  static const int32_t mask_table[16] = {
-    -1, -1, -1, -1, -1, -1, -1, -1,
-    0, 0, 0, 0, 0, 0, 0, 0,
-  };
-
   const float* b = (const float*) bias;
   float* packed_w = (float*) packed_weights;
   do {
@@ -67,9 +61,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x8__avx_prfm(
       }
       packed_w += 8;
 
-      // KC main loop
-      // todo: KBLOCK rows at a time
-      for (size_t k = kc; k > 0; --k) {
+      size_t k = kc;
+      // KC remainder loop
+      for (; k > 0; --k) {
         const __m256 v0 = _mm256_loadu_ps(w + 0);
         xnn_prefetch_to_l1((const int8_t*) w + 960);
         _mm256_store_ps(packed_w + 0, v0);
@@ -83,11 +77,11 @@ void xnn_x32_packw_gemm_gio_ukernel_x8__avx_prfm(
     if XNN_UNLIKELY(n != 0) {
       assert(n >= 1);
       assert(n <= 7);
-      const __m256i vmask0 = _mm256_loadu_si256((const __m256i*) &mask_table[8 - n]);
 
       if XNN_LIKELY(b != NULL) {
-        const __m256 vb0 = _mm256_maskload_ps(b + 0, vmask0);
-        _mm256_store_ps(packed_w + 0, vb0);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = b[i];
+        }
         b += n;
       } else {
         _mm256_store_ps(packed_w + 0, vzero);
@@ -96,8 +90,9 @@ void xnn_x32_packw_gemm_gio_ukernel_x8__avx_prfm(
 
       // KC main loop
       for (size_t k = kc; k > 0; --k) {
-        const __m256 v0 = _mm256_maskload_ps(w + 0, vmask0);
-        _mm256_store_ps(packed_w + 0, v0);
+        for (size_t i = 0; i < n; ++i) {
+          packed_w[i] = w[i];
+        }
         w += k_stride;
         packed_w += 8;
       }