fix - fix cuda11 compile

alibaba · Apr 21, 2024 · d10c98c · d10c98c
1 parent fb42763
commit d10c98c
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/src/fastertransformer/kernels/quantization_tensor.cu b/src/fastertransformer/kernels/quantization_tensor.cu
@@ -95,7 +95,7 @@ __global__ void perTokenQuantization(
     T localMax = 1e-6f;
     for (int i = threadIdx.x; i < numCols; i += blockDim.x)
     {
-        localMax = cuda_max(localMax, cuda_abs((srcRow[i])/ cuda_cast<T>(smoother[i])));
+        localMax = cuda_max(localMax, cuda_abs(cuda_cast<T>((srcRow[i])/ cuda_cast<T>(smoother[i]))));
     }
     const float rowMax = blockAllReduceMax(cuda_cast<float>(localMax));