Add support to cuDNN Dependency module to load verion 8 when available

9prady9 · 9prady9 · commit 7e5df44b48d0 · 2020-07-06T08:25:38.000+05:30
diff --git a/CMakeModules/FindcuDNN.cmake b/CMakeModules/FindcuDNN.cmake
@@ -54,8 +54,8 @@ find_package(CUDA QUIET)
 find_path(cuDNN_INCLUDE_DIRS
   NAMES cudnn.h
   HINTS
-    ${PC_CUDNN_INCLUDE_DIRS}
     ${cuDNN_ROOT_DIR}
+    ${PC_CUDNN_INCLUDE_DIRS}
     ${CUDA_TOOLKIT_INCLUDE}
   PATH_SUFFIXES include
   DOC "cuDNN include directory path." )
@@ -64,6 +64,12 @@ if(cuDNN_INCLUDE_DIRS)
   file(READ ${cuDNN_INCLUDE_DIRS}/cudnn.h CUDNN_VERSION_FILE_CONTENTS)
   string(REGEX MATCH "define CUDNN_MAJOR * +([0-9]+)"
     CUDNN_MAJOR_VERSION "${CUDNN_VERSION_FILE_CONTENTS}")
+  list(LENGTH CUDNN_MAJOR_VERSION cudnn_ver_matches)
+  if(${cudnn_ver_matches} EQUAL 0)
+    file(READ ${cuDNN_INCLUDE_DIRS}/cudnn_version.h CUDNN_VERSION_FILE_CONTENTS)
+    string(REGEX MATCH "define CUDNN_MAJOR * +([0-9]+)"
+      CUDNN_MAJOR_VERSION "${CUDNN_VERSION_FILE_CONTENTS}")
+  endif()
   string(REGEX REPLACE "define CUDNN_MAJOR * +([0-9]+)" "\\1"
       CUDNN_MAJOR_VERSION "${CUDNN_MAJOR_VERSION}")
   string(REGEX MATCH "define CUDNN_MINOR * +([0-9]+)"
@@ -94,10 +100,10 @@ if(cuDNN_INCLUDE_DIRS)
       libcudnn.${cudnn_ver_suffix}.dylib
       cudnn
     PATHS
-      $ENV{LD_LIBRARY_PATH}
-      ${libpath_cudart}
       ${cuDNN_ROOT_DIR}
       ${PC_CUDNN_LIBRARY_DIRS}
+      $ENV{LD_LIBRARY_PATH}
+      ${libpath_cudart}
       ${CMAKE_INSTALL_PREFIX}
     PATH_SUFFIXES lib lib64 bin lib/x64 bin/x64
     DOC "cuDNN link library." )
@@ -106,10 +112,10 @@ if(cuDNN_INCLUDE_DIRS)
     find_file(cuDNN_DLL_LIBRARY
     NAMES cudnn64_${cudnn_ver_suffix}${CMAKE_SHARED_LIBRARY_SUFFIX}
     PATHS
-      $ENV{PATH}
-      ${libpath_cudart}
       ${cuDNN_ROOT_DIR}
       ${PC_CUDNN_LIBRARY_DIRS}
+      $ENV{PATH}
+      ${libpath_cudart}
       ${CMAKE_INSTALL_PREFIX}
     PATH_SUFFIXES lib lib64 bin lib/x64 bin/x64
     DOC "cuDNN Windows DLL." )
diff --git a/src/backend/cuda/convolveNN.cpp b/src/backend/cuda/convolveNN.cpp
@@ -28,13 +28,15 @@
 #include <af/dim4.hpp>
 
 #include <type_traits>
+#include <vector>
 
 using af::dim4;
 using common::flip;
 using common::half;
 using common::make_handle;
 using std::conditional;
 using std::is_same;
+using std::vector;
 
 namespace cuda {
 
@@ -88,19 +90,40 @@ Array<T> convolve2_cudnn(const Array<T> &signal, const Array<T> &filter,
     auto output_descriptor = toCudnn<cudnnTensorDescriptor_t>(out);
 
     // get convolution algorithm
-    const int memory_limit =
-        0;  // TODO: set to remaining space in memory manager?
     cudnnConvolutionFwdAlgo_t convolution_algorithm;
-    CUDNN_CHECK(cuda::cudnnGetConvolutionForwardAlgorithm(
-        cudnn, input_descriptor, filter_descriptor, convolution_descriptor,
-        output_descriptor, CUDNN_CONVOLUTION_FWD_PREFER_FASTEST, memory_limit,
-        &convolution_algorithm));
-
-    // figure out scratch space memory requirements
-    size_t workspace_bytes;
-    CUDNN_CHECK(cuda::cudnnGetConvolutionForwardWorkspaceSize(
-        cudnn, input_descriptor, filter_descriptor, convolution_descriptor,
-        output_descriptor, convolution_algorithm, &workspace_bytes));
+    size_t workspace_bytes = 0;
+
+    auto version = getCudnnPlugin().getVersion();
+    if (std::get<0>(version) >= 8) {
+        int maxAlgoCount = 0;
+        CUDNN_CHECK(cuda::cudnnGetConvolutionForwardAlgorithmMaxCount(
+            cudnn, &maxAlgoCount));
+
+        vector<cudnnConvolutionFwdAlgoPerf_t> perfResults(maxAlgoCount);
+        int returnAlgoCount = 0;
+        CUDNN_CHECK(cuda::cudnnFindConvolutionForwardAlgorithm(
+            cudnn, input_descriptor, filter_descriptor, convolution_descriptor,
+            output_descriptor, maxAlgoCount, &returnAlgoCount,
+            perfResults.data()));
+
+        for (int i = 0; i < returnAlgoCount; ++i) {
+            if (perfResults[i].status == CUDNN_STATUS_SUCCESS) {
+                convolution_algorithm = perfResults[i].algo;
+                workspace_bytes       = perfResults[i].memory;
+                break;
+            }
+        }
+    } else {
+        const int memory_limit =
+            0;  // TODO: set to remaining space in memory manager?
+        CUDNN_CHECK(cuda::cudnnGetConvolutionForwardAlgorithm(
+            cudnn, input_descriptor, filter_descriptor, convolution_descriptor,
+            output_descriptor, CUDNN_CONVOLUTION_FWD_PREFER_FASTEST,
+            memory_limit, &convolution_algorithm));
+        CUDNN_CHECK(cuda::cudnnGetConvolutionForwardWorkspaceSize(
+            cudnn, input_descriptor, filter_descriptor, convolution_descriptor,
+            output_descriptor, convolution_algorithm, &workspace_bytes));
+    }
 
     auto workspace_buffer = memAlloc<char>(workspace_bytes);
 
@@ -384,19 +407,40 @@ Array<T> filter_gradient_cudnn(const Array<T> &incoming_gradient,
 
     // determine algorithm to use
     cudnnConvolutionBwdFilterAlgo_t bwd_filt_convolution_algorithm;
-    CUDNN_CHECK(cuda::cudnnGetConvolutionBackwardFilterAlgorithm(
-        cudnn, x_descriptor, dy_descriptor, convolution_descriptor,
-        dw_descriptor, CUDNN_CONVOLUTION_BWD_FILTER_PREFER_FASTEST, 0,
-        &bwd_filt_convolution_algorithm));
-
     // figure out scratch space memory requirements
-    size_t workspace_bytes;
-    CUDNN_CHECK(cuda::cudnnGetConvolutionBackwardFilterWorkspaceSize(
-        cudnn, x_descriptor, dy_descriptor, convolution_descriptor,
-        dw_descriptor, bwd_filt_convolution_algorithm, &workspace_bytes));
-    // prepare output array and scratch space
-    Array<T> out = createEmptyArray<T>(fDims);
+    size_t workspace_bytes = 0;
+
+    auto version = getCudnnPlugin().getVersion();
+    if (std::get<0>(version) >= 8) {
+        int maxAlgoCount = 0;
+        CUDNN_CHECK(cuda::cudnnGetConvolutionBackwardFilterAlgorithmMaxCount(
+            cudnn, &maxAlgoCount));
+
+        vector<cudnnConvolutionBwdFilterAlgoPerf_t> perfResults(maxAlgoCount);
+        int returnAlgoCount = 0;
+        CUDNN_CHECK(cuda::cudnnFindConvolutionBackwardFilterAlgorithm(
+            cudnn, x_descriptor, dy_descriptor, convolution_descriptor,
+            dw_descriptor, maxAlgoCount, &returnAlgoCount, perfResults.data()));
+
+        for (int i = 0; i < returnAlgoCount; ++i) {
+            if (perfResults[i].status == CUDNN_STATUS_SUCCESS) {
+                bwd_filt_convolution_algorithm = perfResults[i].algo;
+                workspace_bytes                = perfResults[i].memory;
+                break;
+            }
+        }
+    } else {
+        CUDNN_CHECK(cuda::cudnnGetConvolutionBackwardFilterAlgorithm(
+            cudnn, x_descriptor, dy_descriptor, convolution_descriptor,
+            dw_descriptor, CUDNN_CONVOLUTION_BWD_FILTER_PREFER_FASTEST, 0,
+            &bwd_filt_convolution_algorithm));
+        CUDNN_CHECK(cuda::cudnnGetConvolutionBackwardFilterWorkspaceSize(
+            cudnn, x_descriptor, dy_descriptor, convolution_descriptor,
+            dw_descriptor, bwd_filt_convolution_algorithm, &workspace_bytes));
+    }
 
+    // prepare output array and scratch space
+    Array<T> out          = createEmptyArray<T>(fDims);
     auto workspace_buffer = memAlloc<char>(workspace_bytes);
 
     // perform convolution
diff --git a/src/backend/cuda/cudnn.cpp b/src/backend/cuda/cudnn.cpp
@@ -171,16 +171,16 @@ cudnnStatus_t cudnnGetConvolutionNdForwardOutputDim(
         convDesc, inputTensorDesc, filterDesc, nbDims, tensorOuputDimA);
 }
 
-cudnnStatus_t cudnnGetConvolutionForwardAlgorithm(
-    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
-    const cudnnFilterDescriptor_t wDesc,
-    const cudnnConvolutionDescriptor_t convDesc,
-    const cudnnTensorDescriptor_t yDesc,
-    cudnnConvolutionFwdPreference_t preference, size_t memoryLimitInBytes,
-    cudnnConvolutionFwdAlgo_t *algo) {
-    return getCudnnPlugin().cudnnGetConvolutionForwardAlgorithm(
-        handle, xDesc, wDesc, convDesc, yDesc, preference, memoryLimitInBytes,
-        algo);
+cudnnStatus_t cudnnGetConvolutionForwardAlgorithmMaxCount(cudnnHandle_t handle,
+                                                          int *count) {
+    return getCudnnPlugin().cudnnGetConvolutionForwardAlgorithmMaxCount(handle,
+                                                                        count);
+}
+
+cudnnStatus_t cudnnGetConvolutionBackwardFilterAlgorithmMaxCount(
+    cudnnHandle_t handle, int *count) {
+    return getCudnnPlugin().cudnnGetConvolutionBackwardFilterAlgorithmMaxCount(
+        handle, count);
 }
 
 cudnnStatus_t cudnnGetConvolutionForwardWorkspaceSize(
@@ -193,16 +193,57 @@ cudnnStatus_t cudnnGetConvolutionForwardWorkspaceSize(
         handle, xDesc, wDesc, convDesc, yDesc, algo, sizeInBytes);
 }
 
-cudnnStatus_t cudnnConvolutionForward(
-    cudnnHandle_t handle, const void *alpha,
-    const cudnnTensorDescriptor_t xDesc, const void *x,
-    const cudnnFilterDescriptor_t wDesc, const void *w,
-    const cudnnConvolutionDescriptor_t convDesc, cudnnConvolutionFwdAlgo_t algo,
-    void *workSpace, size_t workSpaceSizeInBytes, const void *beta,
-    const cudnnTensorDescriptor_t yDesc, void *y) {
-    return getCudnnPlugin().cudnnConvolutionForward(
-        handle, alpha, xDesc, x, wDesc, w, convDesc, algo, workSpace,
-        workSpaceSizeInBytes, beta, yDesc, y);
+cudnnStatus_t cudnnGetConvolutionBackwardFilterWorkspaceSize(
+    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
+    const cudnnTensorDescriptor_t dyDesc,
+    const cudnnConvolutionDescriptor_t convDesc,
+    const cudnnFilterDescriptor_t gradDesc,
+    cudnnConvolutionBwdFilterAlgo_t algo, size_t *sizeInBytes) {
+    return getCudnnPlugin().cudnnGetConvolutionBackwardFilterWorkspaceSize(
+        handle, xDesc, dyDesc, convDesc, gradDesc, algo, sizeInBytes);
+}
+
+cudnnStatus_t cudnnFindConvolutionForwardAlgorithm(
+    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
+    const cudnnFilterDescriptor_t wDesc,
+    const cudnnConvolutionDescriptor_t convDesc,
+    const cudnnTensorDescriptor_t yDesc, const int requestedAlgoCount,
+    int *returnedAlgoCount, cudnnConvolutionFwdAlgoPerf_t *perfResults) {
+    return getCudnnPlugin().cudnnFindConvolutionForwardAlgorithm(
+        handle, xDesc, wDesc, convDesc, yDesc, requestedAlgoCount,
+        returnedAlgoCount, perfResults);
+}
+
+cudnnStatus_t cudnnFindConvolutionBackwardFilterAlgorithm(
+    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
+    const cudnnTensorDescriptor_t dyDesc,
+    const cudnnConvolutionDescriptor_t convDesc,
+    const cudnnFilterDescriptor_t dwDesc, const int requestedAlgoCount,
+    int *returnedAlgoCount, cudnnConvolutionBwdFilterAlgoPerf_t *perfResults) {
+    return getCudnnPlugin().cudnnFindConvolutionBackwardFilterAlgorithm(
+        handle, xDesc, dyDesc, convDesc, dwDesc, requestedAlgoCount,
+        returnedAlgoCount, perfResults);
+}
+
+cudnnStatus_t cudnnGetConvolutionForwardAlgorithm(
+    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
+    const cudnnFilterDescriptor_t wDesc,
+    const cudnnConvolutionDescriptor_t convDesc,
+    const cudnnTensorDescriptor_t yDesc,
+    cudnnConvolutionFwdPreference_t preference, size_t memoryLimitInBytes,
+    cudnnConvolutionFwdAlgo_t *algo) {
+    auto version = getCudnnPlugin().getVersion();
+    if (std::get<0>(version) < 8) {
+        return getCudnnPlugin().cudnnGetConvolutionForwardAlgorithm(
+            handle, xDesc, wDesc, convDesc, yDesc, preference,
+            memoryLimitInBytes, algo);
+    } else {
+        AF_ERROR(
+            "cudnnGetConvolutionForwardAlgorithm has been removed since cuDNN "
+            "8",
+            AF_ERR_NOT_SUPPORTED);
+        return CUDNN_STATUS_SUCCESS;
+    }
 }
 
 cudnnStatus_t cudnnGetConvolutionBackwardFilterAlgorithm(
@@ -212,19 +253,30 @@ cudnnStatus_t cudnnGetConvolutionBackwardFilterAlgorithm(
     const cudnnFilterDescriptor_t dwDesc,
     cudnnConvolutionBwdFilterPreference_t preference, size_t memoryLimitInBytes,
     cudnnConvolutionBwdFilterAlgo_t *algo) {
-    return getCudnnPlugin().cudnnGetConvolutionBackwardFilterAlgorithm(
-        handle, xDesc, dyDesc, convDesc, dwDesc, preference, memoryLimitInBytes,
-        algo);
+    auto version = getCudnnPlugin().getVersion();
+    if (std::get<0>(version) < 8) {
+        return getCudnnPlugin().cudnnGetConvolutionBackwardFilterAlgorithm(
+            handle, xDesc, dyDesc, convDesc, dwDesc, preference,
+            memoryLimitInBytes, algo);
+    } else {
+        AF_ERROR(
+            "cudnnGetConvolutionBackwardFilterAlgorithm has been removed since "
+            "cuDNN 8",
+            AF_ERR_NOT_SUPPORTED);
+        return CUDNN_STATUS_SUCCESS;
+    }
 }
 
-cudnnStatus_t cudnnGetConvolutionBackwardFilterWorkspaceSize(
-    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
-    const cudnnTensorDescriptor_t dyDesc,
-    const cudnnConvolutionDescriptor_t convDesc,
-    const cudnnFilterDescriptor_t gradDesc,
-    cudnnConvolutionBwdFilterAlgo_t algo, size_t *sizeInBytes) {
-    return getCudnnPlugin().cudnnGetConvolutionBackwardFilterWorkspaceSize(
-        handle, xDesc, dyDesc, convDesc, gradDesc, algo, sizeInBytes);
+cudnnStatus_t cudnnConvolutionForward(
+    cudnnHandle_t handle, const void *alpha,
+    const cudnnTensorDescriptor_t xDesc, const void *x,
+    const cudnnFilterDescriptor_t wDesc, const void *w,
+    const cudnnConvolutionDescriptor_t convDesc, cudnnConvolutionFwdAlgo_t algo,
+    void *workSpace, size_t workSpaceSizeInBytes, const void *beta,
+    const cudnnTensorDescriptor_t yDesc, void *y) {
+    return getCudnnPlugin().cudnnConvolutionForward(
+        handle, alpha, xDesc, x, wDesc, w, convDesc, algo, workSpace,
+        workSpaceSizeInBytes, beta, yDesc, y);
 }
 
 cudnnStatus_t cudnnConvolutionBackwardFilter(
diff --git a/src/backend/cuda/cudnn.hpp b/src/backend/cuda/cudnn.hpp
@@ -116,6 +116,40 @@ cudnnStatus_t cudnnGetConvolutionNdForwardOutputDim(
     const cudnnFilterDescriptor_t filterDesc, int nbDims,
     int tensorOuputDimA[]);
 
+cudnnStatus_t cudnnGetConvolutionForwardAlgorithmMaxCount(cudnnHandle_t handle,
+                                                          int *count);
+
+cudnnStatus_t cudnnGetConvolutionBackwardFilterAlgorithmMaxCount(
+    cudnnHandle_t handle, int *count);
+
+cudnnStatus_t cudnnGetConvolutionForwardWorkspaceSize(
+    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
+    const cudnnFilterDescriptor_t wDesc,
+    const cudnnConvolutionDescriptor_t convDesc,
+    const cudnnTensorDescriptor_t yDesc, cudnnConvolutionFwdAlgo_t algo,
+    size_t *sizeInBytes);
+
+cudnnStatus_t cudnnGetConvolutionBackwardFilterWorkspaceSize(
+    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
+    const cudnnTensorDescriptor_t dyDesc,
+    const cudnnConvolutionDescriptor_t convDesc,
+    const cudnnFilterDescriptor_t gradDesc,
+    cudnnConvolutionBwdFilterAlgo_t algo, size_t *sizeInBytes);
+
+cudnnStatus_t cudnnFindConvolutionForwardAlgorithm(
+    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
+    const cudnnFilterDescriptor_t wDesc,
+    const cudnnConvolutionDescriptor_t convDesc,
+    const cudnnTensorDescriptor_t yDesc, const int requestedAlgoCount,
+    int *returnedAlgoCount, cudnnConvolutionFwdAlgoPerf_t *perfResults);
+
+cudnnStatus_t cudnnFindConvolutionBackwardFilterAlgorithm(
+    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
+    const cudnnTensorDescriptor_t dyDesc,
+    const cudnnConvolutionDescriptor_t convDesc,
+    const cudnnFilterDescriptor_t dwDesc, const int requestedAlgoCount,
+    int *returnedAlgoCount, cudnnConvolutionBwdFilterAlgoPerf_t *perfResults);
+
 cudnnStatus_t cudnnGetConvolutionForwardAlgorithm(
     cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
     const cudnnFilterDescriptor_t wDesc,
@@ -124,12 +158,13 @@ cudnnStatus_t cudnnGetConvolutionForwardAlgorithm(
     cudnnConvolutionFwdPreference_t preference, size_t memoryLimitInBytes,
     cudnnConvolutionFwdAlgo_t *algo);
 
-cudnnStatus_t cudnnGetConvolutionForwardWorkspaceSize(
+cudnnStatus_t cudnnGetConvolutionBackwardFilterAlgorithm(
     cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
-    const cudnnFilterDescriptor_t wDesc,
+    const cudnnTensorDescriptor_t dyDesc,
     const cudnnConvolutionDescriptor_t convDesc,
-    const cudnnTensorDescriptor_t yDesc, cudnnConvolutionFwdAlgo_t algo,
-    size_t *sizeInBytes);
+    const cudnnFilterDescriptor_t dwDesc,
+    cudnnConvolutionBwdFilterPreference_t preference, size_t memoryLimitInBytes,
+    cudnnConvolutionBwdFilterAlgo_t *algo);
 
 cudnnStatus_t cudnnConvolutionForward(
     cudnnHandle_t handle, const void *alpha,
@@ -139,21 +174,6 @@ cudnnStatus_t cudnnConvolutionForward(
     void *workSpace, size_t workSpaceSizeInBytes, const void *beta,
     const cudnnTensorDescriptor_t yDesc, void *y);
 
-cudnnStatus_t cudnnGetConvolutionBackwardFilterAlgorithm(
-    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
-    const cudnnTensorDescriptor_t dyDesc,
-    const cudnnConvolutionDescriptor_t convDesc,
-    const cudnnFilterDescriptor_t dwDesc,
-    cudnnConvolutionBwdFilterPreference_t preference, size_t memoryLimitInBytes,
-    cudnnConvolutionBwdFilterAlgo_t *algo);
-
-cudnnStatus_t cudnnGetConvolutionBackwardFilterWorkspaceSize(
-    cudnnHandle_t handle, const cudnnTensorDescriptor_t xDesc,
-    const cudnnTensorDescriptor_t dyDesc,
-    const cudnnConvolutionDescriptor_t convDesc,
-    const cudnnFilterDescriptor_t gradDesc,
-    cudnnConvolutionBwdFilterAlgo_t algo, size_t *sizeInBytes);
-
 cudnnStatus_t cudnnConvolutionBackwardFilter(
     cudnnHandle_t handle, const void *alpha,
     const cudnnTensorDescriptor_t xDesc, const void *x,
diff --git a/src/backend/cuda/cudnnModule.cpp b/src/backend/cuda/cudnnModule.cpp
diff --git a/src/backend/cuda/cudnnModule.hpp b/src/backend/cuda/cudnnModule.hpp