scikit-learn · jjerphan · Nov 2, 2020 · Nov 2, 2020 · Nov 2, 2020 · Nov 13, 2020
diff --git a/sklearn/feature_selection/_mutual_info.py b/sklearn/feature_selection/_mutual_info.py
@@ -5,6 +5,7 @@
 from scipy.sparse import issparse
 from scipy.special import digamma
 
+from .. import config_context
 from ..metrics.cluster import mutual_info_score
 from ..neighbors import NearestNeighbors, KDTree
 from ..preprocessing import scale
@@ -57,22 +58,27 @@ def _compute_mi_cc(x, y, n_neighbors):
     radius = nn.kneighbors()[0]
     radius = np.nextafter(radius[:, -1], 0)
 
-    # KDTree is explicitly fit to allow for the querying of number of
-    # neighbors within a specified radius
-    kd = KDTree(x, metric="chebyshev")
-    nx = kd.query_radius(x, radius, count_only=True, return_distance=False)
-    nx = np.array(nx) - 1.0
-
-    kd = KDTree(y, metric="chebyshev")
-    ny = kd.query_radius(y, radius, count_only=True, return_distance=False)
-    ny = np.array(ny) - 1.0
-
-    mi = (
-        digamma(n_samples)
-        + digamma(n_neighbors)
-        - np.mean(digamma(nx + 1))
-        - np.mean(digamma(ny + 1))
-    )
+    with config_context(assume_finite=True):
+        # We remove the validation of x done at the beginning of
+        # KDTree.__init__ and KDTree.query_radius as x already got validated
+        # at the beginning of feature_selection._estimate_mi.
+
+        # KDTree is explicitly fit to allow for the querying of number of
+        # neighbors within a specified radius
+        kd = KDTree(x, metric="chebyshev")
+        nx = kd.query_radius(x, radius, count_only=True, return_distance=False)
+        nx = np.array(nx) - 1.0
+
+        kd = KDTree(y, metric="chebyshev")
+        ny = kd.query_radius(y, radius, count_only=True, return_distance=False)
+        ny = np.array(ny) - 1.0
+
+        mi = (
+                digamma(n_samples)
+                + digamma(n_neighbors)
+                - np.mean(digamma(nx + 1))
+                - np.mean(digamma(ny + 1))
+        )
 
     return max(0, mi)
 
@@ -136,8 +142,13 @@ def _compute_mi_cd(c, d, n_neighbors):
     c = c[mask]
     radius = radius[mask]
 
-    kd = KDTree(c)
-    m_all = kd.query_radius(c, radius, count_only=True, return_distance=False)
+    with config_context(assume_finite=True):
+        # We remove the validation of c done at the beginning of
+        # KDTree.__init__ and KDTree.query_radius as c already got validated
+        # at the beginning of feature_selection._estimate_mi.
+        kd = KDTree(c)
+        m_all = kd.query_radius(c, radius, count_only=True,
+                                return_distance=False)
     m_all = np.array(m_all) - 1.0
 
     mi = (

diff --git a/sklearn/neighbors/_base.py b/sklearn/neighbors/_base.py
@@ -19,6 +19,7 @@
 
 from ._ball_tree import BallTree
 from ._kd_tree import KDTree
+from .. import config_context
 from ..base import BaseEstimator, MultiOutputMixin
 from ..base import is_classifier
 from ..metrics import pairwise_distances_chunked
@@ -542,24 +543,28 @@ def _fit(self, X, y=None):
                 else:
                     self._fit_method = "brute"
 
-        if self._fit_method == "ball_tree":
-            self._tree = BallTree(
-                X,
-                self.leaf_size,
-                metric=self.effective_metric_,
-                **self.effective_metric_params_,
-            )
-        elif self._fit_method == "kd_tree":
-            self._tree = KDTree(
-                X,
-                self.leaf_size,
-                metric=self.effective_metric_,
-                **self.effective_metric_params_,
-            )
-        elif self._fit_method == "brute":
-            self._tree = None
-        else:
-            raise ValueError("algorithm = '%s' not recognized" % self.algorithm)
+        with config_context(assume_finite=True):
+            # In the following cases, we remove the validation of X done at
+            # the beginning of the BinaryTree's constructors as X already got
+            # validated when calling this method, NeighborsBase._fit.
+            if self._fit_method == "ball_tree":
+                self._tree = BallTree(
+                    X,
+                    self.leaf_size,
+                    metric=self.effective_metric_,
+                    **self.effective_metric_params_,
+                )
+            elif self._fit_method == "kd_tree":
+                self._tree = KDTree(
+                    X,
+                    self.leaf_size,
+                    metric=self.effective_metric_,
+                    **self.effective_metric_params_,
+                )
+            elif self._fit_method == "brute":
+                self._tree = None
+            else:
+                raise ValueError("algorithm = '%s' not recognized" % self.algorithm)
 
         if self.n_neighbors is not None:
             if self.n_neighbors <= 0:
@@ -770,12 +775,18 @@ class from an array representing our data set and ask who's
                 parallel_kwargs = {"backend": "threading"}
             else:
                 parallel_kwargs = {"prefer": "threads"}
-            chunked_results = Parallel(n_jobs, **parallel_kwargs)(
-                delayed(_tree_query_parallel_helper)(
-                    self._tree, X[s], n_neighbors, return_distance
+
+            with config_context(assume_finite=True):
+                # We remove the validation of the query points
+                # (in *parallel_kwargs) done at the beginning of
+                # BinaryTree.query as those points already got
+                # validated in the caller.
+                chunked_results = Parallel(n_jobs, **parallel_kwargs)(
+                    delayed(_tree_query_parallel_helper)(
+                        self._tree, X[s], n_neighbors, return_distance
+                    )
+                    for s in gen_even_slices(X.shape[0], n_jobs)
                 )
-                for s in gen_even_slices(X.shape[0], n_jobs)
-            )
         else:
             raise ValueError("internal: _fit_method not recognized")
 
@@ -1108,12 +1119,17 @@ class from an array representing our data set and ask who's
             else:
                 parallel_kwargs = {"prefer": "threads"}
 
-            chunked_results = Parallel(n_jobs, **parallel_kwargs)(
-                delayed_query(
-                    self._tree, X[s], radius, return_distance, sort_results=sort_results
+            with config_context(assume_finite=True):
+                # We remove the validation of the query points
+                # (in *parallel_kwargs) done at the beginning of
+                # BinaryTree.query_radius as those points already
+                # got validated in the caller.
+                chunked_results = Parallel(n_jobs, **parallel_kwargs)(
+                    delayed_query(
+                        self._tree, X[s], radius, return_distance, sort_results=sort_results
+                    )
+                    for s in gen_even_slices(X.shape[0], n_jobs)
                 )
-                for s in gen_even_slices(X.shape[0], n_jobs)
-            )
             if return_distance:
                 neigh_ind, neigh_dist = tuple(zip(*chunked_results))
                 results = np.hstack(neigh_dist), np.hstack(neigh_ind)

diff --git a/sklearn/neighbors/_kde.py b/sklearn/neighbors/_kde.py
@@ -6,6 +6,8 @@
 
 import numpy as np
 from scipy.special import gammainc
+
+from .. import config_context
 from ..base import BaseEstimator
 from ..utils import check_random_state
 from ..utils.validation import _check_sample_weight, check_is_fitted
@@ -227,15 +229,19 @@ def score_samples(self, X):
         else:
             N = self.tree_.sum_weight
         atol_N = self.atol * N
-        log_density = self.tree_.kernel_density(
-            X,
-            h=self.bandwidth,
-            kernel=self.kernel,
-            atol=atol_N,
-            rtol=self.rtol,
-            breadth_first=self.breadth_first,
-            return_log=True,
-        )
+        with config_context(assume_finite=True):
+            # We remove the validation of X done at the beginning of
+            # BinaryTree.kernel_density as X already got validated at the
+            # beginning of this method, KernelDensity.score_samples.
+            log_density = self.tree_.kernel_density(
+                X,
+                h=self.bandwidth,
+                kernel=self.kernel,
+                atol=atol_N,
+                rtol=self.rtol,
+                breadth_first=self.breadth_first,
+                return_log=True,
+            )
         log_density -= np.log(N)
         return log_density