scikit-learn · adrinjalali · Jul 25, 2024 · Jul 3, 2024 · Jul 3, 2024 · Jul 3, 2024
diff --git a/doc/whats_new/v1.6.rst b/doc/whats_new/v1.6.rst
@@ -231,6 +231,11 @@ Changelog
   scoring="max_error" which is now deprecated.
   :pr:`29462` by :user:`Farid "Freddie" Taba <artificialfintelligence>`.
 
+- |API| the `assert_all_finite` parameter of functions
+  :func:`metrics.pairwise.check_pairwise_arrays` and :func:`metrics.pairwise_distances`
+  is renamed into `ensure_all_finite`. `force_all_finite` will be removed in 1.8.
+  :pr:`29404` by :user:`Jérémie du Boisberranger <jeremiedb>`.
+
 :mod:`sklearn.model_selection`
 ..............................
 
@@ -272,6 +277,14 @@ Changelog
   traversed.
   :pr:`27966` by :user:`Adam Li <adam2392>`.
 
+:mod:`sklearn.utils`
+....................
+
+- |API| the `assert_all_finite` parameter of functions :func:`utils.check_array`,
+  :func:`utils.check_X_y`, :func:`utils.as_float_array` is renamed into
+  `ensure_all_finite`. `force_all_finite` will be removed in 1.8.
+  :pr:`29404` by :user:`Jérémie du Boisberranger <jeremiedb>`.
+
 .. rubric:: Code and documentation contributors
 
 Thanks to everyone who has contributed to the maintenance and improvement of

diff --git a/sklearn/cluster/_hdbscan/hdbscan.py b/sklearn/cluster/_hdbscan/hdbscan.py
@@ -737,7 +737,7 @@ def fit(self, X, y=None):
             X = self._validate_data(
                 X,
                 accept_sparse=["csr", "lil"],
-                force_all_finite=False,
+                ensure_all_finite=False,
                 dtype=np.float64,
             )
             self._raw_data = X
@@ -782,7 +782,7 @@ def fit(self, X, y=None):
             # Perform data validation after removing infinite values (numpy.inf)
             # from the given distance matrix.
             X = self._validate_data(
-                X, force_all_finite=False, dtype=np.float64, force_writeable=True
+                X, ensure_all_finite=False, dtype=np.float64, force_writeable=True
             )
             if np.isnan(X).any():
                 # TODO: Support np.nan in Cython implementation for precomputed

diff --git a/sklearn/compose/_column_transformer.py b/sklearn/compose/_column_transformer.py
@@ -1137,7 +1137,7 @@ def _hstack(self, Xs, *, n_samples):
                 # in a sparse matrix, `check_array` is used for the
                 # dtype conversion if necessary.
                 converted_Xs = [
-                    check_array(X, accept_sparse=True, force_all_finite=False)
+                    check_array(X, accept_sparse=True, ensure_all_finite=False)
                     for X in Xs
                 ]
             except ValueError as e:
@@ -1325,7 +1325,7 @@ def _check_X(X):
     """Use check_array only when necessary, e.g. on lists and other non-array-likes."""
     if hasattr(X, "__array__") or hasattr(X, "__dataframe__") or sparse.issparse(X):
         return X
-    return check_array(X, force_all_finite="allow-nan", dtype=object)
+    return check_array(X, ensure_all_finite="allow-nan", dtype=object)
 
 
 def _is_empty_column_selection(column):

diff --git a/sklearn/compose/_target.py b/sklearn/compose/_target.py
@@ -262,7 +262,7 @@ def fit(self, X, y, **fit_params):
             y,
             input_name="y",
             accept_sparse=False,
-            force_all_finite=True,
+            ensure_all_finite=True,
             ensure_2d=False,
             dtype="numeric",
             allow_nd=True,

diff --git a/sklearn/covariance/_empirical_covariance.py b/sklearn/covariance/_empirical_covariance.py
@@ -90,7 +90,7 @@ def empirical_covariance(X, *, assume_centered=False):
            [0.25, 0.25, 0.25],
            [0.25, 0.25, 0.25]])
     """
-    X = check_array(X, ensure_2d=False, force_all_finite=False)
+    X = check_array(X, ensure_2d=False, ensure_all_finite=False)
 
     if X.ndim == 1:
         X = np.reshape(X, (1, -1))

diff --git a/sklearn/ensemble/_bagging.py b/sklearn/ensemble/_bagging.py
@@ -391,7 +391,7 @@ def fit(self, X, y, *, sample_weight=None, **fit_params):
             y,
             accept_sparse=["csr", "csc"],
             dtype=None,
-            force_all_finite=False,
+            ensure_all_finite=False,
             multi_output=True,
         )
 
@@ -941,7 +941,7 @@ def predict_proba(self, X):
             X,
             accept_sparse=["csr", "csc"],
             dtype=None,
-            force_all_finite=False,
+            ensure_all_finite=False,
             reset=False,
         )
 
@@ -991,7 +991,7 @@ def predict_log_proba(self, X):
                 X,
                 accept_sparse=["csr", "csc"],
                 dtype=None,
-                force_all_finite=False,
+                ensure_all_finite=False,
                 reset=False,
             )
 
@@ -1046,7 +1046,7 @@ def decision_function(self, X):
             X,
             accept_sparse=["csr", "csc"],
             dtype=None,
-            force_all_finite=False,
+            ensure_all_finite=False,
             reset=False,
         )
 
@@ -1279,7 +1279,7 @@ def predict(self, X):
             X,
             accept_sparse=["csr", "csc"],
             dtype=None,
-            force_all_finite=False,
+            ensure_all_finite=False,
             reset=False,
         )
 

diff --git a/sklearn/ensemble/_forest.py b/sklearn/ensemble/_forest.py
@@ -362,7 +362,7 @@ def fit(self, X, y, sample_weight=None):
             multi_output=True,
             accept_sparse="csc",
             dtype=DTYPE,
-            force_all_finite=False,
+            ensure_all_finite=False,
         )
         # _compute_missing_values_in_feature_mask checks if X has missing values and
         # will raise an error if the underlying tree base estimator can't handle missing
@@ -630,16 +630,16 @@ def _validate_X_predict(self, X):
         Validate X whenever one tries to predict, apply, predict_proba."""
         check_is_fitted(self)
         if self.estimators_[0]._support_missing_values(X):
-            force_all_finite = "allow-nan"
+            ensure_all_finite = "allow-nan"
         else:
-            force_all_finite = True
+            ensure_all_finite = True
 
         X = self._validate_data(
             X,
             dtype=DTYPE,
             accept_sparse="csr",
             reset=False,
-            force_all_finite=force_all_finite,
+            ensure_all_finite=ensure_all_finite,
         )
         if issparse(X) and (X.indices.dtype != np.intc or X.indptr.dtype != np.intc):
             raise ValueError("No support for np.int64 index based sparse matrices")

diff --git a/sklearn/ensemble/_gb.py b/sklearn/ensemble/_gb.py
@@ -773,7 +773,7 @@ def fit(self, X, y, sample_weight=None, monitor=None):
                 dtype=DTYPE,
                 order="C",
                 accept_sparse="csr",
-                force_all_finite=False,
+                ensure_all_finite=False,
             )
             raw_predictions = self._raw_predict(X_train)
             self._resize_state()

diff --git a/sklearn/ensemble/_hist_gradient_boosting/binning.py b/sklearn/ensemble/_hist_gradient_boosting/binning.py
@@ -194,7 +194,7 @@ def fit(self, X, y=None):
                 )
             )
 
-        X = check_array(X, dtype=[X_DTYPE], force_all_finite=False)
+        X = check_array(X, dtype=[X_DTYPE], ensure_all_finite=False)
         max_bins = self.n_bins - 1
 
         rng = check_random_state(self.random_state)
@@ -275,7 +275,7 @@ def transform(self, X):
         X_binned : array-like of shape (n_samples, n_features)
             The binned data (fortran-aligned).
         """
-        X = check_array(X, dtype=[X_DTYPE], force_all_finite=False)
+        X = check_array(X, dtype=[X_DTYPE], ensure_all_finite=False)
         check_is_fitted(self)
         if X.shape[1] != self.n_bins_non_missing_.shape[0]:
             raise ValueError(

diff --git a/sklearn/ensemble/_hist_gradient_boosting/gradient_boosting.py b/sklearn/ensemble/_hist_gradient_boosting/gradient_boosting.py
@@ -263,7 +263,7 @@ def _preprocess_X(self, X, *, reset):
         """
         # If there is a preprocessor, we let the preprocessor handle the validation.
         # Otherwise, we validate the data ourselves.
-        check_X_kwargs = dict(dtype=[X_DTYPE], force_all_finite=False)
+        check_X_kwargs = dict(dtype=[X_DTYPE], ensure_all_finite=False)
         if not reset:
             if self._preprocessor is None:
                 return self._validate_data(X, reset=False, **check_X_kwargs)

diff --git a/sklearn/ensemble/_hist_gradient_boosting/tests/test_compare_lightgbm.py b/sklearn/ensemble/_hist_gradient_boosting/tests/test_compare_lightgbm.py
@@ -12,6 +12,10 @@
 from sklearn.model_selection import train_test_split
 
 
+# TODO(1.8) remove the filterwarnings decorator
+@pytest.mark.filterwarnings(
+    "ignore:'force_all_finite' was renamed to 'ensure_all_finite':FutureWarning"
+)
 @pytest.mark.parametrize("seed", range(5))
 @pytest.mark.parametrize(
     "loss",
@@ -118,6 +122,10 @@ def test_same_predictions_regression(
         assert np.mean(np.isclose(pred_lightgbm, pred_sklearn, rtol=1e-4)) > 1 - 0.01
 
 
+# TODO(1.8) remove the filterwarnings decorator
+@pytest.mark.filterwarnings(
+    "ignore:'force_all_finite' was renamed to 'ensure_all_finite':FutureWarning"
+)
 @pytest.mark.parametrize("seed", range(5))
 @pytest.mark.parametrize("min_samples_leaf", (1, 20))
 @pytest.mark.parametrize(
@@ -191,6 +199,10 @@ def test_same_predictions_classification(
         np.testing.assert_almost_equal(acc_lightgbm, acc_sklearn, decimal=2)
 
 
+# TODO(1.8) remove the filterwarnings decorator
+@pytest.mark.filterwarnings(
+    "ignore:'force_all_finite' was renamed to 'ensure_all_finite':FutureWarning"
+)
 @pytest.mark.parametrize("seed", range(5))
 @pytest.mark.parametrize("min_samples_leaf", (1, 20))
 @pytest.mark.parametrize(

diff --git a/sklearn/ensemble/_iforest.py b/sklearn/ensemble/_iforest.py
@@ -316,7 +316,7 @@ def fit(self, X, y=None, sample_weight=None):
             Fitted estimator.
         """
         X = self._validate_data(
-            X, accept_sparse=["csc"], dtype=tree_dtype, force_all_finite=False
+            X, accept_sparse=["csc"], dtype=tree_dtype, ensure_all_finite=False
         )
         if issparse(X):
             # Pre-sort indices to avoid that each individual tree of the
@@ -522,7 +522,7 @@ def score_samples(self, X):
             accept_sparse="csr",
             dtype=tree_dtype,
             reset=False,
-            force_all_finite=False,
+            ensure_all_finite=False,
         )
 
         return self._score_samples(X)

diff --git a/sklearn/feature_selection/_base.py b/sklearn/feature_selection/_base.py
@@ -103,7 +103,7 @@ def transform(self, X):
             X,
             dtype=None,
             accept_sparse="csr",
-            force_all_finite=not _safe_tags(self, key="allow_nan"),
+            ensure_all_finite=not _safe_tags(self, key="allow_nan"),
             cast_to_ndarray=not preserve_X,
             reset=False,
         )

diff --git a/sklearn/feature_selection/_rfe.py b/sklearn/feature_selection/_rfe.py
@@ -274,7 +274,7 @@ def _fit(self, X, y, step_score=None, **fit_params):
             y,
             accept_sparse="csc",
             ensure_min_features=2,
-            force_all_finite=False,
+            ensure_all_finite=False,
             multi_output=True,
         )
 
@@ -725,7 +725,7 @@ def fit(self, X, y, groups=None):
             y,
             accept_sparse="csr",
             ensure_min_features=2,
-            force_all_finite=False,
+            ensure_all_finite=False,
             multi_output=True,
         )
 

diff --git a/sklearn/feature_selection/_sequential.py b/sklearn/feature_selection/_sequential.py
@@ -214,7 +214,7 @@ def fit(self, X, y=None):
             X,
             accept_sparse="csc",
             ensure_min_features=2,
-            force_all_finite=not tags.get("allow_nan", True),
+            ensure_all_finite=not tags.get("allow_nan", True),
         )
         n_features = X.shape[1]
 

diff --git a/sklearn/feature_selection/_variance_threshold.py b/sklearn/feature_selection/_variance_threshold.py
@@ -101,7 +101,7 @@ def fit(self, X, y=None):
             X,
             accept_sparse=("csr", "csc"),
             dtype=np.float64,
-            force_all_finite="allow-nan",
+            ensure_all_finite="allow-nan",
         )
 
         if hasattr(X, "toarray"):  # sparse matrix

diff --git a/sklearn/impute/_base.py b/sklearn/impute/_base.py
@@ -323,9 +323,9 @@ def _validate_input(self, X, in_fit):
             dtype = self._fit_dtype
 
         if is_pandas_na(self.missing_values) or is_scalar_nan(self.missing_values):
-            force_all_finite = "allow-nan"
+            ensure_all_finite = "allow-nan"
         else:
-            force_all_finite = True
+            ensure_all_finite = True
 
         try:
             X = self._validate_data(
@@ -334,7 +334,7 @@ def _validate_input(self, X, in_fit):
                 accept_sparse="csc",
                 dtype=dtype,
                 force_writeable=True if not in_fit else None,
-                force_all_finite=force_all_finite,
+                ensure_all_finite=ensure_all_finite,
                 copy=self.copy,
             )
         except ValueError as ve:
@@ -893,15 +893,15 @@ def _get_missing_features_info(self, X):
 
     def _validate_input(self, X, in_fit):
         if not is_scalar_nan(self.missing_values):
-            force_all_finite = True
+            ensure_all_finite = True
         else:
-            force_all_finite = "allow-nan"
+            ensure_all_finite = "allow-nan"
         X = self._validate_data(
             X,
             reset=in_fit,
             accept_sparse=("csc", "csr"),
             dtype=None,
-            force_all_finite=force_all_finite,
+            ensure_all_finite=ensure_all_finite,
         )
         _check_inputs_dtype(X, self.missing_values)
         if X.dtype.kind not in ("i", "u", "f", "O"):

diff --git a/sklearn/impute/_iterative.py b/sklearn/impute/_iterative.py
@@ -614,16 +614,16 @@ def _initial_imputation(self, X, in_fit=False):
             number of features.
         """
         if is_scalar_nan(self.missing_values):
-            force_all_finite = "allow-nan"
+            ensure_all_finite = "allow-nan"
         else:
-            force_all_finite = True
+            ensure_all_finite = True
 
         X = self._validate_data(
             X,
             dtype=FLOAT_DTYPES,
             order="F",
             reset=in_fit,
-            force_all_finite=force_all_finite,
+            ensure_all_finite=ensure_all_finite,
         )
         _check_inputs_dtype(X, self.missing_values)
 
@@ -680,7 +680,7 @@ def _validate_limit(limit, limit_type, n_features):
         limit = limit_bound if limit is None else limit
         if np.isscalar(limit):
             limit = np.full(n_features, limit)
-        limit = check_array(limit, force_all_finite=False, copy=False, ensure_2d=False)
+        limit = check_array(limit, ensure_all_finite=False, copy=False, ensure_2d=False)
         if not limit.shape[0] == n_features:
             raise ValueError(
                 f"'{limit_type}_value' should be of "