TST refactor instance generation and parameter setting (#29702)

adrinjalali · glemaitre · web-flow · commit 3cb7b588bacb · 2024-09-04T10:58:10.000Z
Co-authored-by: Guillaume Lemaitre &lt;guillaume@probabl.ai&gt;
diff --git a/doc/sphinxext/allow_nan_estimators.py b/doc/sphinxext/allow_nan_estimators.py
@@ -4,8 +4,8 @@
 from docutils.parsers.rst import Directive
 
 from sklearn.utils import all_estimators
+from sklearn.utils._test_common.instance_generator import _construct_instance
 from sklearn.utils._testing import SkipTest
-from sklearn.utils.estimator_checks import _construct_instance
 
 
 class AllowNanEstimators(Directive):
diff --git a/sklearn/decomposition/tests/test_pca.py b/sklearn/decomposition/tests/test_pca.py
@@ -17,9 +17,9 @@
     yield_namespace_device_dtype_combinations,
 )
 from sklearn.utils._array_api import device as array_device
+from sklearn.utils._test_common.instance_generator import _get_check_estimator_ids
 from sklearn.utils._testing import _array_api_for_tests, assert_allclose
 from sklearn.utils.estimator_checks import (
-    _get_check_estimator_ids,
     check_array_api_input_and_values,
 )
 from sklearn.utils.fixes import CSC_CONTAINERS, CSR_CONTAINERS
diff --git a/sklearn/linear_model/tests/test_ridge.py b/sklearn/linear_model/tests/test_ridge.py
@@ -48,6 +48,7 @@
     yield_namespace_device_dtype_combinations,
     yield_namespaces,
 )
+from sklearn.utils._test_common.instance_generator import _get_check_estimator_ids
 from sklearn.utils._testing import (
     assert_allclose,
     assert_almost_equal,
@@ -57,7 +58,6 @@
 )
 from sklearn.utils.estimator_checks import (
     _array_api_for_tests,
-    _get_check_estimator_ids,
     check_array_api_input_and_values,
 )
 from sklearn.utils.fixes import (
diff --git a/sklearn/preprocessing/tests/test_data.py b/sklearn/preprocessing/tests/test_data.py
@@ -40,6 +40,7 @@
 from sklearn.utils._array_api import (
     yield_namespace_device_dtype_combinations,
 )
+from sklearn.utils._test_common.instance_generator import _get_check_estimator_ids
 from sklearn.utils._testing import (
     _convert_container,
     assert_allclose,
@@ -51,7 +52,6 @@
     skip_if_32bit,
 )
 from sklearn.utils.estimator_checks import (
-    _get_check_estimator_ids,
     check_array_api_input_and_values,
 )
 from sklearn.utils.fixes import (
diff --git a/sklearn/tests/test_common.py b/sklearn/tests/test_common.py
@@ -11,7 +11,7 @@
 import warnings
 from functools import partial
 from inspect import isgenerator, signature
-from itertools import chain, product
+from itertools import chain
 
 import numpy as np
 import pytest
@@ -26,32 +26,24 @@
     MeanShift,
     SpectralClustering,
 )
-from sklearn.compose import ColumnTransformer
 from sklearn.datasets import make_blobs
-from sklearn.decomposition import PCA
 from sklearn.exceptions import ConvergenceWarning, FitFailedWarning
-
-# make it possible to discover experimental estimators when calling `all_estimators`
 from sklearn.experimental import (
     enable_halving_search_cv,  # noqa
     enable_iterative_imputer,  # noqa
 )
-from sklearn.linear_model import LogisticRegression, Ridge
+
+# make it possible to discover experimental estimators when calling `all_estimators`
+from sklearn.linear_model import LogisticRegression
 from sklearn.manifold import TSNE, Isomap, LocallyLinearEmbedding
-from sklearn.model_selection import (
-    GridSearchCV,
-    HalvingGridSearchCV,
-    HalvingRandomSearchCV,
-    RandomizedSearchCV,
-)
 from sklearn.neighbors import (
     KNeighborsClassifier,
     KNeighborsRegressor,
     LocalOutlierFactor,
     RadiusNeighborsClassifier,
     RadiusNeighborsRegressor,
 )
-from sklearn.pipeline import Pipeline, make_pipeline
+from sklearn.pipeline import make_pipeline
 from sklearn.preprocessing import (
     FunctionTransformer,
     MinMaxScaler,
@@ -61,15 +53,19 @@
 from sklearn.semi_supervised import LabelPropagation, LabelSpreading
 from sklearn.utils import all_estimators
 from sklearn.utils._tags import _DEFAULT_TAGS, _safe_tags
+from sklearn.utils._test_common.instance_generator import (
+    _generate_column_transformer_instances,
+    _generate_pipeline,
+    _generate_search_cv_instances,
+    _get_check_estimator_ids,
+    _set_checking_parameters,
+    _tested_estimators,
+)
 from sklearn.utils._testing import (
     SkipTest,
     ignore_warnings,
-    set_random_state,
 )
 from sklearn.utils.estimator_checks import (
-    _construct_instance,
-    _get_check_estimator_ids,
-    _set_checking_parameters,
     check_dataframe_column_names_consistency,
     check_estimator,
     check_get_feature_names_out_error,
@@ -137,26 +133,6 @@ def test_get_check_estimator_ids(val, expected):
     assert _get_check_estimator_ids(val) == expected
 
 
-def _tested_estimators(type_filter=None):
-    for name, Estimator in all_estimators(type_filter=type_filter):
-        try:
-            estimator = _construct_instance(Estimator)
-        except SkipTest:
-            continue
-
-        yield estimator
-
-
-def _generate_pipeline():
-    for final_estimator in [Ridge(), LogisticRegression()]:
-        yield Pipeline(
-            steps=[
-                ("scaler", StandardScaler()),
-                ("final_estimator", final_estimator),
-            ]
-        )
-
-
 @parametrize_with_checks(list(chain(_tested_estimators(), _generate_pipeline())))
 def test_estimators(estimator, check, request):
     # Common tests for estimator instances
@@ -259,60 +235,6 @@ def test_class_support_removed():
         parametrize_with_checks([LogisticRegression])
 
 
-def _generate_column_transformer_instances():
-    yield ColumnTransformer(
-        transformers=[
-            ("trans1", StandardScaler(), [0, 1]),
-        ]
-    )
-
-
-def _generate_search_cv_instances():
-    for SearchCV, (Estimator, param_grid) in product(
-        [
-            GridSearchCV,
-            HalvingGridSearchCV,
-            RandomizedSearchCV,
-            HalvingGridSearchCV,
-        ],
-        [
-            (Ridge, {"alpha": [0.1, 1.0]}),
-            (LogisticRegression, {"C": [0.1, 1.0]}),
-        ],
-    ):
-        init_params = signature(SearchCV).parameters
-        extra_params = (
-            {"min_resources": "smallest"} if "min_resources" in init_params else {}
-        )
-        search_cv = SearchCV(
-            Estimator(), param_grid, cv=2, error_score="raise", **extra_params
-        )
-        set_random_state(search_cv)
-        yield search_cv
-
-    for SearchCV, (Estimator, param_grid) in product(
-        [
-            GridSearchCV,
-            HalvingGridSearchCV,
-            RandomizedSearchCV,
-            HalvingRandomSearchCV,
-        ],
-        [
-            (Ridge, {"ridge__alpha": [0.1, 1.0]}),
-            (LogisticRegression, {"logisticregression__C": [0.1, 1.0]}),
-        ],
-    ):
-        init_params = signature(SearchCV).parameters
-        extra_params = (
-            {"min_resources": "smallest"} if "min_resources" in init_params else {}
-        )
-        search_cv = SearchCV(
-            make_pipeline(PCA(), Estimator()), param_grid, cv=2, **extra_params
-        ).set_params(error_score="raise")
-        set_random_state(search_cv)
-        yield search_cv
-
-
 @parametrize_with_checks(list(_generate_search_cv_instances()))
 def test_search_cv(estimator, check, request):
     # Common tests for SearchCV instances
diff --git a/sklearn/tests/test_docstring_parameters.py b/sklearn/tests/test_docstring_parameters.py
@@ -22,14 +22,14 @@
 from sklearn.linear_model import LogisticRegression
 from sklearn.preprocessing import FunctionTransformer
 from sklearn.utils import all_estimators
+from sklearn.utils._test_common.instance_generator import _construct_instance
 from sklearn.utils._testing import (
     _get_func_name,
     check_docstring_parameters,
     ignore_warnings,
 )
 from sklearn.utils.deprecation import _is_deprecated
 from sklearn.utils.estimator_checks import (
-    _construct_instance,
     _enforce_estimator_tags_X,
     _enforce_estimator_tags_y,
 )
diff --git a/sklearn/utils/_test_common/__init__.py b/sklearn/utils/_test_common/__init__.py
@@ -0,0 +1,2 @@
+# Authors: The scikit-learn developers
+# SPDX-License-Identifier: BSD-3-Clause
diff --git a/sklearn/utils/_test_common/instance_generator.py b/sklearn/utils/_test_common/instance_generator.py
diff --git a/sklearn/utils/estimator_checks.py b/sklearn/utils/estimator_checks.py
diff --git a/sklearn/utils/tests/test_estimator_checks.py b/sklearn/utils/tests/test_estimator_checks.py

Original file line number	Diff line number	Diff line change
`@@ -17,9 +17,9 @@`
`17`	`17`	`yield_namespace_device_dtype_combinations,`
`18`	`18`	`)`
`19`	`19`	`from sklearn.utils._array_api import device as array_device`
	`20`	`+from sklearn.utils._test_common.instance_generator import _get_check_estimator_ids`
`20`	`21`	`from sklearn.utils._testing import _array_api_for_tests, assert_allclose`
`21`	`22`	`from sklearn.utils.estimator_checks import (`
`22`		`- _get_check_estimator_ids,`
`23`	`23`	`check_array_api_input_and_values,`
`24`	`24`	`)`
`25`	`25`	`from sklearn.utils.fixes import CSC_CONTAINERS, CSR_CONTAINERS`
Original file line number	Diff line number	Diff line change
`@@ -48,6 +48,7 @@`
`48`	`48`	`yield_namespace_device_dtype_combinations,`
`49`	`49`	`yield_namespaces,`
`50`	`50`	`)`
	`51`	`+from sklearn.utils._test_common.instance_generator import _get_check_estimator_ids`
`51`	`52`	`from sklearn.utils._testing import (`
`52`	`53`	`assert_allclose,`
`53`	`54`	`assert_almost_equal,`
`@@ -57,7 +58,6 @@`
`57`	`58`	`)`
`58`	`59`	`from sklearn.utils.estimator_checks import (`
`59`	`60`	`_array_api_for_tests,`
`60`		`- _get_check_estimator_ids,`
`61`	`61`	`check_array_api_input_and_values,`
`62`	`62`	`)`
`63`	`63`	`from sklearn.utils.fixes import (`
Original file line number	Diff line number	Diff line change
`@@ -40,6 +40,7 @@`
`40`	`40`	`from sklearn.utils._array_api import (`
`41`	`41`	`yield_namespace_device_dtype_combinations,`
`42`	`42`	`)`
	`43`	`+from sklearn.utils._test_common.instance_generator import _get_check_estimator_ids`
`43`	`44`	`from sklearn.utils._testing import (`
`44`	`45`	`_convert_container,`
`45`	`46`	`assert_allclose,`
`@@ -51,7 +52,6 @@`
`51`	`52`	`skip_if_32bit,`
`52`	`53`	`)`
`53`	`54`	`from sklearn.utils.estimator_checks import (`
`54`		`- _get_check_estimator_ids,`
`55`	`55`	`check_array_api_input_and_values,`
`56`	`56`	`)`
`57`	`57`	`from sklearn.utils.fixes import (`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+# Authors: The scikit-learn developers`
	`2`	`+# SPDX-License-Identifier: BSD-3-Clause`