scikit-learn · FelixWick · Apr 18, 2020 · Apr 18, 2020 · Apr 28, 2020 · Apr 28, 2020
diff --git a/sklearn/preprocessing/_encoders.py b/sklearn/preprocessing/_encoders.py
@@ -4,6 +4,7 @@
 
 import numpy as np
 from scipy import sparse
+import numbers
 
 from ..base import BaseEstimator, TransformerMixin
 from ..utils import check_array
@@ -622,6 +623,14 @@ class OrdinalEncoder(_BaseEncoder):
     dtype : number type, default np.float64
         Desired dtype of output.
 
+    unknown_value : 'error' or int, default='error'
+        When set to 'raise' an error will be raised in case an unknown
+        categorical feature is present during transform. When unknown_value is
+        an integer, the encoded value of unknown categories will be set to
+        this value. The integer can be negative and must not be an integer
+        already used for encoded categories seen in :meth:fit. In
+        :meth:inverse_transform, an unknown category will be denoted as None.
+
     Attributes
     ----------
     categories_ : list of arrays
@@ -658,9 +667,11 @@ class OrdinalEncoder(_BaseEncoder):
     """
 
     @_deprecate_positional_args
-    def __init__(self, *, categories='auto', dtype=np.float64):
+    def __init__(self, *, categories='auto', dtype=np.float64,
+                 unknown_value='error'):
         self.categories = categories
         self.dtype = dtype
+        self.unknown_value = unknown_value
 
     def fit(self, X, y=None):
         """
@@ -697,7 +708,21 @@ def transform(self, X):
         X_out : sparse matrix or a 2-d array
             Transformed input.
         """
-        X_int, _ = self._transform(X)
+        X_int, X_mask = self._transform(X, handle_unknown=self.unknown_value)
+
+        # create separate category for unknown values
+        if self.unknown_value != 'error':
+            if not isinstance(self.unknown_value, numbers.Integral):
+                raise TypeError("The used value for unknown_value "
+                                f"{self.unknown_value} is not an integer as "
+                                "required.")
+            for i in range(len(self.categories_)):
+                if 0 <= self.unknown_value < len(self.categories_[i]):
+                    raise ValueError(
+                        "The used value for unknown_value "
+                        f"{self.unknown_value} is one of the values already "
+                        "used for encoding the seen categories.")
+                X_int[~X_mask[:, i], i] = self.unknown_value
         return X_int.astype(self.dtype, copy=False)
 
     def inverse_transform(self, X):
@@ -732,6 +757,13 @@ def inverse_transform(self, X):
 
         for i in range(n_features):
             labels = X[:, i].astype('int64', copy=False)
-            X_tr[:, i] = self.categories_[i][labels]
+            # set unknown values to None
+            if self.unknown_value != 'error':
+                X_tr[:, i] = np.where(
+                    labels == self.unknown_value, None,
+                    self.categories_[i][np.where(
+                        labels == self.unknown_value, 0, labels)])
+            else:
+                X_tr[:, i] = self.categories_[i][labels]
 
         return X_tr
diff --git a/sklearn/preprocessing/tests/test_encoders.py b/sklearn/preprocessing/tests/test_encoders.py
@@ -553,6 +553,40 @@ def test_ordinal_encoder_raise_missing(X):
         ohe.transform(X)
 
 
+def test_ordinal_encoder_handle_unknowns():
+    enc = OrdinalEncoder(unknown_value=-999)
+    X_fit = np.array([['a', 'x'], ['b', 'y'], ['c', 'z']], dtype=object)
+    X_trans = np.array([['c', 'xy'], ['bla', 'y'], ['a', 'x']], dtype=object)
+    enc.fit(X_fit)
+
+    X_trans_enc = enc.transform(X_trans)
+    exp = np.array([[2, -999], [-999, 1], [0, 0]], dtype='int64')
+    assert_array_equal(X_trans_enc, exp)
+
+    X_trans_inv = enc.inverse_transform(X_trans_enc)
+    inv_exp = np.array([['c', None], [None, 'y'], ['a', 'x']], dtype=object)
+    assert_array_equal(X_trans_inv, inv_exp)
+
+
+def test_ordinal_encoder_raise_wrong_unknowns():
+    X_fit = np.array([['a', 'x'], ['b', 'y']], dtype=object)
+    X_trans = np.array([['c', 'xy'], ['bla', 'y']], dtype=object)
+
+    enc = OrdinalEncoder(unknown_value="wrong")
+    enc.fit(X_fit)
+    msg = ("The used value for unknown_value wrong is not an integer as "
+           "required.")
+    with pytest.raises(TypeError, match=msg):
+        enc.transform(X_trans)
+
+    enc = OrdinalEncoder(unknown_value=1)
+    enc.fit(X_fit)
+    msg = ("The used value for unknown_value 1 is one of the values already "
+           "used for encoding the seen categories.")
+    with pytest.raises(ValueError, match=msg):
+        enc.transform(X_trans)
+
+
 def test_ordinal_encoder_raise_categories_shape():
 
     X = np.array([['Low', 'Medium', 'High', 'Medium', 'Low']], dtype=object).T