scikit-learn · Henley13 · Jun 8, 2017 · Jun 8, 2017 · Jun 8, 2017 · Jun 9, 2017
diff --git a/.gitignore b/.gitignore
@@ -65,3 +65,7 @@ benchmarks/bench_covertype_data/
 
 # Used by py.test
 .cache
+
+# files generated from a template
+sklearn/utils/seq.dataset.pyx
+sklearn/utils/seq.dataset.pxd
diff --git a/sklearn/linear_model/base.py b/sklearn/linear_model/base.py
@@ -32,6 +32,7 @@
 from ..utils.extmath import safe_sparse_dot
 from ..utils.sparsefuncs import mean_variance_axis, inplace_column_scale
 from ..utils.fixes import sparse_lsqr
+from ..utils.seq_dataset import ArrayDataset32, CSRDataset32
 from ..utils.seq_dataset import ArrayDataset, CSRDataset
 from ..utils.validation import check_is_fitted
 from ..exceptions import NotFittedError
@@ -56,12 +57,19 @@ def make_dataset(X, y, sample_weight, random_state=None):
     # seed should never be 0 in SequentialDataset
     seed = rng.randint(1, np.iinfo(np.int32).max)
 
+    if X.dtype == np.float32:
+        CSRData = CSRDataset32
+        ArrayData = ArrayDataset32
+    else:
+        CSRData = CSRDataset
+        ArrayData = ArrayDataset
+
     if sp.issparse(X):
-        dataset = CSRDataset(X.data, X.indptr, X.indices, y, sample_weight,
-                             seed=seed)
+        dataset = CSRData(X.data, X.indptr, X.indices, y, sample_weight,
+                          seed=seed)
         intercept_decay = SPARSE_INTERCEPT_DECAY
     else:
-        dataset = ArrayDataset(X, y, sample_weight, seed=seed)
+        dataset = ArrayData(X, y, sample_weight, seed=seed)
         intercept_decay = 1.0
 
     return dataset, intercept_decay

diff --git a/sklearn/linear_model/tests/test_base.py b/sklearn/linear_model/tests/test_base.py
@@ -10,6 +10,7 @@
 
 
 from sklearn.utils.testing import assert_array_almost_equal
+from sklearn.utils.testing import assert_array_equal
 from sklearn.utils.testing import assert_almost_equal
 from sklearn.utils.testing import assert_equal
 from sklearn.utils.testing import ignore_warnings
@@ -18,10 +19,12 @@
 from sklearn.linear_model.base import _preprocess_data
 from sklearn.linear_model.base import sparse_center_data, center_data
 from sklearn.linear_model.base import _rescale_data
+from sklearn.linear_model.base import make_dataset
 from sklearn.utils import check_random_state
 from sklearn.utils.testing import assert_greater
 from sklearn.datasets.samples_generator import make_sparse_uncorrelated
 from sklearn.datasets.samples_generator import make_regression
+from sklearn.datasets import load_iris
 
 rng = np.random.RandomState(0)
 
@@ -407,3 +410,51 @@ def test_deprecation_center_data():
         assert_array_almost_equal(X1_mean, X2_mean)
         assert_array_almost_equal(X1_var, X2_var)
         assert_array_almost_equal(y1_mean, y2_mean)
+
+
+def test_fused_types_make_dataset():
+    iris = load_iris()
+
+    X_32 = iris.data.astype(np.float32)
+    y_32 = iris.target.astype(np.float32)
+    X_csr_32 = sparse.csr_matrix(X_32)
+    sample_weight_32 = np.arange(y_32.size, dtype=np.float32)
+
+    X_64 = iris.data.astype(np.float64)
+    y_64 = iris.target.astype(np.float64)
+    X_csr_64 = sparse.csr_matrix(X_64)
+    sample_weight_64 = np.arange(y_64.size, dtype=np.float64)
+
+    # array
+    dataset_32, _ = make_dataset(X_32, y_32, sample_weight_32)
+    dataset_64, _ = make_dataset(X_64, y_64, sample_weight_64)
+    xi_32, yi_32, _, _ = dataset_32._next_py()
+    xi_64, yi_64, _, _ = dataset_64._next_py()
+    xi_data_32, _, _ = xi_32
+    xi_data_64, _, _ = xi_64
+
+    assert_equal(xi_data_32.dtype, np.float32)
+    assert_equal(xi_data_64.dtype, np.float64)
+    assert_equal(yi_32.dtype, np.float32)
+    assert_equal(yi_64.dtype, np.float64)
+    assert_array_almost_equal(yi_64, yi_32, decimal=5)
+
+    # csr
+    datasetcsr_32, _ = make_dataset(X_csr_32, y_32, sample_weight_32)
+    datasetcsr_64, _ = make_dataset(X_csr_64, y_64, sample_weight_64)
+    xicsr_32, yicsr_32, _, _ = datasetcsr_32._next_py()
+    xicsr_64, yicsr_64, _, _ = datasetcsr_64._next_py()
+    xicsr_data_32, _, _ = xicsr_32
+    xicsr_data_64, _, _ = xicsr_64
+
+    assert_equal(xicsr_data_32.dtype, np.float32)
+    assert_equal(xicsr_data_64.dtype, np.float64)
+    assert_equal(yicsr_32.dtype, np.float32)
+    assert_equal(yicsr_64.dtype, np.float64)
+    assert_array_almost_equal(xicsr_data_64, xicsr_data_32, decimal=5)
+    assert_array_almost_equal(yicsr_64, yicsr_32, decimal=5)
+
+    assert_array_equal(xi_data_32, xicsr_data_32)
+    assert_array_equal(xi_data_64, xicsr_data_64)
+    assert_array_equal(yi_32, yicsr_32)
+    assert_array_equal(yi_64, yicsr_64)
diff --git a/sklearn/utils/seq_dataset.pxd b/sklearn/utils/seq_dataset.pxd
diff --git a/sklearn/utils/seq_dataset.pxd.tp b/sklearn/utils/seq_dataset.pxd.tp
@@ -0,0 +1,85 @@
+{{py:
+
+"""
+Dataset abstractions for sequential data access.
+
+Template file for easily generate fused types consistent code using Tempita
+(https://github.com/cython/cython/blob/master/Cython/Tempita/_tempita.py).
+
+Generated file: seq_dataset.pxd
+
+Each class is duplicated for all dtypes (float and double). The keywords
+between double braces are substituted in setup.py.
+"""
+
+# name, c_type
+dtypes = [('', 'double'),
+          ('32', 'float')]
+
+def get_dispatch(dtypes):
+    for name, c_type in dtypes:
+        yield name, c_type
+
+}}
+
+{{for name, c_type in get_dispatch(dtypes)}}
+
+#------------------------------------------------------------------------------
+
+"""
+Dataset abstractions for sequential data access.
+WARNING: Do not edit .pxd file directly, it is generated from .pxd.tp
+"""
+
+cimport numpy as np
+
+# SequentialDataset and its two concrete subclasses are (optionally randomized)
+# iterators over the rows of a matrix X and corresponding target values y.
+
+
+cdef class SequentialDataset{{name}}:
+    cdef int current_index
+    cdef np.ndarray index
+    cdef int *index_data_ptr
+    cdef Py_ssize_t n_samples
+    cdef np.uint32_t seed
+
+    cdef void shuffle(self, np.uint32_t seed) nogil
+    cdef int _get_next_index(self) nogil
+    cdef int _get_random_index(self) nogil
+
+    cdef void _sample(self, {{c_type}} **x_data_ptr, int **x_ind_ptr,
+                      int *nnz, {{c_type}} *y, {{c_type}} *sample_weight,
+                      int current_index) nogil
+    cdef void next(self, {{c_type}} **x_data_ptr, int **x_ind_ptr,
+                   int *nnz, {{c_type}} *y, {{c_type}} *sample_weight) nogil
+    cdef int random(self, {{c_type}} **x_data_ptr, int **x_ind_ptr,
+                    int *nnz, {{c_type}} *y, {{c_type}} *sample_weight) nogil
+
+
+cdef class ArrayDataset{{name}}(SequentialDataset{{name}}):
+    cdef np.ndarray X
+    cdef np.ndarray Y
+    cdef np.ndarray sample_weights
+    cdef Py_ssize_t n_features
+    cdef np.npy_intp X_stride
+    cdef {{c_type}} *X_data_ptr
+    cdef {{c_type}} *Y_data_ptr
+    cdef np.ndarray feature_indices
+    cdef int *feature_indices_ptr
+    cdef {{c_type}} *sample_weight_data
+
+
+cdef class CSRDataset{{name}}(SequentialDataset{{name}}):
+    cdef np.ndarray X_data
+    cdef np.ndarray X_indptr
+    cdef np.ndarray X_indices
+    cdef np.ndarray Y
+    cdef np.ndarray sample_weights
+    cdef {{c_type}} *X_data_ptr
+    cdef int *X_indptr_ptr
+    cdef int *X_indices_ptr
+    cdef {{c_type}} *Y_data_ptr
+    cdef {{c_type}} *sample_weight_data
+
+{{endfor}}