fix #574 : added argument 'wide' to read_csv, read_excel, from_lists and from_strings functions + and updated df_aslarray so as to be able to load arrays stored in narrow format

alixdamman · alixdamman · commit 4bf6aaaba79e · 2018-02-22T16:12:58.000+01:00
diff --git a/doc/source/changes/version_0_28.rst.inc b/doc/source/changes/version_0_28.rst.inc
@@ -289,6 +289,17 @@ Miscellaneous improvements
   Argument `transpose` has a different purpose than `wide` and is mainly useful to allow multiple axes as header
   when exporting arrays with more than 2 dimensions. Closes :issue:`575` and :issue:`371`.
 
+* added argument `wide` to `read_csv` and `read_excel` functions. If False, the array to be loaded is assumed to
+  be stored in "narrow" format:
+
+    >>> # assuming the array was saved using command: arr.to_excel('my_file.xlsx', wide=False)
+    >>> read_excel('my_file.xlsx', wide=False)
+    a\b  b0  b1  b2
+     a0   0   1   2
+     a1   3   4   5
+
+  Closes :issue:`574`.
+
 * added argument `name` to `to_series` method allowing to set a name to the Pandas Series returned by the method.
 
 * added argument `value_name` to `to_csv` and `to_excel` allowing to change the default name ('value') to
diff --git a/larray/inout/array.py b/larray/inout/array.py
diff --git a/larray/inout/excel.py b/larray/inout/excel.py
@@ -418,9 +418,9 @@ def __setattr__(self, key, value):
             setattr(self.xw_sheet, key, value)
 
         def load(self, header=True, convert_float=True, nb_index=None, index_col=None, fill_value=np.nan,
-                 sort_rows=False, sort_columns=False):
+                 sort_rows=False, sort_columns=False, wide=True):
             return self[:].load(header=header, convert_float=convert_float, nb_index=nb_index, index_col=index_col,
-                                sort_rows=sort_rows, sort_columns=sort_columns, fill_value=fill_value)
+                                fill_value=fill_value, sort_rows=sort_rows, sort_columns=sort_columns, wide=wide)
 
         # TODO: generalize to more than 2 dimensions or scrap it
         def array(self, data, row_labels=None, column_labels=None, names=None):
@@ -547,15 +547,15 @@ def __str__(self):
         __repr__ = __str__
 
         def load(self, header=True, convert_float=True, nb_index=None, index_col=None, fill_value=np.nan,
-                 sort_rows=False, sort_columns=False):
+                 sort_rows=False, sort_columns=False, wide=True):
             if not self.ndim:
                 return LArray([])
 
             list_data = self._converted_value(convert_float=convert_float)
 
             if header:
                 return from_lists(list_data, nb_index=nb_index, index_col=index_col, fill_value=fill_value,
-                                  sort_rows=sort_rows, sort_columns=sort_columns)
+                                  sort_rows=sort_rows, sort_columns=sort_columns, wide=wide)
             else:
                 return LArray(list_data)
 
diff --git a/larray/tests/data/test1d_narrow.csv b/larray/tests/data/test1d_narrow.csv
@@ -0,0 +1,4 @@
+a,value
+a0,0
+a1,1
+a2,2
diff --git a/larray/tests/data/test2d_narrow.csv b/larray/tests/data/test2d_narrow.csv
@@ -0,0 +1,7 @@
+a,b,value
+1,b0,0
+1,b1,1
+2,b0,2
+2,b1,3
+3,b0,4
+3,b1,5
diff --git a/larray/tests/data/test3d_narrow.csv b/larray/tests/data/test3d_narrow.csv
@@ -0,0 +1,19 @@
+a,b,c,value
+1,b0,c0,0
+1,b0,c1,1
+1,b0,c2,2
+1,b1,c0,3
+1,b1,c1,4
+1,b1,c2,5
+2,b0,c0,6
+2,b0,c1,7
+2,b0,c2,8
+2,b1,c0,9
+2,b1,c1,10
+2,b1,c2,11
+3,b0,c0,12
+3,b0,c1,13
+3,b0,c2,14
+3,b1,c0,15
+3,b1,c1,16
+3,b1,c2,17
diff --git a/larray/tests/data/test_narrow.xlsx b/larray/tests/data/test_narrow.xlsx
diff --git a/larray/tests/data/testmissing_values_narrow.csv b/larray/tests/data/testmissing_values_narrow.csv
@@ -0,0 +1,12 @@
+a,b,c,value
+1,b0,c0,0
+1,b0,c1,1
+1,b0,c2,2
+1,b1,c0,3
+1,b1,c1,4
+1,b1,c2,5
+2,b1,c0,9
+2,b1,c2,11
+3,b0,c0,12
+3,b0,c1,13
+3,b0,c2,14
diff --git a/larray/tests/data/testunsorted_narrow.csv b/larray/tests/data/testunsorted_narrow.csv
@@ -0,0 +1,19 @@
+a,b,c,value
+3,b1,c2,0
+3,b1,c1,1
+3,b1,c0,2
+3,b0,c2,3
+3,b0,c1,4
+3,b0,c0,5
+2,b1,c2,6
+2,b1,c1,7
+2,b1,c0,8
+2,b0,c2,9
+2,b0,c1,10
+2,b0,c0,11
+1,b1,c2,12
+1,b1,c1,13
+1,b1,c0,14
+1,b0,c2,15
+1,b0,c1,16
+1,b0,c0,17
diff --git a/larray/tests/test_array.py b/larray/tests/test_array.py
@@ -96,6 +96,8 @@ def setUp(self):
         self.io_missing_values = ndtest("a=1..3; b=b0,b1; c=c0..c2", dtype=float)
         self.io_missing_values[2, 'b0'] = np.nan
         self.io_missing_values[3, 'b1'] = np.nan
+        self.io_narrow_missing_values = self.io_missing_values.copy()
+        self.io_narrow_missing_values[2, 'b1', 'c1'] = np.nan
 
     @pytest.fixture(autouse=True)
     def setup(self, tmpdir):
@@ -2637,6 +2639,26 @@ def test_read_csv(self):
         res = read_csv(StringIO('a,a2,a0,a1\n,2,0,1\n'), sort_columns=True)
         assert_array_equal(res, ndtest(3))
 
+        #################
+        # narrow format #
+        #################
+        res = read_csv(inputpath('test1d_narrow.csv'), wide=False)
+        assert_array_equal(res, self.io_1d)
+
+        res = read_csv(inputpath('test2d_narrow.csv'), wide=False)
+        assert_array_equal(res, self.io_2d)
+
+        res = read_csv(inputpath('test3d_narrow.csv'), wide=False)
+        assert_array_equal(res, self.io_3d)
+
+        # missing values
+        res = read_csv(inputpath('testmissing_values_narrow.csv'), wide=False)
+        assert_array_nan_equal(res, self.io_narrow_missing_values)
+
+        # unsorted values
+        res = read_csv(inputpath('testunsorted_narrow.csv'), wide=False)
+        assert_array_equal(res, self.io_unsorted)
+
     def test_read_eurostat(self):
         la = read_eurostat(inputpath('test5d_eurostat.csv'))
         self.assertEqual(la.ndim, 5)
@@ -2667,19 +2689,48 @@ def test_read_excel_xlwings(self):
         axis = Axis('dim=1d,2d,3d,5d')
 
         arr = read_excel(inputpath('test.xlsx'), axis['1d'])
-        assert_array_equal(arr, ndtest(3))
+        assert_array_equal(arr, self.io_1d)
 
         # missing rows + fill_value argument
         arr = read_excel(inputpath('test.xlsx'), 'missing_values', fill_value=42)
         expected = self.io_missing_values.copy()
         expected[isnan(expected)] = 42
         assert_array_equal(arr, expected)
 
-        # invalid keyword argument
+        #################
+        # narrow format #
+        #################
+        arr = read_excel(inputpath('test_narrow.xlsx'), '1d', wide=False)
+        assert_array_equal(arr, self.io_1d)
+
+        arr = read_excel(inputpath('test_narrow.xlsx'), '2d', wide=False)
+        assert_array_equal(arr, self.io_2d)
+
+        arr = read_excel(inputpath('test_narrow.xlsx'), '3d', wide=False)
+        assert_array_equal(arr, self.io_3d)
+
+        # missing rows + fill_value argument
+        arr = read_excel(inputpath('test_narrow.xlsx'), 'missing_values', fill_value=42, wide=False)
+        expected = self.io_narrow_missing_values.copy()
+        expected[isnan(expected)] = 42
+        assert_array_equal(arr, expected)
+
+        # unsorted values
+        arr = read_excel(inputpath('test_narrow.xlsx'), 'unsorted', wide=False)
+        assert_array_equal(arr, self.io_unsorted)
+
+        ##############################
+        #  invalid keyword argument  #
+        ##############################
+
         with self.assertRaisesRegexp(TypeError, "'dtype' is an invalid keyword argument for this function when using "
                                                 "the xlwings backend"):
             read_excel(inputpath('test.xlsx'), engine='xlwings', dtype=float)
 
+        #################
+        #  blank cells  #
+        #################
+
         # Excel sheet with blank cells on right/bottom border of the array to read
         fpath = inputpath('test_blank_cells.xlsx')
         good = read_excel(fpath, 'good')
@@ -2722,14 +2773,41 @@ def test_read_excel_pandas(self):
         axis = Axis('dim=1d,2d,3d,5d')
 
         arr = read_excel(inputpath('test.xlsx'), axis['1d'], engine='xlrd')
-        assert_array_equal(arr, ndtest(3))
+        assert_array_equal(arr, self.io_1d)
 
         # missing rows + fill_value argument
         arr = read_excel(inputpath('test.xlsx'), 'missing_values', fill_value=42, engine='xlrd')
         expected = self.io_missing_values.copy()
         expected[isnan(expected)] = 42
         assert_array_equal(arr, expected)
 
+        #################
+        # narrow format #
+        #################
+        arr = read_excel(inputpath('test_narrow.xlsx'), '1d', wide=False, engine='xlrd')
+        assert_array_equal(arr, self.io_1d)
+
+        arr = read_excel(inputpath('test_narrow.xlsx'), '2d', wide=False, engine='xlrd')
+        assert_array_equal(arr, self.io_2d)
+
+        arr = read_excel(inputpath('test_narrow.xlsx'), '3d', wide=False, engine='xlrd')
+        assert_array_equal(arr, self.io_3d)
+
+        # missing rows + fill_value argument
+        arr = read_excel(inputpath('test_narrow.xlsx'), 'missing_values',
+                         fill_value=42, wide=False, engine='xlrd')
+        expected = self.io_narrow_missing_values
+        expected[isnan(expected)] = 42
+        assert_array_equal(arr, expected)
+
+        # unsorted values
+        arr = read_excel(inputpath('test_narrow.xlsx'), 'unsorted', wide=False, engine='xlrd')
+        assert_array_equal(arr, self.io_unsorted)
+
+        #################
+        #  blank cells  #
+        #################
+
         # Excel sheet with blank cells on right/bottom border of the array to read
         fpath = inputpath('test_blank_cells.xlsx')
         good1 = read_excel(fpath, 'good', engine='xlrd')

-Original file line number
+Diff line change
@@ @@ -0,0 +1,4 @@ @@
 +a,value
 +a0,0
 +a1,1
 +a2,2