Batch object

yzhangcs · yzhangcs · commit d6bf4711cbff · 2021-07-18T11:31:48.000+08:00
diff --git a/supar/parsers/const.py b/supar/parsers/const.py
@@ -158,7 +158,8 @@ def _train(self, loader):
 
         bar = progress_bar(loader)
 
-        for i, (words, *feats, trees, charts) in enumerate(bar, 1):
+        for i, batch in enumerate(bar, 1):
+            words, *feats, trees, charts = batch
             word_mask = words.ne(self.args.pad_index)[:, 1:]
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = (mask.unsqueeze(1) & mask.unsqueeze(2)).triu_(1)
@@ -181,7 +182,8 @@ def _evaluate(self, loader):
 
         total_loss, metric = 0, SpanMetric()
 
-        for words, *feats, trees, charts in loader:
+        for batch in loader:
+            words, *feats, trees, charts = batch
             word_mask = words.ne(self.args.pad_index)[:, 1:]
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = (mask.unsqueeze(1) & mask.unsqueeze(2)).triu_(1)
@@ -204,7 +206,8 @@ def _predict(self, loader):
         self.model.eval()
 
         preds = {'trees': [], 'probs': [] if self.args.prob else None}
-        for words, *feats, trees in progress_bar(loader):
+        for batch in progress_bar(loader):
+            words, *feats, trees = batch
             word_mask = words.ne(self.args.pad_index)[:, 1:]
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = (mask.unsqueeze(1) & mask.unsqueeze(2)).triu_(1)
@@ -449,7 +452,8 @@ def _train(self, loader):
 
         bar = progress_bar(loader)
 
-        for i, (words, *feats, trees, charts) in enumerate(bar, 1):
+        for i, batch in enumerate(bar, 1):
+            words, *feats, trees, charts = batch
             word_mask = words.ne(self.args.pad_index)[:, 1:]
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = (mask.unsqueeze(1) & mask.unsqueeze(2)).triu_(1)
@@ -472,7 +476,8 @@ def _evaluate(self, loader):
 
         total_loss, metric = 0, SpanMetric()
 
-        for words, *feats, trees, charts in loader:
+        for batch in loader:
+            words, *feats, trees, charts = batch
             word_mask = words.ne(self.args.pad_index)[:, 1:]
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = (mask.unsqueeze(1) & mask.unsqueeze(2)).triu_(1)
@@ -495,7 +500,8 @@ def _predict(self, loader):
         self.model.eval()
 
         preds = {'trees': [], 'probs': [] if self.args.prob else None}
-        for words, *feats, trees in progress_bar(loader):
+        for batch in progress_bar(loader):
+            words, *feats, trees = batch
             word_mask = words.ne(self.args.pad_index)[:, 1:]
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = (mask.unsqueeze(1) & mask.unsqueeze(2)).triu_(1)
diff --git a/supar/parsers/dep.py b/supar/parsers/dep.py
@@ -155,7 +155,8 @@ def _train(self, loader):
 
         bar, metric = progress_bar(loader), AttachmentMetric()
 
-        for i, (words, texts, *feats, arcs, rels) in enumerate(bar, 1):
+        for i, batch in enumerate(bar, 1):
+            words, texts, *feats, arcs, rels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -186,7 +187,8 @@ def _evaluate(self, loader):
 
         total_loss, metric = 0, AttachmentMetric()
 
-        for words, texts, *feats, arcs, rels in loader:
+        for batch in loader:
+            words, texts, *feats, arcs, rels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -210,7 +212,8 @@ def _predict(self, loader):
         self.model.eval()
 
         preds = {'arcs': [], 'rels': [], 'probs': [] if self.args.prob else None}
-        for words, texts, *feats in progress_bar(loader):
+        for batch in progress_bar(loader):
+            words, texts, *feats = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -465,7 +468,8 @@ def _train(self, loader):
 
         bar, metric = progress_bar(loader), AttachmentMetric()
 
-        for i, (words, texts, *feats, arcs, rels) in enumerate(bar, 1):
+        for i, batch in enumerate(bar, 1):
+            words, texts, *feats, arcs, rels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -496,7 +500,8 @@ def _evaluate(self, loader):
 
         total_loss, metric = 0, AttachmentMetric()
 
-        for words, texts, *feats, arcs, rels in loader:
+        for batch in loader:
+            words, texts, *feats, arcs, rels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -520,7 +525,8 @@ def _predict(self, loader):
         self.model.eval()
 
         preds = {'arcs': [], 'rels': [], 'probs': [] if self.args.prob else None}
-        for words, texts, *feats in progress_bar(loader):
+        for batch in progress_bar(loader):
+            words, texts, *feats = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -681,7 +687,8 @@ def _train(self, loader):
 
         bar, metric = progress_bar(loader), AttachmentMetric()
 
-        for i, (words, texts, *feats, arcs, sibs, rels) in enumerate(bar, 1):
+        for i, batch in enumerate(bar, 1):
+            words, texts, *feats, arcs, sibs, rels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -712,7 +719,8 @@ def _evaluate(self, loader):
 
         total_loss, metric = 0, AttachmentMetric()
 
-        for words, texts, *feats, arcs, sibs, rels in loader:
+        for batch in loader:
+            words, texts, *feats, arcs, sibs, rels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -736,7 +744,8 @@ def _predict(self, loader):
         self.model.eval()
 
         preds = {'arcs': [], 'rels': [], 'probs': [] if self.args.prob else None}
-        for words, texts, *feats in progress_bar(loader):
+        for batch in progress_bar(loader):
+            words, texts, *feats = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -987,7 +996,8 @@ def _train(self, loader):
 
         bar, metric = progress_bar(loader), AttachmentMetric()
 
-        for i, (words, texts, *feats, arcs, rels) in enumerate(bar, 1):
+        for i, batch in enumerate(bar, 1):
+            words, texts, *feats, arcs, rels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -1018,7 +1028,8 @@ def _evaluate(self, loader):
 
         total_loss, metric = 0, AttachmentMetric()
 
-        for words, texts, *feats, arcs, rels in loader:
+        for batch in loader:
+            words, texts, *feats, arcs, rels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
@@ -1042,7 +1053,8 @@ def _predict(self, loader):
         self.model.eval()
 
         preds = {'arcs': [], 'rels': [], 'probs': [] if self.args.prob else None}
-        for words, texts, *feats in progress_bar(loader):
+        for batch in progress_bar(loader):
+            words, texts, *feats = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             # ignore the first token of each sentence
diff --git a/supar/parsers/sdp.py b/supar/parsers/sdp.py
@@ -132,7 +132,8 @@ def _train(self, loader):
 
         bar, metric = progress_bar(loader), ChartMetric()
 
-        for i, (words, *feats, labels) in enumerate(bar, 1):
+        for i, batch in enumerate(bar, 1):
+            words, *feats, labels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = mask.unsqueeze(1) & mask.unsqueeze(2)
@@ -158,7 +159,8 @@ def _evaluate(self, loader):
 
         total_loss, metric = 0, ChartMetric()
 
-        for words, *feats, labels in loader:
+        for batch in loader:
+            words, *feats, labels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = mask.unsqueeze(1) & mask.unsqueeze(2)
@@ -178,7 +180,8 @@ def _predict(self, loader):
         self.model.eval()
 
         preds = {'labels': [], 'probs': [] if self.args.prob else None}
-        for words, *feats in progress_bar(loader):
+        for batch in progress_bar(loader):
+            words, *feats = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = mask.unsqueeze(1) & mask.unsqueeze(2)
@@ -409,7 +412,8 @@ def _train(self, loader):
 
         bar, metric = progress_bar(loader), ChartMetric()
 
-        for i, (words, *feats, labels) in enumerate(bar, 1):
+        for i, batch in enumerate(bar, 1):
+            words, *feats, labels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = mask.unsqueeze(1) & mask.unsqueeze(2)
@@ -435,7 +439,8 @@ def _evaluate(self, loader):
 
         total_loss, metric = 0, ChartMetric()
 
-        for words, *feats, labels in loader:
+        for batch in loader:
+            words, *feats, labels = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = mask.unsqueeze(1) & mask.unsqueeze(2)
@@ -455,7 +460,8 @@ def _predict(self, loader):
         self.model.eval()
 
         preds = {'labels': [], 'probs': [] if self.args.prob else None}
-        for words, *feats in progress_bar(loader):
+        for batch in progress_bar(loader):
+            words, *feats = batch
             word_mask = words.ne(self.args.pad_index)
             mask = word_mask if len(words.shape) < 3 else word_mask.any(-1)
             mask = mask.unsqueeze(1) & mask.unsqueeze(2)
diff --git a/supar/utils/data.py b/supar/utils/data.py
@@ -1,10 +1,10 @@
 # -*- coding: utf-8 -*-
 
-from collections import namedtuple
-
 import torch
 import torch.distributed as dist
 from supar.utils.alg import kmeans
+from supar.utils.transform import Batch
+from torch.utils.data import DataLoader
 
 
 class Dataset(torch.utils.data.Dataset):
@@ -74,35 +74,17 @@ def __getstate__(self):
     def __setstate__(self, state):
         self.__dict__.update(state)
 
-    def collate_fn(self, batch):
-        if not hasattr(self, 'fields'):
-            raise RuntimeError("The fields are not numericalized yet. Please build the dataset first.")
-        return {f: [s.transformed[f.name] for s in batch] for f in self.fields}
-
     def build(self, batch_size, n_buckets=1, shuffle=False, distributed=False):
         # numericalize all fields
-        self.fields = self.transform(self.sentences)
+        fields = self.transform(self.sentences)
         # NOTE: the final bucket count is roughly equal to n_buckets
-        self.buckets = dict(zip(*kmeans([len(s.transformed[self.fields[0].name]) for s in self], n_buckets)))
+        self.buckets = dict(zip(*kmeans([len(s.transformed[fields[0].name]) for s in self], n_buckets)))
         self.loader = DataLoader(dataset=self,
                                  batch_sampler=Sampler(self.buckets, batch_size, shuffle, distributed),
-                                 collate_fn=self.collate_fn)
+                                 collate_fn=lambda x: Batch(x))
         return self
 
 
-class DataLoader(torch.utils.data.DataLoader):
-    r"""
-    DataLoader, matching with :class:`Dataset`.
-    """
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-
-    def __iter__(self):
-        for batch in super().__iter__():
-            yield namedtuple('Batch', (f.name for f in batch.keys()))(*[f.compose(d) for f, d in batch.items()])
-
-
 class Sampler(torch.utils.data.Sampler):
     r"""
     Sampler that supports for bucketization and token-level batchification.
diff --git a/supar/utils/field.py b/supar/utils/field.py
@@ -365,9 +365,9 @@ def transform(self, charts):
         charts = [self.preprocess(chart) for chart in charts]
         if self.use_vocab:
             charts = [[[self.vocab[i] if i is not None else -1 for i in row] for row in chart] for chart in charts]
+        charts = [torch.tensor(chart) for chart in charts]
         if self.bos:
-            charts = [[[self.bos_index]*len(chart[0])] + chart for chart in charts]
+            charts = [torch.cat((torch.empty_like[:1].fill_(self.bos_index), chart)) for chart in charts]
         if self.eos:
-            charts = [chart + [[self.eos_index]*len(chart[0])] for chart in charts]
-        charts = [torch.tensor(chart) for chart in charts]
+            charts = [torch.cat((chart, torch.empty_like[:1].fill_(self.eos_index))) for chart in charts]
         return charts
diff --git a/supar/utils/transform.py b/supar/utils/transform.py