Save predictions by batch

yzhangcs · yzhangcs · commit 7e1e37c1af56 · 2022-06-02T10:53:52.000+08:00
diff --git a/supar/parsers/const.py b/supar/parsers/const.py
@@ -205,7 +205,6 @@ def _evaluate(self, loader):
     def _predict(self, loader):
         self.model.eval()
 
-        preds = {'trees': [], 'probs': [] if self.args.prob else None}
         for batch in progress_bar(loader):
             words, *feats, trees = batch
             word_mask = words.ne(self.args.pad_index)[:, 1:]
@@ -215,12 +214,10 @@ def _predict(self, loader):
             s_span, s_label = self.model(words, feats)
             s_span = ConstituencyCRF(s_span, mask[:, 0].sum(-1)).marginals if self.args.mbr else s_span
             chart_preds = self.model.decode(s_span, s_label, mask)
-            preds['trees'].extend([Tree.build(tree, [(i, j, self.CHART.vocab[label]) for i, j, label in chart])
-                                   for tree, chart in zip(trees, chart_preds)])
+            batch.trees = [Tree.build(tree, [(i, j, self.CHART.vocab[label]) for i, j, label in chart])
+                           for tree, chart in zip(trees, chart_preds)]
             if self.args.prob:
-                preds['probs'].extend([prob[:i-1, 1:i].cpu() for i, prob in zip(lens, s_span)])
-
-        return preds
+                batch.probs = [prob[:i-1, 1:i].cpu() for i, prob in zip(lens, s_span)]
 
     @classmethod
     def build(cls, path, min_freq=2, fix_len=20, **kwargs):
@@ -498,7 +495,6 @@ def _evaluate(self, loader):
     def _predict(self, loader):
         self.model.eval()
 
-        preds = {'trees': [], 'probs': [] if self.args.prob else None}
         for batch in progress_bar(loader):
             words, *feats, trees = batch
             word_mask = words.ne(self.args.pad_index)[:, 1:]
@@ -508,9 +504,7 @@ def _predict(self, loader):
             s_span, s_pair, s_label = self.model(words, feats)
             s_span = self.model.inference((s_span, s_pair), mask)
             chart_preds = self.model.decode(s_span, s_label, mask)
-            preds['trees'].extend([Tree.build(tree, [(i, j, self.CHART.vocab[label]) for i, j, label in chart])
-                                   for tree, chart in zip(trees, chart_preds)])
+            batch.trees = [Tree.build(tree, [(i, j, self.CHART.vocab[label]) for i, j, label in chart])
+                           for tree, chart in zip(trees, chart_preds)]
             if self.args.prob:
-                preds['probs'].extend([prob[:i-1, 1:i].cpu() for i, prob in zip(lens, s_span)])
-
-        return preds
+                batch.probs = [prob[:i-1, 1:i].cpu() for i, prob in zip(lens, s_span)]
diff --git a/supar/parsers/dep.py b/supar/parsers/dep.py
@@ -212,7 +212,6 @@ def _evaluate(self, loader):
     def _predict(self, loader):
         self.model.eval()
 
-        preds = {'arcs': [], 'rels': [], 'probs': [] if self.args.prob else None}
         for batch in progress_bar(loader):
             words, texts, *feats = batch
             word_mask = words.ne(self.args.pad_index)
@@ -222,14 +221,10 @@ def _predict(self, loader):
             lens = mask.sum(1).tolist()
             s_arc, s_rel = self.model(words, feats)
             arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask, self.args.tree, self.args.proj)
-            preds['arcs'].extend(arc_preds[mask].split(lens))
-            preds['rels'].extend(rel_preds[mask].split(lens))
+            batch.arcs = [i.tolist() for i in arc_preds[mask].split(lens)]
+            batch.rels = [self.REL.vocab[i.tolist()] for i in rel_preds[mask].split(lens)]
             if self.args.prob:
-                preds['probs'].extend([prob[1:i+1, :i+1].cpu() for i, prob in zip(lens, s_arc.softmax(-1).unbind())])
-        preds['arcs'] = [seq.tolist() for seq in preds['arcs']]
-        preds['rels'] = [self.REL.vocab[seq.tolist()] for seq in preds['rels']]
-
-        return preds
+                batch.probs = [prob[1:i+1, :i+1].cpu() for i, prob in zip(lens, s_arc.softmax(-1).unbind())]
 
     @classmethod
     def build(cls, path, min_freq=2, fix_len=20, **kwargs):
@@ -526,7 +521,6 @@ def _predict(self, loader):
         self.model.eval()
 
         CRF = DependencyCRF if self.args.proj else MatrixTree
-        preds = {'arcs': [], 'rels': [], 'probs': [] if self.args.prob else None}
         for batch in progress_bar(loader):
             words, _, *feats = batch
             word_mask = words.ne(self.args.pad_index)
@@ -538,15 +532,11 @@ def _predict(self, loader):
             s_arc = CRF(s_arc, lens).marginals if self.args.mbr else s_arc
             arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask, self.args.tree, self.args.proj)
             lens = lens.tolist()
-            preds['arcs'].extend(arc_preds[mask].split(lens))
-            preds['rels'].extend(rel_preds[mask].split(lens))
+            batch.arcs = [i.tolist() for i in arc_preds[mask].split(lens)]
+            batch.rels = [self.REL.vocab[i.tolist()] for i in rel_preds[mask].split(lens)]
             if self.args.prob:
                 arc_probs = s_arc if self.args.mbr else s_arc.softmax(-1)
-                preds['probs'].extend([prob[1:i+1, :i+1].cpu() for i, prob in zip(lens, arc_probs.unbind())])
-        preds['arcs'] = [seq.tolist() for seq in preds['arcs']]
-        preds['rels'] = [self.REL.vocab[seq.tolist()] for seq in preds['rels']]
-
-        return preds
+                batch.probs = [prob[1:i+1, :i+1].cpu() for i, prob in zip(lens, arc_probs.unbind())]
 
 
 class CRF2oDependencyParser(BiaffineDependencyParser):
@@ -745,7 +735,6 @@ def _evaluate(self, loader):
     def _predict(self, loader):
         self.model.eval()
 
-        preds = {'arcs': [], 'rels': [], 'probs': [] if self.args.prob else None}
         for batch in progress_bar(loader):
             words, texts, *feats = batch
             word_mask = words.ne(self.args.pad_index)
@@ -757,15 +746,11 @@ def _predict(self, loader):
             s_arc, s_sib = Dependency2oCRF((s_arc, s_sib), lens).marginals if self.args.mbr else (s_arc, s_sib)
             arc_preds, rel_preds = self.model.decode(s_arc, s_sib, s_rel, mask, self.args.tree, self.args.mbr, self.args.proj)
             lens = lens.tolist()
-            preds['arcs'].extend(arc_preds[mask].split(lens))
-            preds['rels'].extend(rel_preds[mask].split(lens))
+            batch.arcs = [i.tolist() for i in arc_preds[mask].split(lens)]
+            batch.rels = [self.REL.vocab[i.tolist()] for i in rel_preds[mask].split(lens)]
             if self.args.prob:
                 arc_probs = s_arc if self.args.mbr else s_arc.softmax(-1)
-                preds['probs'].extend([prob[1:i+1, :i+1].cpu() for i, prob in zip(lens, arc_probs.unbind())])
-        preds['arcs'] = [seq.tolist() for seq in preds['arcs']]
-        preds['rels'] = [self.REL.vocab[seq.tolist()] for seq in preds['rels']]
-
-        return preds
+                batch.probs = [prob[1:i+1, :i+1].cpu() for i, prob in zip(lens, arc_probs.unbind())]
 
     @classmethod
     def build(cls, path, min_freq=2, fix_len=20, **kwargs):
@@ -1054,7 +1039,6 @@ def _evaluate(self, loader):
     def _predict(self, loader):
         self.model.eval()
 
-        preds = {'arcs': [], 'rels': [], 'probs': [] if self.args.prob else None}
         for batch in progress_bar(loader):
             words, texts, *feats = batch
             word_mask = words.ne(self.args.pad_index)
@@ -1065,11 +1049,7 @@ def _predict(self, loader):
             s_arc, s_sib, s_rel = self.model(words, feats)
             s_arc = self.model.inference((s_arc, s_sib), mask)
             arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask, self.args.tree, self.args.proj)
-            preds['arcs'].extend(arc_preds[mask].split(lens))
-            preds['rels'].extend(rel_preds[mask].split(lens))
+            batch.arcs = [i.tolist() for i in arc_preds[mask].split(lens)]
+            batch.rels = [self.REL.vocab[i.tolist()] for i in rel_preds[mask].split(lens)]
             if self.args.prob:
-                preds['probs'].extend([prob[1:i+1, :i+1].cpu() for i, prob in zip(lens, s_arc.unbind())])
-        preds['arcs'] = [seq.tolist() for seq in preds['arcs']]
-        preds['rels'] = [self.REL.vocab[seq.tolist()] for seq in preds['rels']]
-
-        return preds
+                batch.probs = [prob[1:i+1, :i+1].cpu() for i, prob in zip(lens, s_arc.unbind())]
diff --git a/supar/parsers/parser.py b/supar/parsers/parser.py
@@ -134,14 +134,12 @@ def predict(self, data, pred=None, lang=None, buckets=8, batch_size=5000, prob=F
 
         logger.info("Making predictions on the dataset")
         start = datetime.now()
-        preds = self._predict(dataset.loader)
+        self._predict(dataset.loader)
         elapsed = datetime.now() - start
 
-        for name, value in preds.items():
-            setattr(dataset, name, value)
         if pred is not None and is_master():
             logger.info(f"Saving predicted results to {pred}")
-            self.transform.save(pred, dataset.sentences)
+            self.transform.save(pred, dataset)
         logger.info(f"{elapsed}s elapsed, {len(dataset) / elapsed.total_seconds():.2f} Sents/s")
 
         return dataset
diff --git a/supar/parsers/sdp.py b/supar/parsers/sdp.py
@@ -179,7 +179,6 @@ def _evaluate(self, loader):
     def _predict(self, loader):
         self.model.eval()
 
-        preds = {'labels': [], 'probs': [] if self.args.prob else None}
         for batch in progress_bar(loader):
             words, *feats = batch
             word_mask = words.ne(self.args.pad_index)
@@ -189,13 +188,11 @@ def _predict(self, loader):
             lens = mask[:, 1].sum(-1).tolist()
             s_edge, s_label = self.model(words, feats)
             label_preds = self.model.decode(s_edge, s_label).masked_fill(~mask, -1)
-            preds['labels'].extend(chart[1:i, :i].tolist() for i, chart in zip(lens, label_preds))
+            batch.labels = [CoNLL.build_relations([[self.LABEL.vocab[i] if i >= 0 else None for i in row]
+                                                   for row in chart[1:i, :i].tolist()])
+                            for i, chart in zip(lens, label_preds)]
             if self.args.prob:
-                preds['probs'].extend([prob[1:i, :i].cpu() for i, prob in zip(lens, s_edge.softmax(-1).unbind())])
-        preds['labels'] = [CoNLL.build_relations([[self.LABEL.vocab[i] if i >= 0 else None for i in row] for row in chart])
-                           for chart in preds['labels']]
-
-        return preds
+                batch.probs = [prob[1:i, :i].cpu() for i, prob in zip(lens, s_edge.softmax(-1).unbind())]
 
     @classmethod
     def build(cls, path, min_freq=7, fix_len=20, **kwargs):
@@ -459,7 +456,6 @@ def _evaluate(self, loader):
     def _predict(self, loader):
         self.model.eval()
 
-        preds = {'labels': [], 'probs': [] if self.args.prob else None}
         for batch in progress_bar(loader):
             words, *feats = batch
             word_mask = words.ne(self.args.pad_index)
@@ -470,10 +466,8 @@ def _predict(self, loader):
             s_edge, s_sib, s_cop, s_grd, s_label = self.model(words, feats)
             s_edge = self.model.inference((s_edge, s_sib, s_cop, s_grd), mask)
             label_preds = self.model.decode(s_edge, s_label).masked_fill(~mask, -1)
-            preds['labels'].extend(chart[1:i, :i].tolist() for i, chart in zip(lens, label_preds))
+            batch.labels = [CoNLL.build_relations([[self.LABEL.vocab[i] if i >= 0 else None for i in row]
+                                                   for row in chart[1:i, :i].tolist()])
+                            for i, chart in zip(lens, label_preds)]
             if self.args.prob:
-                preds['probs'].extend([prob[1:i, :i].cpu() for i, prob in zip(lens, s_edge.unbind())])
-        preds['labels'] = [CoNLL.build_relations([[self.LABEL.vocab[i] if i >= 0 else None for i in row] for row in chart])
-                           for chart in preds['labels']]
-
-        return preds
+                batch.probs = [prob[1:i, :i].cpu() for i, prob in zip(lens, s_edge.unbind())]
diff --git a/supar/utils/transform.py b/supar/utils/transform.py
@@ -11,7 +11,7 @@
 from supar.utils.tokenizer import Tokenizer
 
 if TYPE_CHECKING:
-    from supar.utils import Field
+    from supar.utils import Dataset, Field
 
 logger = get_logger(__name__)
 
@@ -83,9 +83,10 @@ def src(self):
     def tgt(self):
         raise AttributeError
 
-    def save(self, path: str, sentences: List['Sentence']) -> None:
+    def save(self, path: str, data: Dataset) -> None:
         with open(path, 'w') as f:
-            f.write('\n'.join([str(i) for i in sentences]) + '\n')
+            for i in data:
+                f.write(str(i) + '\n')
 
 
 class CoNLL(Transform):
@@ -679,11 +680,14 @@ def __getitem__(self, index):
     def __getattr__(self, name):
         if name in self.__dict__:
             return self.__dict__[name]
-        if name in self.fields:
-            return self.fields[name]
-        if hasattr(self.sentences[0], name):
-            return [getattr(s, name) for s in self.sentences]
-        raise AttributeError
+        return [getattr(s, name) for s in self.sentences]
+
+    def __setattr__(self, name, value):
+        if name not in ('sentences', 'fields', 'names'):
+            for s, v in zip(self.sentences, value):
+                setattr(s, name, v)
+        else:
+            self.__dict__[name] = value
 
 
 class Sentence(object):