Softmax margin training

yzhangcs · yzhangcs · commit 0c3ec4ed1a91 · 2021-07-29T13:51:01.000+08:00
diff --git a/supar/cmds/crf2o_dep.py b/supar/cmds/crf2o_dep.py
@@ -30,7 +30,7 @@ def main():
     subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
     subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
-    subparser.add_argument('--loss', choices=['crf', 'max-margin'], default='crf', help='loss for global training')
+    subparser.add_argument('--loss', choices=['crf', 'max-marg', 'softmax-marg'], default='crf', help='training criteria')
     # evaluate
     subparser = subparsers.add_parser('evaluate', help='Evaluate the specified parser and dataset.')
     subparser.add_argument('--punct', action='store_true', help='whether to include punctuation')
diff --git a/supar/cmds/crf_con.py b/supar/cmds/crf_con.py
@@ -26,7 +26,7 @@ def main():
     subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
     subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
-    subparser.add_argument('--loss', choices=['crf', 'max-margin'], default='crf', help='loss for global training')
+    subparser.add_argument('--loss', choices=['crf', 'max-marg', 'softmax-marg'], default='crf', help='training criteria')
     # evaluate
     subparser = subparsers.add_parser('evaluate', help='Evaluate the specified parser and dataset.')
     subparser.add_argument('--buckets', default=8, type=int, help='max num of buckets to use')
diff --git a/supar/cmds/crf_dep.py b/supar/cmds/crf_dep.py
@@ -30,7 +30,7 @@ def main():
     subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
     subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
-    subparser.add_argument('--loss', choices=['crf', 'max-margin'], default='crf', help='loss for global training')
+    subparser.add_argument('--loss', choices=['crf', 'max-marg', 'softmax-marg'], default='crf', help='training criteria')
     # evaluate
     subparser = subparsers.add_parser('evaluate', help='Evaluate the specified parser and dataset.')
     subparser.add_argument('--punct', action='store_true', help='whether to include punctuation')
diff --git a/supar/models/con.py b/supar/models/con.py
@@ -193,9 +193,12 @@ def loss(self, s_span, s_label, charts, mask, mbr=True):
         if self.args.loss == 'crf':
             span_dist = CRFConstituency(s_span, mask)
             span_loss = -span_dist.log_prob(span_mask).sum() / mask[:, 0].sum()
-        elif self.args.loss == 'max-margin':
+        elif self.args.loss == 'max-marg':
             span_dist = CRFConstituency(s_span + torch.full_like(s_span, 1) - span_mask.float(), mask)
             span_loss = (span_dist.max - span_dist.score(span_mask)).sum() / mask[:, 0].sum()
+        elif self.args.loss == 'softmax-marg':
+            span_dist = CRFConstituency(s_span + torch.full_like(s_span, 1) - span_mask.float(), mask)
+            span_loss = -span_dist.log_prob(span_mask).sum() / mask[:, 0].sum()
         span_probs = span_dist.marginals if mbr else s_span
         label_loss = self.criterion(s_label[span_mask], charts[span_mask])
         loss = span_loss + label_loss
diff --git a/supar/models/dep.py b/supar/models/dep.py
@@ -346,9 +346,12 @@ def loss(self, s_arc, s_rel, arcs, rels, mask, mbr=True, partial=False):
         if self.args.loss == 'crf':
             arc_dist = CRF(s_arc, mask, partial=partial)
             arc_loss = -arc_dist.log_prob(arcs).sum() / mask.sum()
-        elif self.args.loss == 'max-margin':
+        elif self.args.loss == 'max-marg':
             arc_dist = CRF(s_arc + torch.full_like(s_arc, 1).scatter_(-1, arcs.unsqueeze(-1), 0), mask, partial=partial)
             arc_loss = (arc_dist.max - arc_dist.score(arcs)).sum() / mask.sum()
+        elif self.args.loss == 'softmax-marg':
+            arc_dist = CRF(s_arc + torch.full_like(s_arc, 1).scatter_(-1, arcs.unsqueeze(-1), 0), mask, partial=partial)
+            arc_loss = -arc_dist.log_prob(arcs).sum() / mask.sum()
         arc_probs = arc_dist.marginals if mbr else s_arc
         # -1 denotes un-annotated arcs
         if partial:
@@ -562,11 +565,16 @@ def loss(self, s_arc, s_sib, s_rel, arcs, sibs, rels, mask, mbr=True, partial=Fa
         if self.args.loss == 'crf':
             arc_dist = CRF2oDependency((s_arc, s_sib), mask, partial=partial)
             arc_loss = -arc_dist.log_prob((arcs, sibs)).sum() / mask.sum()
-        elif self.args.loss == 'max-margin':
+        elif self.args.loss == 'max-marg':
             s_arc = s_arc + torch.full_like(s_arc, 1).scatter_(-1, arcs.unsqueeze(-1), 0)
             s_sib = s_sib + torch.full_like(s_sib, 1).masked_fill_(sibs.unsqueeze(-1).eq(sibs.new_tensor(range(seq_len))), 0)
             arc_dist = CRF2oDependency((s_arc, s_sib), mask, partial=partial)
             arc_loss = (arc_dist.max - arc_dist.score((arcs, sibs))).sum() / mask.sum()
+        elif self.args.loss == 'softmax-marg':
+            s_arc = s_arc + torch.full_like(s_arc, 1).scatter_(-1, arcs.unsqueeze(-1), 0)
+            s_sib = s_sib + torch.full_like(s_sib, 1).masked_fill_(sibs.unsqueeze(-1).eq(sibs.new_tensor(range(seq_len))), 0)
+            arc_dist = CRF2oDependency((s_arc, s_sib), mask, partial=partial)
+            arc_loss = -arc_dist.log_prob((arcs, sibs)).sum() / mask.sum()
         arc_probs = arc_dist.marginals if mbr else s_arc
         # -1 denotes un-annotated arcs
         if partial: