Move init of optimizer/scheduler to build

yzhangcs · yzhangcs · commit 9cb8334019f0 · 2020-11-27T13:41:32.000+08:00
diff --git a/supar/parsers/constituency.py b/supar/parsers/constituency.py
@@ -12,6 +12,8 @@
 from supar.utils.logging import get_logger, progress_bar
 from supar.utils.metric import SpanMetric
 from supar.utils.transform import Tree
+from torch.optim import Adam
+from torch.optim.lr_scheduler import ExponentialLR
 
 logger = get_logger(__name__)
 
@@ -199,13 +201,22 @@ def _predict(self, loader):
         return preds
 
     @classmethod
-    def build(cls, path, min_freq=2, fix_len=20, **kwargs):
+    def build(cls, path,
+              optimizer_args={'lr': 2e-3, 'betas': (.9, .9), 'eps': 1e-12},
+              scheduler_args={'gamma': .75**(1/5000)},
+              min_freq=2,
+              fix_len=20,
+              **kwargs):
         r"""
         Build a brand-new Parser, including initialization of all data fields and model parameters.
 
         Args:
             path (str):
                 The path of the model to be saved.
+            optimizer_args (dict):
+                Arguments for creating an optimizer.
+            scheduler_args (dict):
+                Arguments for creating a scheduler.
             min_freq (str):
                 The minimum frequency needed to include a token in the vocabulary. Default: 2.
             fix_len (int):
@@ -263,6 +274,11 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
             'eos_index': WORD.eos_index,
             'feat_pad_index': FEAT.pad_index
         })
+
+        logger.info("Building the model")
         model = cls.MODEL(**args)
         model.load_pretrained(WORD.embed).to(args.device)
-        return cls(args, model, transform)
+        optimizer = Adam(model.parameters(), **optimizer_args)
+        scheduler = ExponentialLR(optimizer, **scheduler_args)
+
+        return cls(args, model, transform, optimizer, scheduler)
diff --git a/supar/parsers/dependency.py b/supar/parsers/dependency.py
@@ -14,6 +14,8 @@
 from supar.utils.logging import get_logger, progress_bar
 from supar.utils.metric import AttachmentMetric
 from supar.utils.transform import CoNLL
+from torch.optim import Adam
+from torch.optim.lr_scheduler import ExponentialLR
 
 logger = get_logger(__name__)
 
@@ -168,9 +170,7 @@ def _evaluate(self, loader):
             mask[:, 0] = 0
             s_arc, s_rel = self.model(words, feats)
             loss = self.model.loss(s_arc, s_rel, arcs, rels, mask, self.args.partial)
-            arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask,
-                                                     self.args.tree,
-                                                     self.args.proj)
+            arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask, self.args.tree, self.args.proj)
             if self.args.partial:
                 mask &= arcs.ge(0)
             # ignore all punctuation if not specified
@@ -194,9 +194,7 @@ def _predict(self, loader):
             mask[:, 0] = 0
             lens = mask.sum(1).tolist()
             s_arc, s_rel = self.model(words, feats)
-            arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask,
-                                                     self.args.tree,
-                                                     self.args.proj)
+            arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask, self.args.tree, self.args.proj)
             arcs.extend(arc_preds[mask].split(lens))
             rels.extend(rel_preds[mask].split(lens))
             if self.args.prob:
@@ -211,13 +209,21 @@ def _predict(self, loader):
         return preds
 
     @classmethod
-    def build(cls, path, min_freq=2, fix_len=20, **kwargs):
+    def build(cls, path,
+              optimizer_args={'lr': 2e-3, 'betas': (.9, .9), 'eps': 1e-12},
+              scheduler_args={'gamma': .75**(1/5000)},
+              min_freq=2,
+              fix_len=20, **kwargs):
         r"""
         Build a brand-new Parser, including initialization of all data fields and model parameters.
 
         Args:
             path (str):
                 The path of the model to be saved.
+            optimizer_args (dict):
+                Arguments for creating an optimizer.
+            scheduler_args (dict):
+                Arguments for creating a scheduler.
             min_freq (str):
                 The minimum frequency needed to include a token in the vocabulary. Default: 2.
             fix_len (int):
@@ -273,9 +279,15 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
             'bos_index': WORD.bos_index,
             'feat_pad_index': FEAT.pad_index,
         })
+
+        logger.info("Building the model")
         model = cls.MODEL(**args)
         model.load_pretrained(WORD.embed).to(args.device)
-        return cls(args, model, transform)
+
+        optimizer = Adam(model.parameters(), **optimizer_args)
+        scheduler = ExponentialLR(optimizer, **scheduler_args)
+
+        return cls(args, model, transform, optimizer, scheduler)
 
 
 class CRFNPDependencyParser(BiaffineDependencyParser):
@@ -584,9 +596,7 @@ def _train(self, loader):
             # ignore the first token of each sentence
             mask[:, 0] = 0
             s_arc, s_rel = self.model(words, feats)
-            loss, s_arc = self.model.loss(s_arc, s_rel, arcs, rels, mask,
-                                          self.args.mbr,
-                                          self.args.partial)
+            loss, s_arc = self.model.loss(s_arc, s_rel, arcs, rels, mask, self.args.mbr, self.args.partial)
             loss.backward()
             nn.utils.clip_grad_norm_(self.model.parameters(), self.args.clip)
             self.optimizer.step()
@@ -612,12 +622,8 @@ def _evaluate(self, loader):
             # ignore the first token of each sentence
             mask[:, 0] = 0
             s_arc, s_rel = self.model(words, feats)
-            loss, s_arc = self.model.loss(s_arc, s_rel, arcs, rels, mask,
-                                          self.args.mbr,
-                                          self.args.partial)
-            arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask,
-                                                     self.args.tree,
-                                                     self.args.proj)
+            loss, s_arc = self.model.loss(s_arc, s_rel, arcs, rels, mask, self.args.mbr, self.args.partial)
+            arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask, self.args.tree, self.args.proj)
             if self.args.partial:
                 mask &= arcs.ge(0)
             # ignore all punctuation if not specified
@@ -643,9 +649,7 @@ def _predict(self, loader):
             s_arc, s_rel = self.model(words, feats)
             if self.args.mbr:
                 s_arc = self.model.crf(s_arc, mask, mbr=True)
-            arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask,
-                                                     self.args.tree,
-                                                     self.args.proj)
+            arc_preds, rel_preds = self.model.decode(s_arc, s_rel, mask, self.args.tree, self.args.proj)
             arcs.extend(arc_preds[mask].split(lens))
             rels.extend(rel_preds[mask].split(lens))
             if self.args.prob:
@@ -780,9 +784,7 @@ def _train(self, loader):
             # ignore the first token of each sentence
             mask[:, 0] = 0
             s_arc, s_sib, s_rel = self.model(words, feats)
-            loss, s_arc = self.model.loss(s_arc, s_sib, s_rel, arcs, sibs, rels, mask,
-                                          self.args.mbr,
-                                          self.args.partial)
+            loss, s_arc = self.model.loss(s_arc, s_sib, s_rel, arcs, sibs, rels, mask, self.args.mbr, self.args.partial)
             loss.backward()
             nn.utils.clip_grad_norm_(self.model.parameters(), self.args.clip)
             self.optimizer.step()
@@ -808,13 +810,8 @@ def _evaluate(self, loader):
             # ignore the first token of each sentence
             mask[:, 0] = 0
             s_arc, s_sib, s_rel = self.model(words, feats)
-            loss, s_arc = self.model.loss(s_arc, s_sib, s_rel, arcs, sibs, rels, mask,
-                                          self.args.mbr,
-                                          self.args.partial)
-            arc_preds, rel_preds = self.model.decode(s_arc, s_sib, s_rel, mask,
-                                                     self.args.tree,
-                                                     self.args.mbr,
-                                                     self.args.proj)
+            loss, s_arc = self.model.loss(s_arc, s_sib, s_rel, arcs, sibs, rels, mask, self.args.mbr, self.args.partial)
+            arc_preds, rel_preds = self.model.decode(s_arc, s_sib, s_rel, mask, self.args.tree, self.args.mbr, self.args.proj)
             if self.args.partial:
                 mask &= arcs.ge(0)
             # ignore all punctuation if not specified
@@ -840,10 +837,7 @@ def _predict(self, loader):
             s_arc, s_sib, s_rel = self.model(words, feats)
             if self.args.mbr:
                 s_arc = self.model.crf((s_arc, s_sib), mask, mbr=True)
-            arc_preds, rel_preds = self.model.decode(s_arc, s_sib, s_rel, mask,
-                                                     self.args.tree,
-                                                     self.args.mbr,
-                                                     self.args.proj)
+            arc_preds, rel_preds = self.model.decode(s_arc, s_sib, s_rel, mask, self.args.tree, self.args.mbr, self.args.proj)
             arcs.extend(arc_preds[mask].split(lens))
             rels.extend(rel_preds[mask].split(lens))
             if self.args.prob:
@@ -858,13 +852,21 @@ def _predict(self, loader):
         return preds
 
     @classmethod
-    def build(cls, path, min_freq=2, fix_len=20, **kwargs):
+    def build(cls, path,
+              optimizer_args={'lr': 2e-3, 'betas': (.9, .9), 'eps': 1e-12},
+              scheduler_args={'gamma': .75**(1/5000)},
+              min_freq=2,
+              fix_len=20, **kwargs):
         r"""
         Build a brand-new Parser, including initialization of all data fields and model parameters.
 
         Args:
             path (str):
                 The path of the model to be saved.
+            optimizer_args (dict):
+                Arguments for creating an optimizer.
+            scheduler_args (dict):
+                Arguments for creating a scheduler.
             min_freq (str):
                 The minimum frequency needed to include a token in the vocabulary. Default: 2.
             fix_len (int):
@@ -921,6 +923,12 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
             'bos_index': WORD.bos_index,
             'feat_pad_index': FEAT.pad_index
         })
+
+        logger.info("Building the model")
         model = cls.MODEL(**args)
         model = model.load_pretrained(WORD.embed).to(args.device)
-        return cls(args, model, transform)
+
+        optimizer = Adam(model.parameters(), **optimizer_args)
+        scheduler = ExponentialLR(optimizer, **scheduler_args)
+
+        return cls(args, model, transform, optimizer, scheduler)
diff --git a/supar/parsers/parser.py b/supar/parsers/parser.py
@@ -12,34 +12,21 @@
 from supar.utils.metric import Metric
 from supar.utils.parallel import DistributedDataParallel as DDP
 from supar.utils.parallel import is_master
-from torch.optim import Adam
-from torch.optim.lr_scheduler import ExponentialLR
 
 
 class Parser(object):
 
     NAME = None
     MODEL = None
 
-    def __init__(self, args, model, transform):
+    def __init__(self, args, model, transform, optimizer=None, scheduler=None):
         self.args = args
         self.model = model
         self.transform = transform
+        self.optimizer = optimizer
+        self.scheduler = scheduler
 
-    def train(self, train, dev, test,
-              buckets=32,
-              batch_size=5000,
-              lr=2e-3,
-              mu=.9,
-              nu=.9,
-              epsilon=1e-12,
-              clip=5.0,
-              decay=.75,
-              decay_steps=5000,
-              epochs=5000,
-              patience=100,
-              verbose=True,
-              **kwargs):
+    def train(self, train, dev, test, buckets=32, batch_size=5000, clip=5.0, epochs=5000, patience=100, **kwargs):
         args = self.args.update(locals())
         init_logger(logger, verbose=args.verbose)
 
@@ -55,11 +42,8 @@ def train(self, train, dev, test,
         test.build(args.batch_size, args.buckets)
         logger.info(f"\n{'train:':6} {train}\n{'dev:':6} {dev}\n{'test:':6} {test}\n")
 
-        logger.info(f"{self.model}\n")
         if dist.is_initialized():
             self.model = DDP(self.model, device_ids=[args.local_rank], find_unused_parameters=True)
-        self.optimizer = Adam(self.model.parameters(), args.lr, (args.mu, args.nu), args.epsilon)
-        self.scheduler = ExponentialLR(self.optimizer, args.decay**(1/args.decay_steps))
 
         elapsed = timedelta()
         best_e, best_metric = 1, Metric()
@@ -70,9 +54,9 @@ def train(self, train, dev, test,
             logger.info(f"Epoch {epoch} / {args.epochs}:")
             self._train(train.loader)
             loss, dev_metric = self._evaluate(dev.loader)
-            logger.info(f"{'dev:':6} - loss: {loss:.4f} - {dev_metric}")
+            logger.info(f"{'dev:':6} loss: {loss:.4f} - {dev_metric}")
             loss, test_metric = self._evaluate(test.loader)
-            logger.info(f"{'test:':6} - loss: {loss:.4f} - {test_metric}")
+            logger.info(f"{'test:':6} loss: {loss:.4f} - {test_metric}")
 
             t = datetime.now() - start
             # save the model if it is the best so far
@@ -89,8 +73,8 @@ def train(self, train, dev, test,
         loss, metric = self.load(**args)._evaluate(test.loader)
 
         logger.info(f"Epoch {best_e} saved")
-        logger.info(f"{'dev:':6} - {best_metric}")
-        logger.info(f"{'test:':6} - {metric}")
+        logger.info(f"{'dev:':6} {best_metric}")
+        logger.info(f"{'test:':6} {metric}")
         logger.info(f"{elapsed}s elapsed, {elapsed / epoch}s/epoch")
 
     def evaluate(self, data, buckets=8, batch_size=5000, **kwargs):