Fix yzhangcs#71

yzhangcs · yzhangcs · commit 872202ed57b3 · 2021-05-12T13:54:10.000+08:00
diff --git a/setup.py b/setup.py
@@ -4,7 +4,7 @@
 
 setup(
     name='supar',
-    version='1.1.0',
+    version='1.1.1',
     author='Yu Zhang',
     author_email='yzhang.cs@outlook.com',
     description='Syntactic/Semantic Parsing Models',
diff --git a/supar/__init__.py b/supar/__init__.py
@@ -16,7 +16,7 @@
            'VISemanticDependencyParser',
            'Parser']
 
-__version__ = '1.1.0'
+__version__ = '1.1.1'
 
 PARSER = {parser.NAME: parser for parser in [BiaffineDependencyParser,
                                              CRFDependencyParser,
diff --git a/supar/parsers/con.py b/supar/parsers/con.py
@@ -7,7 +7,7 @@
 from supar.models import CRFConstituencyModel, VIConstituencyModel
 from supar.parsers.parser import Parser
 from supar.utils import Config, Dataset, Embedding
-from supar.utils.common import bos, eos, pad, unk
+from supar.utils.common import BOS, EOS, PAD, UNK
 from supar.utils.field import ChartField, Field, RawField, SubwordField
 from supar.utils.logging import get_logger, progress_bar
 from supar.utils.metric import SpanMetric
@@ -251,7 +251,7 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
             return parser
 
         logger.info("Building the fields")
-        WORD = Field('words', pad=pad, unk=unk, bos=bos, eos=eos, lower=True)
+        WORD = Field('words', pad=PAD, unk=UNK, bos=BOS, eos=EOS, lower=True)
         TAG, CHAR, BERT = None, None, None
         if args.encoder != 'lstm':
             from transformers import (AutoTokenizer, GPT2Tokenizer,
@@ -267,11 +267,11 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
                                 fn=None if not isinstance(t, (GPT2Tokenizer, GPT2TokenizerFast)) else lambda x: ' '+x)
             WORD.vocab = t.get_vocab()
         else:
-            WORD = Field('words', pad=pad, unk=unk, bos=bos, eos=eos, lower=True)
+            WORD = Field('words', pad=PAD, unk=UNK, bos=BOS, eos=EOS, lower=True)
             if 'tag' in args.feat:
-                TAG = Field('tags', bos=bos, eos=eos)
+                TAG = Field('tags', bos=BOS, eos=EOS)
             if 'char' in args.feat:
-                CHAR = SubwordField('chars', pad=pad, unk=unk, bos=bos, eos=eos, fix_len=args.fix_len)
+                CHAR = SubwordField('chars', pad=PAD, unk=UNK, bos=BOS, eos=EOS, fix_len=args.fix_len)
             if 'bert' in args.feat:
                 from transformers import (AutoTokenizer, GPT2Tokenizer,
                                           GPT2TokenizerFast)
diff --git a/supar/parsers/dep.py b/supar/parsers/dep.py
@@ -8,7 +8,7 @@
                           CRFDependencyModel, VIDependencyModel)
 from supar.parsers.parser import Parser
 from supar.utils import Config, Dataset, Embedding
-from supar.utils.common import bos, pad, unk
+from supar.utils.common import BOS, PAD, UNK
 from supar.utils.field import ChartField, Field, RawField, SubwordField
 from supar.utils.fn import ispunct
 from supar.utils.logging import get_logger, progress_bar
@@ -272,11 +272,11 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
                                 fn=None if not isinstance(t, (GPT2Tokenizer, GPT2TokenizerFast)) else lambda x: ' '+x)
             WORD.vocab = t.get_vocab()
         else:
-            WORD = Field('words', pad=pad, unk=unk, bos=bos, lower=True)
+            WORD = Field('words', pad=PAD, unk=UNK, bos=BOS, lower=True)
             if 'tag' in args.feat:
-                TAG = Field('tags', bos=bos)
+                TAG = Field('tags', bos=BOS)
             if 'char' in args.feat:
-                CHAR = SubwordField('chars', pad=pad, unk=unk, bos=bos, fix_len=args.fix_len)
+                CHAR = SubwordField('chars', pad=PAD, unk=UNK, bos=BOS, fix_len=args.fix_len)
             if 'bert' in args.feat:
                 from transformers import (AutoTokenizer, GPT2Tokenizer,
                                           GPT2TokenizerFast)
@@ -290,8 +290,8 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
                                     fn=None if not isinstance(t, (GPT2Tokenizer, GPT2TokenizerFast)) else lambda x: ' '+x)
                 BERT.vocab = t.get_vocab()
         TEXT = RawField('texts')
-        ARC = Field('arcs', bos=bos, use_vocab=False, fn=CoNLL.get_arcs)
-        REL = Field('rels', bos=bos)
+        ARC = Field('arcs', bos=BOS, use_vocab=False, fn=CoNLL.get_arcs)
+        REL = Field('rels', bos=BOS)
         transform = CoNLL(FORM=(WORD, TEXT, CHAR, BERT), CPOS=TAG, HEAD=ARC, DEPREL=REL)
 
         train = Dataset(transform, args.train)
@@ -795,11 +795,11 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
                                 fn=None if not isinstance(t, (GPT2Tokenizer, GPT2TokenizerFast)) else lambda x: ' '+x)
             WORD.vocab = t.get_vocab()
         else:
-            WORD = Field('words', pad=pad, unk=unk, bos=bos, lower=True)
+            WORD = Field('words', pad=PAD, unk=UNK, bos=BOS, lower=True)
             if 'tag' in args.feat:
-                TAG = Field('tags', bos=bos)
+                TAG = Field('tags', bos=BOS)
             if 'char' in args.feat:
-                CHAR = SubwordField('chars', pad=pad, unk=unk, bos=bos, fix_len=args.fix_len)
+                CHAR = SubwordField('chars', pad=PAD, unk=UNK, bos=BOS, fix_len=args.fix_len)
             if 'bert' in args.feat:
                 from transformers import (AutoTokenizer, GPT2Tokenizer,
                                           GPT2TokenizerFast)
@@ -813,9 +813,9 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
                                     fn=None if not isinstance(t, (GPT2Tokenizer, GPT2TokenizerFast)) else lambda x: ' '+x)
                 BERT.vocab = t.get_vocab()
         TEXT = RawField('texts')
-        ARC = Field('arcs', bos=bos, use_vocab=False, fn=CoNLL.get_arcs)
-        SIB = ChartField('sibs', bos=bos, use_vocab=False, fn=CoNLL.get_sibs)
-        REL = Field('rels', bos=bos)
+        ARC = Field('arcs', bos=BOS, use_vocab=False, fn=CoNLL.get_arcs)
+        SIB = ChartField('sibs', bos=BOS, use_vocab=False, fn=CoNLL.get_sibs)
+        REL = Field('rels', bos=BOS)
         transform = CoNLL(FORM=(WORD, TEXT, CHAR, BERT), CPOS=TAG, HEAD=(ARC, SIB), DEPREL=REL)
 
         train = Dataset(transform, args.train)
diff --git a/supar/parsers/sdp.py b/supar/parsers/sdp.py
@@ -8,7 +8,7 @@
                           VISemanticDependencyModel)
 from supar.parsers.parser import Parser
 from supar.utils import Config, Dataset, Embedding
-from supar.utils.common import bos, pad, unk
+from supar.utils.common import BOS, PAD, UNK
 from supar.utils.field import ChartField, Field, SubwordField
 from supar.utils.logging import get_logger, progress_bar
 from supar.utils.metric import ChartMetric
@@ -223,7 +223,7 @@ def build(cls, path, min_freq=7, fix_len=20, **kwargs):
             return parser
 
         logger.info("Building the fields")
-        WORD = Field('words', pad=pad, unk=unk, bos=bos, lower=True)
+        WORD = Field('words', pad=PAD, unk=UNK, bos=BOS, lower=True)
         TAG, CHAR, LEMMA, BERT = None, None, None, None
         if args.encoder != 'lstm':
             from transformers import (AutoTokenizer, GPT2Tokenizer,
@@ -238,13 +238,13 @@ def build(cls, path, min_freq=7, fix_len=20, **kwargs):
                                 fn=None if not isinstance(t, (GPT2Tokenizer, GPT2TokenizerFast)) else lambda x: ' '+x)
             WORD.vocab = t.get_vocab()
         else:
-            WORD = Field('words', pad=pad, unk=unk, bos=bos, lower=True)
+            WORD = Field('words', pad=PAD, unk=UNK, bos=BOS, lower=True)
             if 'tag' in args.feat:
-                TAG = Field('tags', bos=bos)
+                TAG = Field('tags', bos=BOS)
             if 'char' in args.feat:
-                CHAR = SubwordField('chars', pad=pad, unk=unk, bos=bos, fix_len=args.fix_len)
+                CHAR = SubwordField('chars', pad=PAD, unk=UNK, bos=BOS, fix_len=args.fix_len)
             if 'lemma' in args.feat:
-                LEMMA = Field('lemmas', pad=pad, unk=unk, bos=bos, lower=True)
+                LEMMA = Field('lemmas', pad=PAD, unk=UNK, bos=BOS, lower=True)
             if 'bert' in args.feat:
                 from transformers import (AutoTokenizer, GPT2Tokenizer,
                                           GPT2TokenizerFast)
diff --git a/supar/utils/common.py b/supar/utils/common.py
@@ -1,6 +1,6 @@
 # -*- coding: utf-8 -*-
 
-pad = '<pad>'
-unk = '<unk>'
-bos = '<bos>'
-eos = '<eos>'
+PAD = '<pad>'
+UNK = '<unk>'
+BOS = '<bos>'
+EOS = '<eos>'
diff --git a/supar/utils/transform.py b/supar/utils/transform.py
@@ -6,7 +6,6 @@
 import nltk
 from supar.utils.logging import get_logger, progress_bar
 from supar.utils.tokenizer import Tokenizer
-from torch.distributions.utils import lazy_property
 
 logger = get_logger(__name__)
 
@@ -46,7 +45,7 @@ def __call__(self, sentences):
     def __getitem__(self, index):
         return getattr(self, self.fields[index])
 
-    @lazy_property
+    @property
     def flattened_fields(self):
         flattened = []
         for field in self:
@@ -138,7 +137,7 @@ def __setstate__(self, state):
 class CoNLL(Transform):
     r"""
     The CoNLL object holds ten fields required for CoNLL-X data format :cite:`buchholz-marsi-2006-conll`.
-    Each field can be binded with one or more :class:`~supar.utils.field.Field` objects. For example,
+    Each field can be bound to one or more :class:`~supar.utils.field.Field` objects. For example,
     ``FORM`` can contain both :class:`~supar.utils.field.Field` and :class:`~supar.utils.field.SubwordField`
     to produce tensors for words and subwords.
 
@@ -611,7 +610,7 @@ def factorize(cls, tree, delete_labels=None, equal_labels=None):
             delete_labels (set[str]):
                 A set of labels to be ignored. This is used for evaluation.
                 If it is a pre-terminal label, delete the word along with the brackets.
-                If it is a non-terminal label, just delete the brackets (don't delete childrens).
+                If it is a non-terminal label, just delete the brackets (don't delete children).
                 In `EVALB`_, the default set is:
                 {'TOP', 'S1', '-NONE-', ',', ':', '``', "''", '.', '?', '!', ''}
                 Default: ``None``.