Many pretrained embeddings available

yzhangcs · yzhangcs · commit b3ab971e92ff · 2022-06-14T11:23:01.000+08:00
diff --git a/EXAMPLES.md b/EXAMPLES.md
@@ -14,15 +14,13 @@ $ python -u -m supar.cmds.biaffine_dep train -b -d 0 -c biaffine-dep-en -p model
     --train ptb/train.conllx  \
     --dev ptb/dev.conllx  \
     --test ptb/test.conllx  \
-    --embed glove.6B.100d.txt  \
-    --unk unk
+    --embed glove-6b-100
 # crf2o
 $ python -u -m supar.cmds.crf2o_dep train -b -d 0 -c crf2o-dep-en -p model -f char  \
     --train ptb/train.conllx  \
     --dev ptb/dev.conllx  \
     --test ptb/test.conllx  \
-    --embed glove.6B.100d.txt  \
-    --unk unk  \
+    --embed glove-6b-100  \
     --mbr  \
     --proj
 ```
@@ -84,8 +82,7 @@ $ python -u -m supar.cmds.crf_con train -b -d 0 -c crf-con-en -p model -f char -
     --train ptb/train.pid  \
     --dev ptb/dev.pid  \
     --test ptb/test.pid  \
-    --embed glove.6B.100d.txt  \
-    --unk unk  \
+    --embed glove-6b-100  \
     --mbr
 ```
 
@@ -179,15 +176,13 @@ $ python -u -m supar.cmds.biaffine_sdp train -b -c biaffine-sdp-en -d 0 -f tag c
     --train dm/train.conllu  \
     --dev dm/dev.conllu  \
     --test dm/test.conllu  \
-    --embed glove.6B.100d.txt  \
-    --unk unk
+    --embed glove-6b-100
 # vi
 $ python -u -m supar.cmds.vi_sdp train -b -c vi-sdp-en -d 1 -f tag char lemma -p model  \
     --train dm/train.conllu  \
     --dev dm/dev.conllu  \
     --test dm/test.conllu  \
-    --embed glove.6B.100d.txt  \
-    --unk unk  \
+    --embed glove-6b-100  \
     --inference mfvi
 ```
 
diff --git a/supar/cmds/biaffine_dep.py b/supar/cmds/biaffine_dep.py
@@ -25,9 +25,7 @@ def main():
     subparser.add_argument('--train', default='data/ptb/train.conllx', help='path to train file')
     subparser.add_argument('--dev', default='data/ptb/dev.conllx', help='path to dev file')
     subparser.add_argument('--test', default='data/ptb/test.conllx', help='path to test file')
-    subparser.add_argument('--embed', default='data/glove.6B.100d.txt', help='path to pretrained embeddings')
-    subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
-    subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
+    subparser.add_argument('--embed', default='glove-6b-100', help='file or embeddings available at `supar.utils.Embedding`')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
     # evaluate
     subparser = subparsers.add_parser('evaluate', help='Evaluate the specified parser and dataset.')
diff --git a/supar/cmds/biaffine_sdp.py b/supar/cmds/biaffine_sdp.py
@@ -21,9 +21,7 @@ def main():
     subparser.add_argument('--train', default='data/sdp/DM/train.conllu', help='path to train file')
     subparser.add_argument('--dev', default='data/sdp/DM/dev.conllu', help='path to dev file')
     subparser.add_argument('--test', default='data/sdp/DM/test.conllu', help='path to test file')
-    subparser.add_argument('--embed', default='data/glove.6B.100d.txt', help='path to pretrained embeddings')
-    subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
-    subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
+    subparser.add_argument('--embed', default='glove-6b-100', help='file or embeddings available at `supar.utils.Embedding`')
     subparser.add_argument('--n-embed-proj', default=125, type=int, help='dimension of projected embeddings')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
     # evaluate
diff --git a/supar/cmds/crf2o_dep.py b/supar/cmds/crf2o_dep.py
@@ -26,9 +26,7 @@ def main():
     subparser.add_argument('--train', default='data/ptb/train.conllx', help='path to train file')
     subparser.add_argument('--dev', default='data/ptb/dev.conllx', help='path to dev file')
     subparser.add_argument('--test', default='data/ptb/test.conllx', help='path to test file')
-    subparser.add_argument('--embed', default='data/glove.6B.100d.txt', help='path to pretrained embeddings')
-    subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
-    subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
+    subparser.add_argument('--embed', default='glove-6b-100', help='file or embeddings available at `supar.utils.Embedding`')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
     # evaluate
     subparser = subparsers.add_parser('evaluate', help='Evaluate the specified parser and dataset.')
diff --git a/supar/cmds/crf_con.py b/supar/cmds/crf_con.py
@@ -22,9 +22,7 @@ def main():
     subparser.add_argument('--train', default='data/ptb/train.pid', help='path to train file')
     subparser.add_argument('--dev', default='data/ptb/dev.pid', help='path to dev file')
     subparser.add_argument('--test', default='data/ptb/test.pid', help='path to test file')
-    subparser.add_argument('--embed', default='data/glove.6B.100d.txt', help='path to pretrained embeddings')
-    subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
-    subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
+    subparser.add_argument('--embed', default='glove-6b-100', help='file or embeddings available at `supar.utils.Embedding`')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
     # evaluate
     subparser = subparsers.add_parser('evaluate', help='Evaluate the specified parser and dataset.')
diff --git a/supar/cmds/crf_dep.py b/supar/cmds/crf_dep.py
@@ -26,9 +26,7 @@ def main():
     subparser.add_argument('--train', default='data/ptb/train.conllx', help='path to train file')
     subparser.add_argument('--dev', default='data/ptb/dev.conllx', help='path to dev file')
     subparser.add_argument('--test', default='data/ptb/test.conllx', help='path to test file')
-    subparser.add_argument('--embed', default='data/glove.6B.100d.txt', help='path to pretrained embeddings')
-    subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
-    subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
+    subparser.add_argument('--embed', default='glove-6b-100', help='file or embeddings available at `supar.utils.Embedding`')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
     # evaluate
     subparser = subparsers.add_parser('evaluate', help='Evaluate the specified parser and dataset.')
diff --git a/supar/cmds/vi_con.py b/supar/cmds/vi_con.py
@@ -21,9 +21,7 @@ def main():
     subparser.add_argument('--train', default='data/ptb/train.pid', help='path to train file')
     subparser.add_argument('--dev', default='data/ptb/dev.pid', help='path to dev file')
     subparser.add_argument('--test', default='data/ptb/test.pid', help='path to test file')
-    subparser.add_argument('--embed', default='data/glove.6B.100d.txt', help='path to pretrained embeddings')
-    subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
-    subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
+    subparser.add_argument('--embed', default='glove-6b-100', help='file or embeddings available at `supar.utils.Embedding`')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
     subparser.add_argument('--inference', default='mfvi', choices=['mfvi', 'lbp'], help='approximate inference methods')
     # evaluate
diff --git a/supar/cmds/vi_dep.py b/supar/cmds/vi_dep.py
@@ -25,9 +25,7 @@ def main():
     subparser.add_argument('--train', default='data/ptb/train.conllx', help='path to train file')
     subparser.add_argument('--dev', default='data/ptb/dev.conllx', help='path to dev file')
     subparser.add_argument('--test', default='data/ptb/test.conllx', help='path to test file')
-    subparser.add_argument('--embed', default='data/glove.6B.100d.txt', help='path to pretrained embeddings')
-    subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
-    subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
+    subparser.add_argument('--embed', default='glove-6b-100', help='file or embeddings available at `supar.utils.Embedding`')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
     subparser.add_argument('--inference', default='mfvi', choices=['mfvi', 'lbp'], help='approximate inference methods')
     # evaluate
diff --git a/supar/cmds/vi_sdp.py b/supar/cmds/vi_sdp.py
@@ -21,9 +21,7 @@ def main():
     subparser.add_argument('--train', default='data/sdp/DM/train.conllu', help='path to train file')
     subparser.add_argument('--dev', default='data/sdp/DM/dev.conllu', help='path to dev file')
     subparser.add_argument('--test', default='data/sdp/DM/test.conllu', help='path to test file')
-    subparser.add_argument('--embed', default='data/glove.6B.100d.txt', help='path to pretrained embeddings')
-    subparser.add_argument('--unk', default='unk', help='unk token in pretrained embeddings')
-    subparser.add_argument('--n-embed', default=100, type=int, help='dimension of embeddings')
+    subparser.add_argument('--embed', default='glove-6b-100', help='file or embeddings available at `supar.utils.Embedding`')
     subparser.add_argument('--n-embed-proj', default=125, type=int, help='dimension of projected embeddings')
     subparser.add_argument('--bert', default='bert-base-cased', help='which BERT model to use')
     subparser.add_argument('--inference', default='mfvi', choices=['mfvi', 'lbp'], help='approximate inference methods')
diff --git a/supar/parsers/const.py b/supar/parsers/const.py
@@ -291,7 +291,7 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
 
         train = Dataset(transform, args.train)
         if args.encoder != 'bert':
-            WORD.build(train, args.min_freq, (Embedding.load(args.embed, args.unk) if args.embed else None))
+            WORD.build(train, args.min_freq, (Embedding.load(args.embed) if args.embed else None), lambda x: x / torch.std(x))
             if TAG is not None:
                 TAG.build(train)
             if CHAR is not None:
diff --git a/supar/parsers/dep.py b/supar/parsers/dep.py
@@ -298,7 +298,7 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
 
         train = Dataset(transform, args.train)
         if args.encoder != 'bert':
-            WORD.build(train, args.min_freq, (Embedding.load(args.embed, args.unk) if args.embed else None))
+            WORD.build(train, args.min_freq, (Embedding.load(args.embed) if args.embed else None), lambda x: x / torch.std(x))
             if TAG is not None:
                 TAG.build(train)
             if CHAR is not None:
@@ -823,7 +823,7 @@ def build(cls, path, min_freq=2, fix_len=20, **kwargs):
 
         train = Dataset(transform, args.train)
         if args.encoder != 'bert':
-            WORD.build(train, args.min_freq, (Embedding.load(args.embed, args.unk) if args.embed else None))
+            WORD.build(train, args.min_freq, (Embedding.load(args.embed) if args.embed else None), lambda x: x / torch.std(x))
             if TAG is not None:
                 TAG.build(train)
             if CHAR is not None:
diff --git a/supar/parsers/sdp.py b/supar/parsers/sdp.py
@@ -265,7 +265,7 @@ def build(cls, path, min_freq=7, fix_len=20, **kwargs):
 
         train = Dataset(transform, args.train)
         if args.encoder != 'bert':
-            WORD.build(train, args.min_freq, (Embedding.load(args.embed, args.unk) if args.embed else None))
+            WORD.build(train, args.min_freq, (Embedding.load(args.embed) if args.embed else None), lambda x: x / torch.std(x))
             if TAG is not None:
                 TAG.build(train)
             if CHAR is not None:
diff --git a/supar/utils/__init__.py b/supar/utils/__init__.py
@@ -3,7 +3,7 @@
 from . import field, fn, metric, transform
 from .config import Config
 from .data import Dataset
-from .embedding import Embedding
+from .embed import Embedding
 from .field import ChartField, Field, RawField, SubwordField
 from .transform import CoNLL, Transform, Tree
 from .vocab import Vocab
diff --git a/supar/utils/embed.py b/supar/utils/embed.py
@@ -0,0 +1,169 @@
+# -*- coding: utf-8 -*-
+
+from __future__ import annotations
+
+import os
+from collections import Counter
+from typing import Optional
+
+import torch
+from supar.utils.common import CACHE
+from supar.utils.fn import download
+from supar.utils.logging import progress_bar
+from supar.utils.vocab import Vocab
+from torch.distributions.utils import lazy_property
+
+
+class Embedding(object):
+
+    CACHE = os.path.join(CACHE, 'data/embeds')
+
+    def __init__(
+        self,
+        path: str,
+        unk: Optional[str] = None,
+        skip_first: bool = False,
+        split: str = ' ',
+        cache: bool = False,
+        **kwargs
+    ) -> Embedding:
+        super().__init__()
+
+        self.path = path
+        self.unk = unk
+        self.skip_first = skip_first
+        self.split = split
+        self.cache = cache
+        self.kwargs = kwargs
+
+        self.vocab = Vocab(Counter(self.tokens), unk_index=self.tokens.index(unk) if unk is not None else 0)
+
+    def __len__(self):
+        return len(self.vocab)
+
+    def __contains__(self, token):
+        return token in self.vocab
+
+    def __getitem__(self, key):
+        return self.vectors[self.vocab[key]]
+
+    def __repr__(self):
+        s = f"{self.__class__.__name__}("
+        s += f"n_tokens={len(self)}, dim={self.dim}"
+        if self.unk is not None:
+            s += f", unk={self.unk}"
+        if self.skip_first:
+            s += f", skip_first={self.skip_first}"
+        s += ")"
+        return s
+
+    @property
+    def dim(self):
+        return len(self[self.vocab[0]])
+
+    @property
+    def unk_index(self):
+        if self.unk is not None:
+            return self.vocab[self.unk]
+        raise AttributeError
+
+    @lazy_property
+    def tokens(self):
+        with open(self.path, 'r') as f:
+            if self.skip_first:
+                f.readline()
+            return [line.split(self.split)[0] for line in progress_bar(f)]
+
+    @lazy_property
+    def vectors(self):
+        with open(self.path, 'r') as f:
+            if self.skip_first:
+                f.readline()
+            return torch.tensor([list(map(float, line.strip().split(self.split)[1:])) for line in progress_bar(f)])
+
+    @classmethod
+    def load(cls, path: str, unk: Optional[str] = None, **kwargs) -> Embedding:
+        if path in PRETRAINED:
+            cfg = dict(**PRETRAINED[path])
+            embed = cfg.pop('_target_')
+            return embed(**cfg, **kwargs)
+        return cls(path, unk, **kwargs)
+
+
+class GloveEmbedding(Embedding):
+
+    def __init__(self, src: str = '6B', dim: int = 100, reload=False, *args, **kwargs) -> GloveEmbedding:
+        if src == '6B' or src == 'twitter.27B':
+            url = f'https://nlp.stanford.edu/data/glove.{src}.zip'
+        else:
+            url = f'https://nlp.stanford.edu/data/glove.{src}.{dim}d.zip'
+        path = os.path.join(os.path.join(self.CACHE, 'glove'), f'glove.{src}.{dim}d.txt')
+        if not os.path.exists(path) or reload:
+            download(url, os.path.join(self.CACHE, 'glove'), clean=True)
+
+        super().__init__(path=path, unk='unk', *args, **kwargs, )
+
+
+class FasttextEmbedding(Embedding):
+
+    def __init__(self, lang: str = 'en', reload=False, *args, **kwargs) -> FasttextEmbedding:
+        url = f'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.{lang}.300.vec.gz'
+        path = os.path.join(self.CACHE, 'fasttext', f'cc.{lang}.300.vec')
+        if not os.path.exists(path) or reload:
+            download(url, os.path.join(self.CACHE, 'fasttext'), clean=True)
+
+        super().__init__(path=path, skip_first=True, *args, **kwargs)
+
+
+class GigaEmbedding(Embedding):
+
+    def __init__(self, reload=False, *args, **kwargs) -> GigaEmbedding:
+        url = 'https://github.com/yzhangcs/parser/releases/download/v1.1.0/giga.100.zip'
+        path = os.path.join(self.CACHE, 'giga', 'giga.100.txt')
+        if not os.path.exists(path) or reload:
+            download(url, os.path.join(self.CACHE, 'giga'), clean=True)
+
+        super().__init__(path=path, *args, **kwargs)
+
+
+class TencentEmbedding(Embedding):
+
+    def __init__(self, dim: int = 100, big: bool = False, reload=False, *args, **kwargs) -> TencentEmbedding:
+        url = f'https://ai.tencent.com/ailab/nlp/zh/data/tencent-ailab-embedding-zh-d{dim}-v0.2.0{"" if big else "-s"}.tar.gz'  # noqa
+        name = f'tencent-ailab-embedding-zh-d{dim}-v0.2.0{"" if big else "-s"}'
+        path = os.path.join(os.path.join(self.CACHE, 'tencent'), name, f'{name}.txt')
+        if not os.path.exists(path) or reload:
+            download(url, os.path.join(self.CACHE, 'tencent'), clean=True)
+
+        super().__init__(path=path, skip_first=True, *args, **kwargs)
+
+
+PRETRAINED = {
+    'glove-6b-50': {'_target_': GloveEmbedding, 'src': '6B', 'dim': 50},
+    'glove-6b-100': {'_target_': GloveEmbedding, 'src': '6B', 'dim': 100},
+    'glove-6b-200': {'_target_': GloveEmbedding, 'src': '6B', 'dim': 200},
+    'glove-6b-300': {'_target_': GloveEmbedding, 'src': '6B', 'dim': 300},
+    'glove-42b-300': {'_target_': GloveEmbedding, 'src': '42B', 'dim': 300},
+    'glove-840b-300': {'_target_': GloveEmbedding, 'src': '84B', 'dim': 300},
+    'glove-twitter-27b-25': {'_target_': GloveEmbedding, 'src': 'twitter.27B', 'dim': 25},
+    'glove-twitter-27b-50': {'_target_': GloveEmbedding, 'src': 'twitter.27B', 'dim': 50},
+    'glove-twitter-27b-100': {'_target_': GloveEmbedding, 'src': 'twitter.27B', 'dim': 100},
+    'glove-twitter-27b-200': {'_target_': GloveEmbedding, 'src': 'twitter.27B', 'dim': 200},
+    'fasttext-bg': {'_target_': FasttextEmbedding, 'lang': 'bg'},
+    'fasttext-ca': {'_target_': FasttextEmbedding, 'lang': 'ca'},
+    'fasttext-cs': {'_target_': FasttextEmbedding, 'lang': 'cs'},
+    'fasttext-de': {'_target_': FasttextEmbedding, 'lang': 'de'},
+    'fasttext-en': {'_target_': FasttextEmbedding, 'lang': 'en'},
+    'fasttext-es': {'_target_': FasttextEmbedding, 'lang': 'es'},
+    'fasttext-fr': {'_target_': FasttextEmbedding, 'lang': 'fr'},
+    'fasttext-it': {'_target_': FasttextEmbedding, 'lang': 'it'},
+    'fasttext-nl': {'_target_': FasttextEmbedding, 'lang': 'nl'},
+    'fasttext-no': {'_target_': FasttextEmbedding, 'lang': 'no'},
+    'fasttext-ro': {'_target_': FasttextEmbedding, 'lang': 'ro'},
+    'fasttext-ru': {'_target_': FasttextEmbedding, 'lang': 'ru'},
+    'giga-100': {'_target_': GigaEmbedding},
+    'tencent-100': {'_target_': TencentEmbedding, 'dim': 100},
+    'tencent-100-b': {'_target_': TencentEmbedding, 'dim': 100, 'big': True},
+    'tencent-200': {'_target_': TencentEmbedding, 'dim': 200},
+    'tencent-200-b': {'_target_': TencentEmbedding, 'dim': 200, 'big': True},
+}
diff --git a/supar/utils/embedding.py b/supar/utils/embedding.py
diff --git a/supar/utils/field.py b/supar/utils/field.py