clulab · ZhengTang1120 · Sep 16, 2021 · Sep 16, 2021 · Sep 16, 2021 · Sep 20, 2021
diff --git a/main/src/main/python/__init__.py b/main/src/main/python/__init__.py
diff --git a/main/src/main/python/embeddings/__init__.py b/main/src/main/python/embeddings/__init__.py
diff --git a/main/src/main/python/embeddings/wordEmbeddingMap.py b/main/src/main/python/embeddings/wordEmbeddingMap.py
@@ -0,0 +1,36 @@
+import numpy as np
+import math
+import torch.nn as nn
+import torch
+
+class WordEmbeddingMap:
+    def __init__(self, config):
+        self.emb_dict, self.dim, self.w2i, self.emb = load(config)
+
+    def isOutOfVocabulary(self, word):
+        return word not in self.w2i
+
+def load(config):
+    emb_dict = dict()
+    w2i = {}
+    i = 0
+    for line in open(config.get_string("glove.matrixResourceName")):
+        if not len(line.split()) == 2:
+            if "\t" in line:
+                delimiter = "\t"
+            else:
+                delimiter = " "
+            word, *rest = line.rstrip().split(delimiter)
+            word = "<UNK>" if word == "" else word
+            w2i[word] = i
+            i += 1
+            x = np.array(list(map(float, rest)))
+            vector = x #(x /np.linalg.norm(x)) #normalized
+            embedding_size = vector.shape[0]
+            emb_dict[word] = vector    
+
+    weights = np.zeros((len(emb_dict), embedding_size))
+    for w, i in w2i.items():
+        weights[i] = emb_dict[w]
+    emb = nn.Embedding.from_pretrained(torch.FloatTensor(weights), freeze=True)
+    return emb_dict, embedding_size, w2i, emb
diff --git a/main/src/main/python/pytorch/__init__.py b/main/src/main/python/pytorch/__init__.py
diff --git a/main/src/main/python/pytorch/constEmbeddingsGlove.py b/main/src/main/python/pytorch/constEmbeddingsGlove.py
@@ -0,0 +1,28 @@
+from dataclasses import dataclass
+import torch.nn as nn
+from embeddings.wordEmbeddingMap import *
+from pyhocon import ConfigFactory
+import torch
+
+@dataclass
+class ConstEmbeddingParameters:
+    emb: nn.Embedding
+    w2i: dict
+
+class _ConstEmbeddingsGlove:
+    def __init__(self):
+        self.SINGLETON_WORD_EMBEDDING_MAP = None
+        self.cep = None
+        config = ConfigFactory.parse_file('../resources/org/clulab/glove.conf')
+        self.load(config)
+        self.dim = self.SINGLETON_WORD_EMBEDDING_MAP.dim
+
+    def load(self, config):
+        if self.SINGLETON_WORD_EMBEDDING_MAP is None:
+            self.SINGLETON_WORD_EMBEDDING_MAP = WordEmbeddingMap(config)
+        self.cep = ConstEmbeddingParameters(self.SINGLETON_WORD_EMBEDDING_MAP.emb, self.SINGLETON_WORD_EMBEDDING_MAP.w2i)
+
+    def get_ConstLookupParams(self):
+        return self.cep
+
+ConstEmbeddingsGlove = _ConstEmbeddingsGlove()