Add API for getting supported languages.

kbss-cvut · Nov 18, 2024 · f2a7796 · f2a7796
1 parent b8bdbe7
commit f2a7796
Show file tree

Hide file tree

Showing 7 changed files with 59 additions and 7 deletions.
diff --git a/api/src/main/java/cz/cvut/kbss/textanalysis/lemmatizer/LemmatizerApi.java b/api/src/main/java/cz/cvut/kbss/textanalysis/lemmatizer/LemmatizerApi.java
@@ -19,6 +19,8 @@
 
 import cz.cvut.kbss.textanalysis.lemmatizer.model.LemmatizerResult;
 
+import java.util.List;
+
 public interface LemmatizerApi {
 
     /**
@@ -30,4 +32,11 @@ public interface LemmatizerApi {
      * @throws cz.cvut.kbss.textanalysis.exception.UnsupportedLanguageException If the given language is not supported
      */
     LemmatizerResult process(String text, String lang);
+
+    /**
+     * Returns a set of languages for which annotation is supported.
+     *
+     * @return List of languages
+     */
+    List<String> getSupportedLanguages();
 }
diff --git a/core/src/main/java/cz/cvut/kbss/textanalysis/rest/AnnotateController.java b/core/src/main/java/cz/cvut/kbss/textanalysis/rest/AnnotateController.java
@@ -21,12 +21,15 @@
 import cz.cvut.kbss.textanalysis.service.HtmlAnnotationService;
 import org.springframework.beans.factory.annotation.Autowired;
 import org.springframework.http.MediaType;
+import org.springframework.web.bind.annotation.GetMapping;
 import org.springframework.web.bind.annotation.RequestBody;
 import org.springframework.web.bind.annotation.RequestMapping;
 import org.springframework.web.bind.annotation.RequestMethod;
 import org.springframework.web.bind.annotation.RequestParam;
 import org.springframework.web.bind.annotation.RestController;
 
+import java.util.List;
+
 @RestController
 public class AnnotateController {
 
@@ -38,11 +41,16 @@ public AnnotateController(HtmlAnnotationService service) {
     }
 
     @RequestMapping(value = "/annotate", method = RequestMethod.POST,
-        produces = MediaType.APPLICATION_XML_VALUE,
-        consumes = MediaType.APPLICATION_JSON_VALUE)
+            produces = MediaType.APPLICATION_XML_VALUE,
+            consumes = MediaType.APPLICATION_JSON_VALUE)
     public String annotate(@RequestParam(value = "enableKeywordExtraction", defaultValue = "false")
-                               Boolean enableKeywordExtraction,
+                           Boolean enableKeywordExtraction,
                            @RequestBody TextAnalysisInput input) {
         return service.annotate(enableKeywordExtraction, input);
     }
+
+    @GetMapping(value = "/languages", produces = MediaType.APPLICATION_JSON_VALUE)
+    public List<String> getSupportedLanguages() {
+        return service.getSupportedLanguages();
+    }
 }
diff --git a/core/src/main/java/cz/cvut/kbss/textanalysis/service/AnnotationService.java b/core/src/main/java/cz/cvut/kbss/textanalysis/service/AnnotationService.java
@@ -117,4 +117,13 @@ private List<Word> annotateOntologyLabels(LemmatizerResult lemmatizerResult, Lis
 
         return annotationsResults;
     }
+
+    /**
+     * Gets a list of languages supported by the lemmatizer.
+     *
+     * @return List of supported languages
+     */
+    public List<String> getSupportedLanguages() {
+        return lemmatizer.getSupportedLanguages();
+    }
 }
diff --git a/core/src/main/java/cz/cvut/kbss/textanalysis/service/HtmlAnnotationService.java b/core/src/main/java/cz/cvut/kbss/textanalysis/service/HtmlAnnotationService.java
@@ -193,4 +193,13 @@ private boolean isTermOccurrence(Node node) {
         final String typeOf = node.attr("typeof");
         return (typeOf.equals(Constants.TERM_OCCURRENCE) || typeOf.equals(Constants.TERM_OCCURRENCE_PREFIXED));
     }
+
+    /**
+     * Returns a list of supported languages.
+     *
+     * @return List of supported languages
+     */
+    public List<String> getSupportedLanguages() {
+        return annotationService.getSupportedLanguages();
+    }
 }
diff --git a/...tizer-morphodita/src/main/java/cz/cvut/kbss/annotace/lemmatizer/MorphoDitaServiceJNI.java b/...tizer-morphodita/src/main/java/cz/cvut/kbss/annotace/lemmatizer/MorphoDitaServiceJNI.java
@@ -52,12 +52,12 @@ public MorphoDitaServiceJNI(MorphoditaConf conf) {
                 }
                 log.info("Found at {}", taggerPath);
                 log.info("Loading tagger ... (looks up MorphoDita native library at {})",
-                    System.getProperty("java.library.path"));
+                         System.getProperty("java.library.path"));
                 Tagger tagger = Tagger.load(taggerPath);
                 if (tagger == null) {
                     log.warn("Creating tagger failed.");
                 } else {
-                    taggers.put(lang,tagger);
+                    taggers.put(lang, tagger);
                     log.info("Tagger {} for lang {} successfully created.", tagger, lang);
                 }
             } catch (Exception e) {
@@ -73,7 +73,7 @@ public LemmatizerResult process(String s, String lang) {
         final List<TaggedLemmas> tTl = new ArrayList<>();
 
         final Tokenizer tk =
-            lang.equals("en") ? Tokenizer.newEnglishTokenizer() : Tokenizer.newCzechTokenizer();
+                lang.equals("en") ? Tokenizer.newEnglishTokenizer() : Tokenizer.newCzechTokenizer();
         tk.setText(s);
 
         Tagger tagger = taggers.get(lang);
@@ -133,7 +133,7 @@ private List<List<SingleLemmaResult>> transform(final String s,
 
                 final long end = tokenRange.getStart() + tokenRange.getLength();
                 final long startNext =
-                    (j == tokenLemmas.size() - 1) ? end : tokenRanges.get(j + 1).getStart();
+                        (j == tokenLemmas.size() - 1) ? end : tokenRanges.get(j + 1).getStart();
 
                 String spaces = " ".repeat((int) (startNext - end));
                 if (spaces.isEmpty() && (end < s.length() && Character.isSpaceChar(s.charAt((int) end)))) {
@@ -146,4 +146,9 @@ private List<List<SingleLemmaResult>> transform(final String s,
         }
         return result;
     }
+
+    @Override
+    public List<String> getSupportedLanguages() {
+        return new ArrayList<>(taggers.keySet());
+    }
 }
diff --git a/...er-morphodita/src/main/java/cz/cvut/kbss/annotace/lemmatizer/MorphoDitaServiceOnline.java b/...er-morphodita/src/main/java/cz/cvut/kbss/annotace/lemmatizer/MorphoDitaServiceOnline.java
@@ -22,6 +22,8 @@
 import cz.cvut.kbss.textanalysis.lemmatizer.model.LemmatizerResult;
 import org.springframework.boot.web.client.RestTemplateBuilder;
 
+import java.util.List;
+
 public class MorphoDitaServiceOnline implements LemmatizerApi {
 
     private final RestTemplateBuilder restTemplateBuilder;
@@ -42,4 +44,9 @@ public LemmatizerResult process(String s, String lang) {
         morphoDitaResult.setLemmatizer(this.getClass().getName());
         return morphoDitaResult;
     }
+
+    @Override
+    public List<String> getSupportedLanguages() {
+        return List.of();
+    }
 }
diff --git a/lemmatizer-spark/src/main/java/cz/cvut/kbss/annotace/lemmatizer/SparkLemmatizer.java b/lemmatizer-spark/src/main/java/cz/cvut/kbss/annotace/lemmatizer/SparkLemmatizer.java
@@ -157,4 +157,9 @@ private LightPipeline getPipeline(String lang) {
         }
         return pipelines.get(lang);
     }
+
+    @Override
+    public List<String> getSupportedLanguages() {
+        return new ArrayList<>(pipelines.keySet());
+    }
 }