From a3281b0ed6241ee7dd972b4d15e5b1489992b248 Mon Sep 17 00:00:00 2001 From: Anne Schumacher Date: Fri, 1 Nov 2024 09:49:31 +0100 Subject: [PATCH] add metadata for saldo analysis --- sparv/modules/saldo/metadata.yaml | 227 ++++++++++++++++++++++++++++++ 1 file changed, 227 insertions(+) create mode 100644 sparv/modules/saldo/metadata.yaml diff --git a/sparv/modules/saldo/metadata.yaml b/sparv/modules/saldo/metadata.yaml new file mode 100644 index 00000000..629609b2 --- /dev/null +++ b/sparv/modules/saldo/metadata.yaml @@ -0,0 +1,227 @@ +id: saldo-parent +language_codes: + - swe +standard_reference: "[Borin/Forsberg/Lönngren 2013: SALDO: a touch of yin to WordNet's yang](http://dx.doi.org/10.1007/s10579-013-9233-4)" +other_references: [] +tool: "Sparv" +model: "[SALDO's morphology](https://spraakbanken.gu.se/resurser/saldom)" +trained_on: '' +tagset: '' +evaluation_results: '' +--- +id: swe-lemmatization-sparv-saldo +parent: saldo-parent +name: + swe: Annotering av SALDO-grundformer + eng: Annotation of SALDO citation forms (base forms, lemmas) +short_description: + swe: Fullformsuppslagning som ger SALDO-grundformer + eng: Full-form lookup for SALDO citation forms (lemmas) +task: lemmatization +keywords: + - lemmatization + - saldo +annotations: + - :saldo.baseform +example_output: |- + ```xml + Vi + ska + köra + den + här + clownbilen + till + cirkusen + . + ``` +description: + swe: |- + SALDO-fullformslexikonet används för att finna grundformer och ordbetydelser för textord, med flertydigheter bevarade. + eng: |- + The SALDO morphology full-form lexicon is used to find possible citation forms (lemmas) and word senses for text + word tokens, preserving ambiguity. +created: 2010-12-15 +updated: 2018-03-28 +--- +id: swe-lemgram-sparv-saldo +parent: saldo-parent +name: + swe: Annotering av SALDO-lemgram + eng: Annotation of SALDO lemgrams +short_description: + swe: Uppslagning som ger SALDO-lemgram + eng: Lookup for SALDO lemgrams +task: lexical analysis +keywords: + - lexical analysis + - saldo +annotations: + - :saldo.lemgram +example_output: |- + ```xml + Det + här + är + en + korpus + . + ``` +description: + swe: |- + Ett lemgram är ett ords eller ett flerordsuttrycks samtliga böjningsformer. Ett lemgram betecknas med tre delar: en + grundform, en ordklasstagg och ett urskiljande löpnummer. Mer detaljerad information finns i [Språkbanken Text + FAQ](https://spraakbanken.gu.se/faq/vad-ar-ett-lemgram). + eng: |- + A lemgram in SALDO is a combination of a base form and an inflectional pattern. More information (in Swedish) is + found in the [Språkbanken Text FAQ](https://spraakbanken.gu.se/faq/vad-ar-ett-lemgram). +created: 2010-12-15 +updated: 2018-03-28 +--- +id: swe-sense-sparv-saldo +parent: saldo-parent +name: + swe: Annotering av SALDO-identifierare + eng: Annotation of SALDO identifiers +short_description: + swe: Uppslagning som ger SALDO-identifierare + eng: Lookup for SALDO identifiers +task: lexical analysis +keywords: + - lexical analysis + - saldo +annotations: + - :saldo.sense +example_output: |- + ```xml + Det + här + är + en + korpus + . + ``` +description: + swe: |- + En SALDO-identifierare refererar till ett ords betydelse i [SALDO-lexikonet](https://spraakbanken.gu.se/resurser/saldo). + eng: |- + A SALDO identifier refers to a sense of a word in the [SALDO lexicon](https://spraakbanken.gu.se/resurser/saldo). +created: 2010-12-15 +updated: 2018-03-28 +--- +id: swe-compound-sparv-saldolemgram +parent: saldo-parent +name: + swe: Sammansättningsanalys med hjälp av SALDO-lemgram + eng: Compound analysis using SALDO lemgrams +short_description: + swe: Analys av sammansatta SALDO-lemgram inklusive sannolikhetsrankning + eng: Analysis of SALDO lemgram compounds including a probability ranking +task: compound analysis +keywords: + - compound analysis + - saldo +annotations: + - :saldo.complemgram +example_output: |- + ```xml + Språkbanken + Text + är + en + forskningsinfrastruktur + för + språkliga + data + och + en + språkteknologisk + forskningsenhet + . + ``` +description: + swe: |- + Token och deras ordklasser slås upp i SALDO-lexikonet för att berikas med sammansättningsinformation. Mer + detaljerad information finns i [Språkbanken Text + FAQ](https://spraakbanken.gu.se/faq/hur-fungerar-sparvs-sammansattningsanalys). + eng: |- + Tokens and their POS tags are looked up in the SALDO lexicon in order to enrich them with compound information. More + information (in Swedish) is found in the [Språkbanken Text + FAQ](https://spraakbanken.gu.se/faq/hur-fungerar-sparvs-sammansattningsanalys). +created: 2018-03-28 +updated: 2020-07-09 +--- +id: swe-compound-sparv-saldowords +parent: saldo-parent +name: + swe: Sammansättningsanalys med hjälp av SALDO-ordformer + eng: Compound analysis using SALDO wordforms +short_description: + swe: Analys av sammansatta SALDO-ordformer + eng: Analysis of SALDO wordform compounds +task: compound analysis +keywords: + - compound analysis + - saldo +annotations: + - :saldo.compwf +example_output: |- + ```xml + Språkbanken + Text + är + en + forskningsinfrastruktur + för + språkliga + data + och + en + språkteknologisk + forskningsenhet + . + ``` +description: + swe: |- + Token och deras ordklasser slås upp i SALDO-lexikonet för att berikas med sammansättningsinformation. Mer + detaljerad information finns i [Språkbanken Text + FAQ](https://spraakbanken.gu.se/faq/hur-fungerar-sparvs-sammansattningsanalys). + eng: |- + Tokens and their POS tags are looked up in the SALDO lexicon in order to enrich them with compound information. More + information (in Swedish) is found in the [Språkbanken Text + FAQ](https://spraakbanken.gu.se/faq/hur-fungerar-sparvs-sammansattningsanalys). +created: 2018-03-28 +updated: 2020-07-09 +--- +id: swe-lemmatization-sparv-saldo2 +parent: saldo-parent +name: + swe: Annotering av SALDO-grundformer (utökade) + eng: Annotation of SALDO citation forms (base forms, lemmas) (extended) +short_description: + swe: SALDO-grundformer plus analys av sammansättningar bestående av SALDO-ingångar + eng: Full-form lookup for SALDO citation forms (lemmas) plus analysis of compounds made up of SALDO entries +task: lemmatization +keywords: + - lemmatization + - saldo +annotations: + - :saldo.baseform2 +example_output: |- + ```xml + Det + här + är + en + korpus + . + ``` +description: + swe: |- + SALDO-fullformslexikonet används för att finna grundformer och ordbetydelser för textord, med flertydigheter + bevarade. Dessutom görs en sammansättningsanalys med hjälp av SALDOs sammansättningsinformation. + eng: |- + The SALDO morphology full-form lexicon is used to find possible citation forms (lemmas) and word senses for text + word tokens, preserving ambiguity. Additionally, the compounding information in SALDO is used for compound analysis. +created: 2018-03-28 +updated: 2020-01-15