-
Notifications
You must be signed in to change notification settings - Fork 11
/
morphostandard
95 lines (84 loc) · 7.52 KB
/
morphostandard
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
Морфологический стандарт MorphoRuEval-2017, universal dependencies
Части речи:
1. существительное (NOUN)
2. имя собственное (PROPN)
3. прилагательное (ADJ)
4. местоимение (PRON)
5. числительное (NUM)
6. глагол (VERB)
7. наречие (ADV)
8. детерминант (DET)
9. союз (CONJ)
10. предлог (ADP)
11. частица (PART)
12. вводное слово (H)
13. междометие (INTJ)
Также в выборке присутствуют метки знаков препинания (PUNCT).
Отсутствуют “вспомогательные глаголы” (AUX): в рамках соревнования они считаются глаголами. Отсутствуют метки для символьных сочетаний (SYM).
Категории частей речи, размечаемые в материале:
1. Существительное:
род, число, падеж, одушевленность
2. Имя собственное:
род, число, падеж
3. Прилагательное
род, число, падеж, краткость, степень сравнения
4. местоимение
род, число, падеж, лицо
5. числительное
род, падеж, графическая форма
6. глагол
наклонение, лицо, время, число, род, форма (VerbForm)
7. наречие
степень сравнения
8. детерминант
род, число, падеж
9. союз
-
10. предлог
-
11. частица
-
12. вводное слово
-
13. междометие
-
14. остальное
-
Принимаемые значения:
Падеж (Case): именительный - Nom, родительный - Gen, дательный - Dat, винительный - Acc, местный – Loc, творительный - Ins
Род (Gender): мужской - Masc, женский - Fem, средний - Neut
Число (Number): единственное - Sing, множественное - Plur
Одушевленность (Animacy): одушевленное - Anim, неодушевленное - Inan
Время (Tense): прошедшее - Past, непрошедшее - Notpast
Лицо (Person): первое – 1, второе – 2, третье - 3
Форма глагола (VerbForm): инфинитив - Inf, финитная - Fin, деепричастие - Conv
Наклонение (Mood): индикатив – Ind, императив - Imp
Краткость прилагательного (Variant): краткое – Short (если форма полная, отметка не ставится)
Степень сравнения (Degree): позитивная или суперлативная - Pos, сравнительная - Cmp
Графическая форма числительного (NumForm): числовая запись – Digit (если форма записи буквенная, метка не ставится)
Некоторые соглашения, принятые в рамках соревнования:
1) Список DET является закрытым, в него входят 30 лемм местоимений в атрибутивной позиции.
2) Предикативы, омонимичные кратким прилагательным, размечаются, как краткие прилагательные.
Предикативное слово “нет” считается глаголом. Омонимия кратких прилагательных и наречий
разрешена следующим образом: прилагательное обязано быть частью сказуемого.
3) Начальной формой глагола считается инфинитив соответствующего вида.
Деепричастия считаются частью глагольной парадигмы.
4) Причастия считаются прилагательными и получают соответствующую лемму именительного падежа.
5) Порядковые числительные считаются прилагательными.
6) Не оценивается одушевленность существительных
7) Не оценивается частеречная разметка предлогов, союзов, частиц, междометий и "остального", а также отдельных
наречий (как, пока, так, когда), омонимичных союзам.
8) Не оценивается вид и залог глагола, время глагола делится на прошедшее и непрошедшее.
9) Категории, не включенные в оцениваемые, могут быть размечены, их наличие не влияет на метрики качества.
Расхождения источников:
1) На материале ГИКРЯ не размечен вид глагола и собственность существительных (имена собственные считаются просто существительными).
2) Метка “H” для вводных конструкций введена также для материала ГИКРЯ, чтобы отделить неодносложные токены от всех остальных. Вводные конструкции заданы списком, тестовая выборка учитывает их токенизацию.
На материале Открытого корпуса:
1) не снята омонимия сравнительных форм прилагательных и наречий в силу специфики словаря open corpora - сравнительные степени всегда размечены, как прилагательные, так как это более частотный вариант.
2) размечен вид глагола, разметка которого не требуется от участников в рамках соревнования
3) есть незначительные различия в токенизации в сравнении с материалами НКРЯ и ГИКРЯ, где, например, есть многословные вводные контрукции, приведенные к одному токену.
На материале НКРЯ:
1) в конце каждой строки, после табуляции, вы найдете доволнительные граммемы, такие как Typo=Yes или NameType, которые могут быть полезны в обучении, однако разметки которых мы не требуем от участников.
На материале Синтагруса:
1) Не размечен вид глагола и собственность существительных (имена собственные считаются просто существительными).
2) Метка “H” для вводных конструкций введена также для материала ГИКРЯ, чтобы отделить неодносложные токены от всех остальных. Вводные конструкции заданы списком, тестовая выборка учитывает их токенизацию.