Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

#8. A UDv.2-valid version of SynTagRus #8

Open
olesar opened this issue Feb 6, 2020 · 4 comments
Open

#8. A UDv.2-valid version of SynTagRus #8

olesar opened this issue Feb 6, 2020 · 4 comments

Comments

@olesar
Copy link
Collaborator

olesar commented Feb 6, 2020

UD_SynTagRus is currently not valid according to UD guidelines and validation.py script.
SynTagRus-GramEval2020 version is
-- UDv2-valid
-- lemmas improved
-- features improved
-- arcs corrected
-- minor tokenisation issues fixed (more tbd)

@olesar
Copy link
Collaborator Author

olesar commented Feb 13, 2020

Within the framework of GramEval2020, a new version of UD_SynTagRus - UDv2.5-valid, with rule-based and partial manual fixes, is made available: link.

The log of changes follows below.

cat GramEval2020-SynTagRus-train_v2.conllu | python3 validate_no_meta.py --lang ru --no-tree-text --max-err=0
*** PASSED ***

Levels of change:

  • tokenisation
  • LEMMA
  • UPOS
  • FEAT
  • HEAD
  • DEPREL

@olesar
Copy link
Collaborator Author

olesar commented Feb 13, 2020

Убраны вторичные узлы и зависимости
Ретокенизированы г., в., гг., вв., с., др., руб. (точка входит в токен)
Ручная правка conj->list, nummod:entity->appos (кроме #,№,номер),
flat - месяц в датах 29 августа (::год - nmod::)

18	в	в	ADP	_	_	22	case	_	_
19	1960	1960	NUM	_	_	22	nummod	_	_
20	-	-	PUNCT	_	_	21	punct	_	_
21	1970-е	1970-е	ADJ	_	Animacy=Inan|Case=Acc|Degree=Pos|Number=Plur	19	nummod	_	_
22	годы	год	NOUN	_	Animacy=Inan|Case=Acc|Gender=Masc|Number=Plur	15	obl	_	_
19	Жаком	Жак	PROPN	_	Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing	18	appos	_	_
20	Бальма	Бальма	PROPN	_	Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing	19	flat:name	_	_
21	(	(	PUNCT	_	_	22	punct	_	_
22	Jacques	Jacques	PROPN	_	Foreign=Yes	19	flat:foreign	_	_
23	Balmat	Balmat	PROPN	_	Foreign=Yes	19	flat:foreign	_	_
24	,	,	PUNCT	_	_	25	punct	_	_
25	1762	1762	NUM	_	_	19	conj	_	_
26	-	-	PUNCT	_	_	27	punct	_	_
27	1834	1834	NUM	_	_	25	nummod	_	_
28	)	)	PUNCT	_	_	25	punct	_	_

Выше 6000-7000 м - nmod -> obl

Fixed: не только.. но/а и, (как…) так и, (не столько..) сколько.SCONJ, сколько ни (учись), не столько.. Сколько, коль скоро, ну и (еще столько)
Degree=Cmp у “больше”, “меньше” у ADV и NUM, морф. Признаки у NUM столько, сколько, пол и др. _
nummod:gov VS nummod
Млн, тыс, млрд - nummod (развернуть связь)
-nummod:entity оставить только у №, №№
ADV obl->advmod, кроме fixed
Грам пометы у PROPN
Леммы у PROPN pluralia tantum
Большой, Западный как PROPN -> ADJ
"это" cop -> expl в релевантных контекстах

Проблема: второй аргумент глагола (!Case=Acc) часто размечтается как obl, вместо obj
Gen+
При отрицании (или obl->nsubj)
(бояться|касаться|коснуться|достичь|достигнуть|достигать|достигаться|лишиться|лишаться|лишить|лишать|страшиться|пугаться|стоить|требовать|добиваться|добиться|заслужить|заслуживать|ждать|ожидать|дождаться|дожидаться|добыть|добывать|хотеть|захотеть|жаждать|алкать|искать|желать|пожелать|хотеть|просить|запросить|запрашивать|спросить|спрашивать|придерживаться|держаться|стесняться|постесняться|хватить|хватать|избежать|избегать|избегнуть|хотеться|стыдиться|опасаться|остерегаться|пугаться|испугаться|постыдиться|недосчитаться|удостоиться|наесться|напиться|накупить|добавить|набраться|набираться|набрать|набирать|чураться)
Ins+ (владеть|обладать|управлять|махать|шевелить|топать|бренчать|звенеть|пользоваться|руководить|обзавестись|распоряжаться|сопровождаться) obl -> obj
Obl,nummod,acl -> xcomp (второй аргумент глаголов являться|становиться|явиться|стать|служить|оказаться|оказываться|послужить|назначить|назначать|считать|считаться|выглядеть|полагаться|называть|назвать|называться|работать|проработать|определить|оставаться|остаться|восприниматься|сделаться|выглядеть|делиться)
Сам,оба: acl при глаголе вне контакта с субъектом (плавающий квантификатор)
Foreign:flat - убрать у первого слова в Foreign=Yes, от греческого dia bolo - от и греческого зависят от хозяина группы (происходит)
Баг с csubj (только?) в конструкции типа “надо включить”, если ранее есть Foreign=Yes: включить размечается как flat:foreign, а foreign как csubj
Чей-то, такой-то ADJ -> DET, amod -> det
Компаунды южно, северо, волго, 1000-страничный и т.п. Hyph=Yes compound (ср. Чешский UD-PDT)
NOUN -> obl → NOUN -> nmod
нет VERB _ (в части релевантных контекстов) Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
Внутри ADV -> obl → внутри ADP _ case
Хоть PART
ADV - obl -> advmod
типа тип NOUN _ Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing → типа типа ADP case (перевесить стрелки)
ADJ + (января|февраля|марта|апреля|мая|июня|июля|августа|сентября|октября|ноября|декабря) - flat

Части речи, морф. признаки:
Тоже, также: ADV, Degree=Pos (v.2.5 PART _ )
друг друга: PRON, Case=..., DepRel: fixed на втором элементе, хозяин первый (v.2.5 NOUN, Animacy,Case,Gender,Number)
сегодня NOUN -> ADV Degre=Pos (кроме контекстов на сегодня)
нельзя VERB Polarity=Neg
некого нечего VERB Case=...|Polarity=Neg (повернуть стрелки)
(некого|нечего|некому|нечему|некем|нечем) + не PR ком, не PR чем
нечего, нечего NOUN|PRON|ADV -> VERB… Polarity=Neg

чего PRON в релевантных контекстах ADV Degree=Pos ('зачем?')
Морф. признаки, добавить:
Mood=Cnd у бы, б, чтобы, чтоб, дабы (AUX) (v.2.5 AUX _) -- кроме чтобы/чтоб/дабы + Inf
Animacy, Gender, Number как классифицирующие признаки у PRON (кто, что)
кто PRON Animacy=Anim|Case=...|Gender=Masc|Number=Sing (v.2.5 Case=...)
что PRON Animacy=Inan|Case=...|Gender=Neut|Number=Sing (v.2.5 Case=...)
один - добавить пометы Animacy, Gender,Number

Связи
Вершины у :, - (тире) - вершина следующей клауза (v2.5 - у предыдущей)

Морф. признаки, заменить:
VerbForm=Part|Voice=Mid -> VerbForm=Part|Voice=Act

Леммы:
форма во, ко, передо (ADP) -> лемма = форма (v.2.5 в, к, перед)
Форма достигнуть/постигнуть - лемма достигнуть/постигнуть (v5 - достичь)
нечего: незачем -> нечего (1 случай)
исправлены леммы совершенного вида

@olesar
Copy link
Collaborator Author

olesar commented Feb 13, 2020

Known issues (расхождения между UD-SynTagRus и UD-GSD)

  • пол в полгода и т.п. - в SynTagRus как два токена (можно оставить во вторичных зависимостях
  • точка после сокращений типа "руб." - местами осталась отдельным токеном
    • оставить в конце предложения после сокращений вида "млн", допускающих написание без точки
  • Voice=Pass у возвратных форм глагола:
    • оставлено до прояснения статуса пассивов, выражаемых -ся (противоречие между Основным корпусом НКРЯ и СинТагРус)
VerbForm=Fin|Voice=Pass -> VerbForm=Fin|Voice=Mid
VerbForm=Inf|Voice=Pass -> VerbForm=Inf|Voice=Mid
VerbForm=Conv|Voice=Pass -> VerbForm=Conv|Voice=Mid
  • сложные специфические конструкции малого синтаксиса

@olesar
Copy link
Collaborator Author

olesar commented Feb 13, 2020

Дорогие коллеги,
мы подготовили для вас отдельную версию корпуса UD-SynTagRus, в которой сняты многие расхождения между стандартом UDv2.5 (в котором размечены тестовые данные) и автоматически конвертированным трибуном, представленном в репозитории UD.
Мы преследовали три задачи:

  • улучшить качество корпуса, который в настоящий момент является стандартом для тренировки парcеров UD
  • подготовить стандарт для улучшения конвертора из формата ETAP3 в формат UD
  • провести эксперимент, будут ли модели, натренированные на "полу-ручной" версии, достигать лучших результатов в GramEval2020.

Мы не гарантируем, что результаты будут выше, так как в UDv2.5 больше классов соответствий между формой и тегами (часть решений, например, противопоставление obj~obl, определяется семантическими, а не только формальными критериями), но предлагаем вам попробовать эту версию.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant