-
Notifications
You must be signed in to change notification settings - Fork 6
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Расхождения в разметке морфологии. #12
Comments
Могли бы вы ответить по перечисленным расхождениям и указать то, что было упущено или подтвердить, что других систематических отличий нет. |
В UD 2.0 у прилагательных одушевленность размечается в тех формах Case=Acc, где различаются две формы, согласуемые с одушевлённой вершиной (вижу большого человека) и с неодушевленной (вижу большой дом). |
Тем не менее обучающая выборка GSD-train одержит 8 примеров DET или ADJ не в аккузативе с размеченной одушевлённостью. Это ошибка разметки? |
Да, ошибка. |
В GSD иностранные имена собственные размечены как X, в остальных подкорпусах как PROPN, на какую из разметок ориентироваться? |
Добрый день, четких указаний в UD на это нет, на практике в ручной аннотации применяется критерий (не)освоенности.Иностранное имя собственное, написанное кириллицей или имеющее русские окончания (Veber-а) трактуется как русское, с пометой PROPN и грамматическими пометами, если их возможно установить. Заимствование, написанное арабским, греческим и прочими шрифтами, размечается как X Foreign=Yes.В латинице так же, но исключением могут быть слова, включенные в культуру и контекст,ср. "работал на Adidas" (как правило, это название брендов и мероприятий).16.02.2020, 12:14, "AlexeySorokin" <[email protected]>:В GSD иностранные имена собственные размечены как X, в остальных подкорпусах как PROPN, на какую из разметок ориентироваться?
—You are receiving this because you commented.Reply to this email directly, view it on GitHub, or unsubscribe.
-- Olga Lyashevskaya School of Linguistics, Faculty of Humanities& Linguistic Convergence LabHigher School of Economics, Moscow Dept. of Corpus Linguistics and Linguistic PoeticsVinogradov Institute of the Russian Language
|
@olesar Вы не ответили на вопрос: я вижу в тестовой выборке предложение с иностранным именем собственным, как я должен его размечать? Разные подмножества обучающей выборки делают это по-разному, как правильно? |
Уточню еще раз: однозначного соответствия Latinitsa -> X или Latinitsa -> PROPN в принципе нет.Проверила по обучающим выборкам: GSD всегда выбирает X (но и контекстов освоенности я там не вижу, это жанр wiki), Taiga-social PROPN (но обратите внимание, что там много контекстов типа "каверы на Billy Jean и Джо Дассена" или "новенький IPHONE", в SynTagRus-v2 и так, и так.Ответ: не "подмножества делают", а "подмножества представляют разные жанры, предполагающие разную степень освоенности и включенности в окружающий русский контекст".Но безусловно, факторы субъективности разметчиков и степени ручной перепроверки тут тоже играют роль, для разных выборок они разные.16.02.2020, 18:19, "AlexeySorokin" <[email protected]>:@olesar Вы не ответили на вопрос: я вижу в тестовой выборке предложение с иностранным именем собственным, как я должен его размечать? Разные подмножества обучающей выборки делают это по-разному, как правильно?
—You are receiving this because you were mentioned.Reply to this email directly, view it on GitHub, or unsubscribe.
-- Olga Lyashevskaya School of Linguistics, Faculty of Humanities& Linguistic Convergence LabHigher School of Economics, Moscow Dept. of Corpus Linguistics and Linguistic PoeticsVinogradov Institute of the Russian Language
|
Боюсь, Вы не совсем правы: разные подмножества предоставляют разную разметку не потому, что эти предложения разных жанров, а потому что разные исходные стандарты разметки. И не раскрывать, какой из них будет выбран в тестовой выборке, не слишком честно по отношению к участникам, поскольку совершенно не влияющее на качество модели решение даст разницу в несколько процентов по upos, поскольку в новостных текстах названия латиницей могут встречаться едва ли не в каждом втором предложении. Чтобы не возникло подобной несправедливости, предлагаю зафиксировать одно максимально непротиворечивое решение (это же касается и различия PROPN/NOUN, которое столь же бессистемно). |
Уважаемые организаторы, не могли бы вы указать все отличия стандарта разметки соревнования от разметки SynTagRus, потому что большинство систем обучались именно на SynTagRus и тем самым следуют его аннотации. Пока найдены следующие отличия (на примере файла
GramEval2020-GSD-train.conllu
):но у некоторых -- нет:
upos
=ADJ
) и размечены по признакам прилагательногов СинТагРусе как минимум часть аналогичных примеров размечена как NUM
3. у количественных числительных размечен падеж и
NumType=Card
4. у некоторых глаголов (быть, стать) не размечен залог
5. у местоимений
что
икоторый
размечены все признаки.The text was updated successfully, but these errors were encountered: