-
Notifications
You must be signed in to change notification settings - Fork 6
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
17 century corpus issues #9
Comments
@Shnurre и коллеги,
|
Подзадачи по поэзии и 17 веку были задуманы для возможности апробации трансферных подходов. Как видно из страницы описания данных, достойных обучающих данных для русского языка здесь пока нет. О соотношении некоторых распределений в train и dev 17 века: Вы предлагаете один из возможных подходов, основанный на распределении символов -- да, подозреваю, вы правы, он работать не будет. |
Да, думаю задачу лемматизации на текстах 17 века было бы уместно снять. |
Мое замечание было не о том, что не работает какой-то конкретный подход. Добиться, чтобы модель, которая обучалась в основном на современном русском языке, показала адекватные цифры на корпусе 17 века, вероятно, можно. Однако, достигнуть этого намного проще не настройкой трансфер-лернинга на неконсистентном корпусе, а написанием конвертера, который переводит все виды исторической орфографии к современной. Сделать такой конвертер, скорее всего, реально, но, кажется, это не то, в чем участникам хотелось бы соревноваться в рамках данной дорожки. |
Я бы добавил, что дело, с моей точки зрения, не столько в неконсистентности трейна, сколько в неконсистентности между трейном и девом. |
Дорогие коллеги, поскольку dev для 17 века - это константа (см. выше, других материалов, размеченных на достойном уровне, в распоряжении организаторов нет), то "разбить по-другому" между девом и трейном, что руками, что нет -- нереализуемо. |
Коллеги,
|
Коллеги, методологически верно оставить оценку за леммы, так как мы оцениваем общий уровень разметки русского языка. |
Позволю себе заметить, что считаю это решение довольно странным: в отсутствие обучающих данных и даже, см. дискуссию выше, консистентности в них, оставлять некоторый черный ящик в тесте и говорить -- ну, там все равно у всех будет плохо -- кажется не самым удачным решением. Вроде как цель соревнования -- найти самые удачные решения для разных сегментов русского языка и, цитируя Ольгу, "апробировать разные трансферные подходы". А не показать, что есть какая-то точка, где всем будет больно и плохо, из-за некачественных или вообще отсутствующих обучающих данных; эта точка, разумеется, всегда будет больной: очевидно, что на каких бы данных мы ни соревновались -- если оставить какой-то сегмент (в нашем случае, это леммы 17 века) без данных, на этом сегменте будет плохо. Но плохо там будет не потому, что этот сегмент какой-то плохо поддающийся обучению, а по понятным причинам. С тем же успехом можно было оставить поэтические синтаксические связи без разметки и сказать "оставьте там дефолтную синтаксическую модель, там у всех будет плохо". Ну будет -- но разве соревнование про это? Я-то думал, про, в том числе, написание хорошего лемматизатора для 17 века, а не про то, что его, якобы, невозможно сделать хорошим... Кажется, что таким образом мы просто теряем точку для адекватного сравнения участников по прихоти организаторов, но это бог с ним; куда хуже, что незаинтересованный в самом соревновании читатель по итогам цифр скажет "ой, как все плохо с леммами 17 века, по итогам соревнования задача осталась нерешенной" -- но дело в том, что у участников даже не будет возможности решить эту задачу, хоть она и заявляется на соревновании как полноценная. Я не к тому, чтобы в последние сутки что-то менять, я к дискуссии о логике и справедливости. |
Присоединяюсь к поддержке исключения лемм 17 века из оценки. |
Коллеги, хотелось бы поднять вопрос консистентности исторического подкорпуса сорвевнования.
Нетрудно убедиться, что обучающая выборка состоит из текстов 2 типов:
1.Тексты в исторической орфографии (с 'ъ', 'ѣ' и т. п.), для токенов которых отсутствуют леммы (лемма каждого токена «_»).
2. Тексты в современной орфографии, для токенов которых есть леммы. Стоит отметить, что по какой-то причине все леммы для текстов этого типа записаны в исторической орфографии (с 'ъ', 'ѣ' и т. п.).
При этом, если все тексты dev относятся ко второму классу, то среди train текстов второго класса только порядка 40 процентов.
Ясно, что для любых моделей, которые содержат в себе символьные компоненты (в т. ч. BERT-подобные модели) тексты первого вида практически бесполезны для решения задач на текстах второго вида (в предположении что test так же, как и dev состоит только из текстов второго вида; хотелось бы получить подтверждение оргкомитета, что это действительно так).
Отдельный вопрос вызывает задача лемматизации – кажется, что ни на каком множестве
текстов нет достаточных данных для полноценного решения задачи (на текстах первого вида лемм нет, а на текстах второго вида леммы даны в отличающейся орфографии).
Понятно, что для хоть сколько-нибудь адекватного обучения нужен конвертер из исторической орфографии в современную или наоборот и что именно качеством такого конвертера будут, прежде всего, определяться результаты на историческом корпусе, что, в свою очередь внесет существенный вклад в общие результаты соревнования.
Такое смещение задачи с задачи морфологического и синтаксического анализа на задачу конвертации орфографии вызывает вопросы. Входит ли такая смена фокуса в намерения оргкомитета?
Если нет, то, наверное, было бы уместно привести все данные к одному консистентному формату, предпочтительнее всего, в современную орфографию с леммами в современной орфографии. Другой возможный вариант – публикация организаторами скрипта по конвертации из исторической орфографии в современную для того, чтобы участники могли сконцентрироваться на задачах морфологического и синтаксического анализа.
The text was updated successfully, but these errors were encountered: