Skip to content

Releases: Den4ikAI/ruaccent

RUAccent Turbo

14 Mar 18:18
ec1b4d6
Compare
Choose a tag to compare

1.. Была добавлена новая модель Turbo.
Данная модель была обучена на 200 гб размеченных разными пайплайнами текстов. Размер модели сопоставим с medium_poetry, но качество выше big_poetry.

Метрики:
ruaccent_big -> 0.93 avg
ruaccent_turbo -> 0.95 avg

  1. Отказ от собственного тяжеловесного пайплайна морфологического анализатора, в сторону проекта Ильи Козиева rupostagger.
  2. Доработка пайплайна с нейросетью для расстановки ударений в обычных слов
  3. Исправлены некоторые ошибки

RUAccent 1.5.5.2

22 Dec 14:34
55d5347
Compare
Choose a tag to compare
  1. Новые алгоритмы

Было замечено, что модель не разрешает некоторые омографы (например учИтеля-учителЯ).
Для этого был разработан синтаксический парсер.

  1. Разрешение популярных Ё-омографов.
    Сделана модель которая может разрешать популярные ё-омографы.

  2. Предлоги, частицы и т.п
    Сделана модель для предсказания ударений на клитиках.
    Например, в предложении "на, держи кирпич" ударение на "на" нужно, а в предложении "на голову упал кирпич" нет.

  3. Метрики
    Был собран тестовый набор данных для модели разрешения омографов.

small_poetry -> 0.93
medium_poetry -> 0.95
big_poetry -> 0.97

  1. Обновлена модель расстановки ударений в словах
    Была обновлена модель для расстановки ударений в обычных словах. Она имеет точность 0.97 на словаре 3.8 миллионов слов. Модель очень маленькая - 738 килобайт, что меньше, чем у силеро

К сожалению, пока пайплайн довольно тяжёлый (потребление 5 Гб ОЗУ). Планируется сократить размер пайплайна до одной модели и одного словаря ударений.