Releases: Den4ikAI/ruaccent
RUAccent Turbo
1.. Была добавлена новая модель Turbo.
Данная модель была обучена на 200 гб размеченных разными пайплайнами текстов. Размер модели сопоставим с medium_poetry, но качество выше big_poetry.
Метрики:
ruaccent_big -> 0.93 avg
ruaccent_turbo -> 0.95 avg
- Отказ от собственного тяжеловесного пайплайна морфологического анализатора, в сторону проекта Ильи Козиева rupostagger.
- Доработка пайплайна с нейросетью для расстановки ударений в обычных слов
- Исправлены некоторые ошибки
RUAccent 1.5.5.2
- Новые алгоритмы
Было замечено, что модель не разрешает некоторые омографы (например учИтеля-учителЯ).
Для этого был разработан синтаксический парсер.
-
Разрешение популярных Ё-омографов.
Сделана модель которая может разрешать популярные ё-омографы. -
Предлоги, частицы и т.п
Сделана модель для предсказания ударений на клитиках.
Например, в предложении "на, держи кирпич" ударение на "на" нужно, а в предложении "на голову упал кирпич" нет. -
Метрики
Был собран тестовый набор данных для модели разрешения омографов.
small_poetry -> 0.93
medium_poetry -> 0.95
big_poetry -> 0.97
- Обновлена модель расстановки ударений в словах
Была обновлена модель для расстановки ударений в обычных словах. Она имеет точность 0.97 на словаре 3.8 миллионов слов. Модель очень маленькая - 738 килобайт, что меньше, чем у силеро
К сожалению, пока пайплайн довольно тяжёлый (потребление 5 Гб ОЗУ). Планируется сократить размер пайплайна до одной модели и одного словаря ударений.