Este repositorio almacena pares de frases y palabras en Español y Extremeño línea a línea en diferentes ficheros por idioma para entrenar modelos de traducción que puedan ser usados en traductores como por ejemplo LibreTranslate.
Si quieres contribuir a la recopilación de datos, puedes editar los ficheros añadiendo las partes nuevas y crear un Pull Request para añadirlo al repositorio. Si no sabes como crear PR, puedes crear una petición en este enlace adjuntando los ficheros actualizados para que los actualicemos en el repositorio tras una revisión de que las palabras son correctas. Si no sabes hacer las dos anteriores o no tienes cuenta en Github, puedes enviarme los textos al email [email protected].
Es recomendable que si un párrafo tiene varias frases que tienen sentido por si solas, cada frase vaya en una línea en lugar de una línea con el párrafo completo. En el caso de palabras, es recomendable (si disponen de ellas), añadir sus formas masculinas, femeninas, singular y plural. Si son verbos, se recomienda añadir a conjugación completa.
Estos recursos sirven para la traducción de Español a Extremeño, pero también podría usarse para traducir de Extremeño a Español. El problema es que Stanza, una dependencia que usa argos-train para crear los modelos de traducción, no tiene modelos de la lengua extremeña, o que dificulta la traducción en ese sentido y sea mucho menos precisa. Si eres lingüista o tienes experiencia en la creación de vectores de palabras, tokenización de éstas y quieres colaborar en esa parte, puedes echar un vistazo a la guía sobre como añadir nuevas lenguas.
Si tienes cuenta en github, es recomendable un voto positivo en este comentario donde tenemos hecha la solicitud para añadir el extremeño a argos-translate y donde iremos adjuntando los modelos que consigamos funcionales para que los añadan a su base de datos y estén disponibles en LibreTranslate.
También tenemos creada una sección en la comunidad de LibreTranslate donde se pueden debatir cosas e iremos poniendo los diferentes modelos que se vayan creando.
Para el entrenamiento, se puede usar Argos Train (instrucciones en el enlace). Para ello necesitamos una gráfica Nvidia compatible con CUDA, o una gráfica AMD compatible con Rocm (Para ésta ultima, es necesario en la instalación reemplazar la versión de pytorch por la versión que integra Rocm). También es posible usando CPU, pero es mucho mas lento.
En caso de no disponer de una gráfica compatible, se puede optar por un sistema cloud, en mi caso he optado por Vast.ai usando la imagen docker de argos-train que es bastante económico.
Para el entrenamiento, habrá que unir todos los ficheros de cada idioma en uno (importante que se mantenga el orden de los contenidos linea a línea) o usar los denominados contenido-completo, los cuales tienen el contenido de todos los ficheros ya unidos. Para ello se puede usar alguna de las muchas opciones disponibles, como por ejemplo FilesMerge para Windows o el comando cat
en Gnu/Linux.
Este proyecto surgió por la idea de Wikimedia España de reactivar e impulsar la Güiquipedia, edición de la Wikipedia en la lengua extremeña.
Los recursos de traducción son proporcionados por:
- Contribuciones de voluntarios, especialmente socios de OscecEstremaura
- Cadenas de traducciones de FeedTV (Traducción realizada por OscecEstremaura) --> https://hosted.weblate.org/projects/feedtv/feedtv/ext/
- El cantón estremeñu
- Dizionariu Estremeñu
- Extremeñistas
- Pedro Moreno
- Federación Extremeña de Folklore
- Wikipedia
Esto es un trabajo comunitario con el único propósito de avanzar culturalmente, en este caso promocionando la lengua extremeña y creando herramientas para facilitar su conocimiento. Por ello, todo el contenido aquí publicado se encontrará bajo licencia CC0 1.0 de Dominio Público para que cualquiera pueda usarlo para crear herramientas o cualquier cosa que sirva para extender y ayudar al conocimiento de la lengua extremeña.
Pendiente de traducir readme al extremeño