Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update Adjetivos.txt #285

Merged
merged 10 commits into from
Aug 15, 2023
Merged

Update Adjetivos.txt #285

merged 10 commits into from
Aug 15, 2023

Conversation

Pompilos
Copy link
Contributor

Añado cómitre/S, dromomaníaco/GS, dromomaniaco/GS, gallonado/GS, iconográfico/GS, mesopotámico/GS, metanero/GS, monolingüe/S, posmoderno/GS, transoceánico/GS, trasoceánico/GS y trilingüe/S.

Añado cómitre/S, dromomaníaco/GS, dromomaniaco/GS, gallonado/GS, iconográfico/GS, mesopotámico/GS, metanero/GS, monolingüe/S, posmoderno/GS, transoceánico/GS, trasoceánico/GS y trilingüe/S.
@jorgesumle
Copy link
Contributor

Para «transoceánico» y «trasoceánico» lo mejor es simplemente añadir el código de prefijo u (trans-, tras-) a oceánico/SG, quedando así: oceánico/SGu.

Cambio tras-/trans- oceánico por oceánico/GSu, según sugerencia de un editor veterano.
Añado antihemorroidal
@RickieES
Copy link
Collaborator

Hay varias cosas en este PR:

  • antihemorroidal se podría derivar de hemorroidal, en Adjetivos.txt: hemorroidal/Sc
  • cómitre y dromomaniaco/dromomaníaco son sustantivos, no adjetivos; al menos, no veo en el DLE ninguna acepción marcada como adjetivo.
  • gallo tampoco tiene acepción como adjetivo en el DLE. Ya veo que ya estaba, pero creo que es mejor aprovechar para quitarlo.

Al margen de lo anterior, también me pregunto si algunos de los términos que se han incluido en los últimos PR, como cómitre, dromomaníaco, facería, bricbarca o trirreme, son de uso habitual. ¿Utilizas estos lemas normalmente? Porque, si no es así, hay mejores lemas para añadir. 😄

@jorgesumle
Copy link
Contributor

cómitre y dromomaniaco/dromomaníaco son sustantivos, no adjetivos; al menos, no veo en el DLE ninguna acepción marcada como adjetivo.

Dromomaníaco sí es adjetivo, aunque se usa también como sustantivo:

  1. adj. Que padece dromomanía. Viajeros dromomaníacos. Apl. a pers., u. t. c. s.

¿Utilizas estos lemas normalmente? Porque, si no es así, hay mejores lemas para añadir. smile

Aunque no sean de uso muy habitual, son palabras que no deben ser marcadas como error, ya que están en el diccionario de la RAE.

@Pompilos
Copy link
Contributor Author

Hola.

  1. Cambio a hemorroidal/Sc como recomiendas.
  2. Quito cómitre, que no es adjetivo.
  3. dromomaníaco es adjetivo.
  4. Yo mantendría gallo, porque en la aceptión 5 del DLE dicen «U. t. c. adj.» (Usado tmabién como adjetivo).
  5. No sé cuál es el criterio que se ha acordado para incluir términos. Coincido con Jorge en que basta con que existan y estén el el DLE para incluirlos. Tal vez se usen poco, pero si he descubierto que no estaban es porque me han salido como error en textos que estaba leyendo o escribiendo.
  6. ¿Hay mejores lemas? Seguro, alguien los descubrirá y añadirá. ;)

Un saludo.

Quito cómitre y cambio a hemorroidal/Sc
Añado varios adjetivos, todos presentes en el DRAE, incluyendo los números ordinales que faltaban hasta el nonagesimonono/GS.
@RickieES
Copy link
Collaborator

RickieES commented Aug 7, 2023

Semidesnudo se puede obtener añadiendo la bandera q a "desnudo", también en Adjetivos.txt:

desnudo/GSq

@RickieES
Copy link
Collaborator

RickieES commented Aug 7, 2023

También quiero comentar dos aspectos que han surgido anteriormente: cuándo añadir palabras al diccionario y en qué categoría.

Sobre cuándo añadir palabras al diccionario, no es realista pensar que podemos tener todos los lemas existentes en el diccionario, incluso si están admitidos por la RAE. En este sentido, el artículo del wiki Cómo colaborar con RLA-ES tiene un apartado sobre los criterios para admitir las palabras. Insisto, no podemos pensar que el diccionario va a poder albergar todos los lemas posibles de la RAE; pensad que, aunque nos apoyemos en banderas para derivar términos, en el fichero que realmente se usa por el motor del corrector ortográfico están todos los lemas expandidos.

En cuanto a con qué categoría añadir los lemas, de eso no hemos hablado nunca, es verdad, y deberíamos hacerlo. Para mí, cuando aparece la nota U.t.c.s. o similares, significa que la RAE no le otorga la categoría de sustantivo, pero consiente su uso como tal. Es solo mi opinión y, como digo, creo que deberíamos discutirlo con carácter más general, llegar a un acuerdo y plasmarlo en el documento del wiki.

Paso semidesnudo a desnudo/GSq.
Quito gallo, que se usa como adjetivo, pero propiamente no lo es.
@Pompilos
Copy link
Contributor Author

Pompilos commented Aug 8, 2023

Hola, el artículo de la wiki Cómo colaborar con RLA-ES, por el que me he guiado, dice que «En general, se añaden todas las palabras admitidas por el Diccionario de la Lengua Española de la RAE». Tu afirmación de que «no es realista pensar que podemos tener todos los lemas existentes en el diccionario» implica que hay una limitación de tamaño, que es más importante que el hecho de que un diccionario con menos lemas da (a mí me los está dando, por eso he detectado la ausencia de esos lemas) falsos positivos, palabras que marca como errores ortográficos sin serlo.

Desconozco cuál es el tamaño del diccionario con los lemas expandidos, ni en qué medida eso supone un problema. Hace años un procesador de texto ocupaba 40 MB, y ahora muchos programas ocupan fácilmente 500 MB, porque hacen más cosas y las hacen mejor. Para mí hace las cosas mejor un diccionario que solo dé verdaderos positivos (faltas de ortografía), no falsos positivos con las palabras poco frecuentes.

Si decidimos que no todas las palabras que salen en el DRAE deben incluirse, alguien debe convertirse en juez de cuáles sí y cuáles no. Yo leo sobre navegación a vela y «sobrejuanete» me parece una palabra importante; otro lee sobre mecánica y opina que «polispasto» lo es. ¿Alguien va actuar de juez y decidir que no se incluya el primero pero sí el segundo, como ocurre ahora? En ese caso, puedo decidir que este no es mi diccionario (lo cual, dicho sea de paso, no es ningún drama, porque la mayoría de los diccionarios del mundo no lo son).

En espera de que se objetiven los criterios de inclusión de palabras, suspendo mi contribución al diccionario. Un cordial saludo.

@RickieES
Copy link
Collaborator

RickieES commented Aug 9, 2023

Hola, el artículo de la wiki Cómo colaborar con RLA-ES, por el que me he guiado, dice que «En general, se añaden todas las palabras admitidas por el Diccionario de la Lengua Española de la RAE». Tu afirmación de que «no es realista pensar que podemos tener todos los lemas existentes en el diccionario» implica que hay una limitación de tamaño, que es más importante que el hecho de que un diccionario con menos lemas da (a mí me los está dando, por eso he detectado la ausencia de esos lemas) falsos positivos, palabras que marca como errores ortográficos sin serlo.

Bueno, vamos a tratar este tema en un issue específico para fijar un poco mejor los criterios. Trataremos de poner cifras que nos ayuden a todos a tomar la decisión, pero para que no se me olvide lo que tengo en la cabeza, lo pongo aquí y lo trasladaré al issue cuando lo abra.

Por supuesto que hay una limitación de tamaño, como es lógico. Voy a exagerar en varios órdenes de magnitud, pero un diccionario que contenga todos los términos y tenga un tamaño de 8 GB sería inútil en la práctica, porque nadie querría tener que destinar esa cantidad de memoria solo a revisar palabras. Dividamos por 100 y pongamos que el diccionario ocupa unos 80 MB de RAM en memoria. Seguiría siendo un problema porque:

  • Cada aplicación que lo use, y serán la mayoría, ocuparía 80 MB de RAM más en memoria, así que con Firefox, LibreOffice y Thunderbird o Evolution, por ejemplo, usaríamos 240 MB de RAM.
  • Además del problema de memoria, cada palabra que se escribe en la caja de edición debe ser revisada y eso prácticamente sucede con cada pulsación de tecla. Si en lugar de buscar 100 palabras en una colección de 20.000 palabras tiene que buscar en una colección de 6.000.000, el consumo de procesador y los ciclos de memoria para acceder a la lista en memoria será mucho mayor y el rendimiento se verá resentido.

Así que, sí, el tamaño importa. Lo que tenemos que decidir ahora es a partir de qué cantidades y si debemos preocuparnos o no.

Si decidimos que no todas las palabras que salen en el DRAE deben incluirse, alguien debe convertirse en juez de cuáles sí y cuáles no. Yo leo sobre navegación a vela y «sobrejuanete» me parece una palabra importante; otro lee sobre mecánica y opina que «polispasto» lo es. ¿Alguien va actuar de juez y decidir que no se incluya el primero pero sí el segundo, como ocurre ahora?

Aquí hay varias cuestiones:

  • El corrector ortográfico no está para revisar las palabras que se leen, sino las que se escriben. Quiero entender que lees mucho sobre navegación a vela y por eso también escribes, pero si, por ejemplo, respondes a un comentario en un foro que contiene el lema "sobrejuanete", que la marque como errónea no debería preocuparte si conoces el término (o el marcado te lleva a buscarlo al DLE y aprendes su significado).
  • Aplicando el criterio de 0,20 en el CORPES, ambos ejemplos que pones, "sobrejuanete" (Fnormal 0,01 por millón) y "polispasto" (Fnormal 0,02 por millón), no se añadirían. El criterio es estable, no cambia para cada caso. Yo me acabo de encontrar un término que me parece muy común por mi trabajo, "inventariable", y resulta que tampoco se incluiría atendiendo al umbral de 0,20.
  • El diccionario personal puede usarse para evitar que se marquen como erróneas las palabras que no recoge el corrector y son muy infrecuentes, como los ejemplos que pones.

En ese caso, puedo decidir que este no es mi diccionario (lo cual, dicho sea de paso, no es ningún drama, porque la mayoría de los diccionarios del mundo no lo son).

En espera de que se objetiven los criterios de inclusión de palabras, suspendo mi contribución al diccionario. Un cordial saludo.

Como digo, vamos a fijar los criterios. Mi sensación es que sigo viendo lemas que me resultan de uso común marcados como incorrectos, pero quizá lo son en mi ámbito laboral o de aficiones y no son tan comunes para el público en general, seguramente lo mismo que te pasa a ti con los que estás añadiendo y que yo, confieso, no había visto jamás. 😃 También he visto el tamaño actual del diccionario (es-ES, en este caso) y estamos aún lejos de esos 80 MB que he puesto de ejemplo (aunque ya no llegamos a un orden de magnitud por debajo). Veamos el impacto real del diccionario y, si hay que quitar "En general" y poner en negrita que todos los lemas que estén en la RAE se añaden, iré corriendo yo mismo al wiki a hacerlo. 😉

@olea
Copy link
Collaborator

olea commented Aug 10, 2023

Yo voto por incorporar todas las propuestas, con las correcciones técnicas de implementación que se precisen.

@RickieES
Copy link
Collaborator

Ayer abrí el issue que prometí para tratar el tema:

#292

Y ya he puesto mi opinión, a la espera de que alguien más se anime a hacer pruebas de rendimiento y confirme o corrija mis conclusiones preliminares.

@RickieES
Copy link
Collaborator

Veo estas dos cuestiones:

  • Vuelve a estar el sustantivo "cómitre". Como entiendo que se puede decir "el cómitre" y "la cómitre" (la tercera acepción indica "m. y f.", muévelo a "NombresComunes.txt", por favor.
  • Yo no soy excesivamente purista en esto que voy a comentar, pero las reglas de clasificación de lemas que hay en el wiki indican que si un lema tiene diferentes categorías gramaticales, habría que añadirlo en todos los archivos pertinentes. Según esto, "plumífero" debería añadirse también en "NombresMasculinosFemeninos.txt" (si no está ya, que no lo he mirado). Igualmente, habría que añadir "submarino" en "NombresMasculinos.txt"

Quito cómitre.
Añado proel y volantín/GS.
Añado madrugón/GS.
@RickieES RickieES merged commit b3b8d7a into sbosio:master Aug 15, 2023
@RickieES RickieES added this to the Versión 2.8 milestone Aug 15, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

4 participants