-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
udp-mini vs morphoBr #67
Comments
hi @analununes I've noticed that "Cristão, escrivão" are being considered auxiliary verbs by UDpipe. Also "FEBEM" is considered an interjection somewhere, so there are things that are clearly wrong. the idea would be to build the list of all the roots and check the mistakes, ie. the things that cannot be roots, such as preposititions, determiners, etc. Having a list of the verbs (which should be the majority of the roots with a bit of luck) then one can check whether they're in MorphoBr or not. |
Este issue é sobre comparar todos os tokens do mini com Morpho-Br. Não vejo porque na comparação, que precisaremos de um script para isso, precisamos nos preocupar apenas com roots. Mas na avaliação das diferenças, ai sim, podemos inicialmetne focar nos roots.
|
Notem que achar erro é razoavelmente fácil, o difícil é corrigir, o caso de ADP root acima é
Vou tentar corrigir, para mim
|
Em 36ddb39, a sentença acima assim como a sentença 1012-1 foram revisadas com auxilio do @leoalenc. Estou marcando sentenças revisadas com o metadado
Aproveitei para corrigir outras 4 sentenças destas curtas, marcar como De qq modo, @analununes, este issue trata de termos uma programa para identificar possíveis erros nas sentenças usando o Morho-Br, até para priorizar as análises que devo fazer com o @leoalenc. |
@analununes, considerando que eu já segmentei as sentenças no udp-mini , procurei e achei uns 5-10 casos de erro e corrigi manualmente antes de rodar o UDP, gostaria de focar agora em tentar melhorar/revisar analises do udp-mini.
Uma idéia é comparar os tokens com https://github.com/LR-POR/MorphoBr. Para tokens verbo, noun, adj e adv, deveriamos conseguir achar no morpho-br... Eu gostaria que esta semana vc tentasse focar nisso. A idéia é usar o morpho-br para achar possíveis errors do UDP no
udp-mini
.The text was updated successfully, but these errors were encountered: