Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

First release in UD #82

Open
wellington36 opened this issue Dec 10, 2021 · 2 comments
Open

First release in UD #82

wellington36 opened this issue Dec 10, 2021 · 2 comments

Comments

@wellington36
Copy link
Contributor

wellington36 commented Dec 10, 2021

Lançamento UD (passo a passo)

Para lançamendo do DHBB1.0.0 no UniversalDependencies faremos uma sequência de passos bem definida com intuito de documentação e organização das tarefas (tais passos podem ser modificados com o tempo).

Passo 1 - Detectar questões nos dados brutos que podem influenciar futuramente (tabela, ...) e elaborar uma metodologia de tratamento

  • tabelas: 2 tabelas em 5753.text e 1 em 5919.text (identificadas por grep "|" *), aqui uma tabela pode ter uma estrutura que não possamos identificar (possível solução: estabelecer uma estrutura identificavel com quem produz os dados, dado que este tópico é de interresse mútuo)
  • aspas francesa: Não é comum no português, uma ferramenta que treina usando nosso corpus pode ter dificuldade em parsear uma aspas normal " pela sua não ocorrência no corpus.
  • issues DHBB e dhbb-nlp: https://github.com/cpdoc/dhbb/issues e https://github.com/cpdoc/dhbb-nlp/issues.

Passo 2 - Fazer um split das sentenças (openlp)

  • Ver discussão em split of sentences #39
  • Verificar o split (observar pontos de possíveis erros: abreviação, pontuação, preposições, ...)

Passo 3 - Treinar o UdPipe1.2 com Bosque2.9

  • Resolver questões sobre valencia em verbos.
  • Run UdPipe:
udpipe --train bosque2.9.udpipe [bosque2.9 train conllu] 

Passo 4 - Como vamos organizar as sentenças.

Passo 5 - Rodar o modelo no DHBB1.0.0 todo (ou numa sample para teste)

  • Selecionar os parâmetros para o modelo

Passo 6 - Listar erros encontrados (podem ser muitos)

  • Usar script da CoNLL 2018 Shared Task para verificação.
  • Aqui provavelmente encontraremos erros do passo 1 e passo 2, então teremos que refazer estes passos.

Passo 7 - Lançamento

  • Quando os erros encontrados no passo 6 forem "plausíveis" de serem deixados para correções posterioris seria o momento de colocar no UD.
@wellington36
Copy link
Contributor Author

@arademaker, podemos editar o cometário inicial conforme prosseguimos.

@wellington36 wellington36 pinned this issue Dec 10, 2021
@wellington36
Copy link
Contributor Author

@arademaker, do passo 1 que mencionei acima:

tabelas: 2 tabelas em 5753.text e 1 em 5919.text (identificadas por grep "|" *), aqui uma tabela pode ter uma estrutura que não possamos identificar (possível solução: estabelecer uma estrutura identificavel com quem produz os dados, dado que este tópico é de interresse mútuo)

Eu considero a solução que eu propus ou supor que grep "|" * pode encontrar todas as tabelas e demove-las na mão (como um plano b a solução inicial)

aspas francesa: Não é comum no português, uma ferramenta que treina usando nosso corpus pode ter dificuldade em parsear uma aspas normal " pela sua não ocorrência no corpus.

Esse pode não ser um problema grande dado que " é uma pontuação e "talvez" não interfira na utilização por ferramentas (isso deve ser testado futuramente).

issues DHBB e dhbb-nlp: https://github.com/cpdoc/dhbb/issues e https://github.com/cpdoc/dhbb-nlp/issues.

Ainda estou investigando alguns issues mas no geral eles parecem mais desenvolver linhas de trabalho e problemas em cima dessas linhas do que problemas que necessariamente vamos enfrentar (mas alguns issues podem servir como consulta do que já foi testado e feito anteriormente)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant