You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Para lançamendo do DHBB1.0.0 no UniversalDependencies faremos uma sequência de passos bem definida com intuito de documentação e organização das tarefas (tais passos podem ser modificados com o tempo).
Passo 1 - Detectar questões nos dados brutos que podem influenciar futuramente (tabela, ...) e elaborar uma metodologia de tratamento
tabelas: 2 tabelas em 5753.text e 1 em 5919.text (identificadas por grep "|" *), aqui uma tabela pode ter uma estrutura que não possamos identificar (possível solução: estabelecer uma estrutura identificavel com quem produz os dados, dado que este tópico é de interresse mútuo)
aspas francesa: Não é comum no português, uma ferramenta que treina usando nosso corpus pode ter dificuldade em parsear uma aspas normal " pela sua não ocorrência no corpus.
tabelas: 2 tabelas em 5753.text e 1 em 5919.text (identificadas por grep "|" *), aqui uma tabela pode ter uma estrutura que não possamos identificar (possível solução: estabelecer uma estrutura identificavel com quem produz os dados, dado que este tópico é de interresse mútuo)
Eu considero a solução que eu propus ou supor que grep "|" * pode encontrar todas as tabelas e demove-las na mão (como um plano b a solução inicial)
aspas francesa: Não é comum no português, uma ferramenta que treina usando nosso corpus pode ter dificuldade em parsear uma aspas normal " pela sua não ocorrência no corpus.
Esse pode não ser um problema grande dado que " é uma pontuação e "talvez" não interfira na utilização por ferramentas (isso deve ser testado futuramente).
Ainda estou investigando alguns issues mas no geral eles parecem mais desenvolver linhas de trabalho e problemas em cima dessas linhas do que problemas que necessariamente vamos enfrentar (mas alguns issues podem servir como consulta do que já foi testado e feito anteriormente)
Lançamento UD (passo a passo)
Para lançamendo do DHBB1.0.0 no UniversalDependencies faremos uma sequência de passos bem definida com intuito de documentação e organização das tarefas (tais passos podem ser modificados com o tempo).
Passo 1 - Detectar questões nos dados brutos que podem influenciar futuramente (tabela, ...) e elaborar uma metodologia de tratamento
tabelas
: 2 tabelas em 5753.text e 1 em 5919.text (identificadas porgrep "|" *
), aqui uma tabela pode ter uma estrutura que não possamos identificar (possível solução: estabelecer uma estrutura identificavel com quem produz os dados, dado que este tópico é de interresse mútuo)aspas francesa
: Não é comum no português, uma ferramenta que treina usando nosso corpus pode ter dificuldade em parsear uma aspas normal"
pela sua não ocorrência no corpus.issues DHBB e dhbb-nlp
: https://github.com/cpdoc/dhbb/issues e https://github.com/cpdoc/dhbb-nlp/issues.Passo 2 - Fazer um split das sentenças (openlp)
Passo 3 - Treinar o UdPipe1.2 com Bosque2.9
Passo 4 - Como vamos organizar as sentenças.
Passo 5 - Rodar o modelo no DHBB1.0.0 todo (ou numa sample para teste)
Passo 6 - Listar erros encontrados (podem ser muitos)
passo 1
epasso 2
, então teremos que refazer estes passos.Passo 7 - Lançamento
passo 6
forem "plausíveis" de serem deixados para correções posterioris seria o momento de colocar no UD.The text was updated successfully, but these errors were encountered: