Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

CERのタグをデータに付与して学習を行う #9

Open
fujimotos opened this issue Feb 6, 2023 · 0 comments
Open

CERのタグをデータに付与して学習を行う #9

fujimotos opened this issue Feb 6, 2023 · 0 comments

Comments

@fujimotos
Copy link
Member

チケットのゴール

  • 現在は抽出データに対して音声認識を適用し、文字誤り率CER<=0.33を満たす発話のみで学習を行っている。
    • 抽出データの合計時間数は最初のリリース時点で49121時間。
    • うち、CER<=0.33を満たす発話は19039時間(38.7%)
    • 詳細な分布は以下のヒストグラムを参照。
  • 一定の基準で足切りするのではなく、CERをタグとして学習データに組み込む。
    • CERの高い(ノイズの大きい)データも学習に取り込めるようになる。
    • 従来の方式に比べて頑健なモデルが得られる可能性がある。
  • この方式を検証し、精度・ロバストネスが改善するか確認する。

参考: 抽出データのCER分布(49121時間)

cer

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant