Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Exploring Data Augmentation for Improved Singing Voice Detection with Neural Networks #55

Open
kogaki opened this issue Mar 29, 2019 · 0 comments

Comments

@kogaki
Copy link
Member

kogaki commented Mar 29, 2019

singing voice detectionタスクにおいて、様々な入力音声のDataAugmentationを試した報告

論文本体・著者

解きたい問題

  • 音声データから、ボーカル歌唱部分をアノテーションする問題(singing voice detection)
    • 入力は対数スペクトログラム、出力は各時間ごとにそこが歌唱音声or notの2値

新規性

  • いろんなDataAugmentationを試した。最終的にいろいろなDAを混ぜることでSoTAを達成

実装

image
論文 Fig. 1 より
  • Dropout
  • スペクトログラムにgaussian noise付与
  • Pitch shift
  • TIme stretch
  • Loudness変動
  • 周波数領域にフィルタ付与
    • 対数正規分布のフィルタで、μとσをランダムにしてる

実験・議論

image
論文 Fig. 2 より。左右はデータセット違い
  • Dropoutやgaussian noise付加はエラー率を大きくしてしまう。

  • Pitch shiftが効く

    • [感想] ただし歌唱部認識という問題特有かも。。
  • mixingはうまく行かなかった

    • ノイズに強くなってほしかったんだが、単に問題を難しくしてしまったようである
  • test-timeにもpitch shiftを行って、その結果をaverageすると性能が上がった

  • 最終的にpitch shift +-30%範囲、time stretch +-30%範囲、frequency filter +-10%を行ったもの(combined)が最も性能向上した

  • さらに、test-timeにもpitch shift augmentationをして、その結果を平均取ることで性能向上した

読んだ中での不明点などの感想

  • やってみた、感は否めないけど参考になる論文。実はaugmentation前のbaselineが弱いのでSoTAと言い切るには厳しいスコアではある

関連論文

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants