Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

開始無音&終了無音の設定 0.10でも0.30になっている #2

Closed
ckjpn opened this issue Nov 23, 2024 · 3 comments
Closed

Comments

@ckjpn
Copy link

ckjpn commented Nov 23, 2024

Screenshot 2024-11-23 at 18 10 40
@tsukumijima
Copy link
Contributor

@ckjpn ご連絡ありがとうございます。
こちらでも確認しましたが、Anneli モデルの特性によるものと思われます。その証拠に、他のモデルであれば無音区間が少なくともより短くなるケースが多いです。
現時点で対応している Style-Bert-VITS2 モデルアーキテクチャの特性上、最終的な発音はかなりモデルに依存します。
今回の場合、機械的に前後に追加される無音がそれぞれ 0.1 秒、推論後に吐き出される音声波形に含まれる前後の無音がそれぞれ 0.2 秒あり、結果的に前後それぞれ 0.3 秒の無音となってしまっていると思われます。

これらの現象は現時点での仕様になりますので、一旦クローズさせていただきます。

@tsukumijima
Copy link
Contributor

@ckjpn 遅くなりましたが修正の目処が立ったため、Aivis-Project/AivisSpeech-Engine@e16f6e6 にて修正しました。
次回バージョンにて反映予定です。ご報告ありがとうございました!

@ckjpn
Copy link
Author

ckjpn commented Dec 24, 2024

Thanks.

Intel CPU 搭載 Mac での動作は積極的に検証していません。
BTW, I've used AvisSpeech on an Intel CPU Mac and everything seems to work OK.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants