You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Tacotron으로는 꽤 쓸만하게 성능이 나와서 잘 활용하고 있습니다.
보다 음질을 높이기 위해 Wavenet Vocoder도 테스트해보고 있는데
600k까지 학습해보니, 거의 잡음만 출력되다가 일부 부분에서만 음성이 출력됩니다.
Loss는 5 이상에서 더이상 수렴을 하지 않는 거 같습니다.
245k까지 Wavenet Vocoder를 학습하신 결과를 보니, 음질은 안 좋지만 결과는 어느 정도 나오는데
그때의 loss가 어느 정도였는지 기억하시나요?
또, Wavenet Vocoder로 학습하는 과정이 제가 이해한 게 맞는지 확인해주실 수 있으신가요?
원하는 데이터셋으로 Wavenet Vocoder를 학습함(train_wavenet.py)
기존에 학습한 Tacotron 모델로 원하는 text를 음성으로 합성함(synthesizer.py)
2과정에서 생긴 npy 파일을 기반으로 Wavenet 모델로 음성을 생성함(generate.py)
(1과 2의 Wavenet과 Tacotron 모델은 동일한 데이터셋으로 학습했습니다.)
감사합니다.
The text was updated successfully, but these errors were encountered:
안녕하세요, 구현해주신 코드 잘 사용하고 있습니다. 감사합니다.
Tacotron으로는 꽤 쓸만하게 성능이 나와서 잘 활용하고 있습니다.
보다 음질을 높이기 위해 Wavenet Vocoder도 테스트해보고 있는데
600k까지 학습해보니, 거의 잡음만 출력되다가 일부 부분에서만 음성이 출력됩니다.
Loss는 5 이상에서 더이상 수렴을 하지 않는 거 같습니다.
245k까지 Wavenet Vocoder를 학습하신 결과를 보니, 음질은 안 좋지만 결과는 어느 정도 나오는데
그때의 loss가 어느 정도였는지 기억하시나요?
또, Wavenet Vocoder로 학습하는 과정이 제가 이해한 게 맞는지 확인해주실 수 있으신가요?
(1과 2의 Wavenet과 Tacotron 모델은 동일한 데이터셋으로 학습했습니다.)
감사합니다.
The text was updated successfully, but these errors were encountered: