Skip to content

关于语气控制的问题 #16

Discussion options

You must be logged in to vote

你说得很对,目前的风格控制还是比较初级,这只是我初步的实验结果。由于 ChatTTS 的原作者似乎还有调整计划,并且尚未发布关于风格控制的详细指南,所以我觉得没有必要详细说明我这些自己测试的结果。现在提供的30多个内置风格已经足够用了(对于API调用而言)。

如果你想进行细致的微调,可以参考以下思路:
简单来说,这类似于 ChatGPT 的系统提示(system prompt)中的上下文学习能力,我们可以通过插入上下文来控制后续生成的结果。

Prompt1 和 Prompt2

Prompt1 和 Prompt2 都是系统提示(system prompt),区别在于插入点不同。之所以需要两个提示,是因为测试发现当前模型对第一个 [Stts] token 非常敏感。

  • Prompt1 插入到第一个 [Stts] 之前
  • Prompt2 插入到第一个 [Stts] 之后

Prefix

这个主要是用于模型生成的控制能力,类似于官方示例中的 refine prompt。这个 prefix 中只应该包含特殊的非语素 token,如 [laugh_0][oral_0][speed_0][break_0] 等。

因此,styles 中所谓的 _p 就是使用 prompt + prefix,而不带 _p 的则只使用 prefix。

Replies: 2 comments

Comment options

You must be logged in to vote
0 replies
Answer selected by zhzLuke96
Comment options

You must be logged in to vote
0 replies
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
3 participants
Converted from issue

This discussion was converted from issue #4 on June 07, 2024 15:13.