希望在模型预训练中加入单词本 #2086

Crestina2001 · 2025-02-20T13:58:41Z

因为在推理时，遇到中英夹杂的场景，往往需要对单个单词进行发音，而由于在训练中可能缺少这一部分，导致中英夹杂的场景下单词读法很奇怪

XiongKexin · 2025-02-20T15:09:27Z

+1，同样发现中英夹杂的场景可能发音奇怪，尤其是中文和单个英文字母，比如说“A4纸”，“C1D驾照”这样的词，可能出现字母前停顿，或者字母吞音的状况。想请教，一般通过什么方法能够改善呢？

foreverhell · 2025-02-21T02:08:04Z

same issue

WyntalGeer · 2025-02-21T08:46:06Z

same issue+1

mondorysix · 2025-02-21T09:47:19Z

codeswitching时，字母开头会被language segment 为英文，此时触发cleaner.py L46:47处的条件，在前面增加了一个逗号。

+1，同样发现中英夹杂的场景可能发音奇怪，尤其是中文和单个英文字母，比如说“A4纸”，“C1D驾照”这样的词，可能出现字母前停顿，或者字母吞音的状况。想请教，一般通过什么方法能够改善呢？

KamioRinn · 2025-02-21T19:55:43Z

codeswitching时，字母开头会被language segment 为英文，此时触发cleaner.py L46:47处的条件，在前面增加了一个逗号。

之前的版本删掉后推单字母会因为太短吧出现各种奇怪的问题。新的我再看看

Provide feedback