-
Notifications
You must be signed in to change notification settings - Fork 33
Home
薛丞宏 edited this page Dec 9, 2016
·
1 revision
我看著的羅馬字大部份攏有標調 華語免標注音,是因為有漢字就有法度標注音 臺語的漢字佮羅馬字才整合無偌久 實務上有需要兩个做伙做 親像
Combine001/Combine001_0010.wav 伊_攏_是_恬_恬_仔_搰_力_去_做_//i2 long1-si3 diam3-diam3-a1 gut1-lat2 ki1-zor3
我的做伙是共漢字佮羅馬字做一个詞
Combine001/Combine001_0010.wav 伊|i2 攏-是|long1-si3 恬-恬-仔|diam3-diam3-a1 搰-力|gut1-lat2 去-做|ki1-zor3
換做臺羅拼音是:
伊|i1 攏-是|long2-si7 恬-恬-仔|tiam7-tiam7-a2 搰-力|kut4-lat4 去-做|khi3-tso7
我佇lexcicon.txt辭典內底共in拆開
伊|i1 ʔ- i1
攏-是|long2-si7 l- o2 ŋ2 s- i7
恬-恬-仔|tiam7-tiam7-a2 t- i7 a7 m7 t- i7 a7 m7 ʔ- a2
…
kaldi有共辭典獨立出來,變調只要改lexcicon.txt就好
伊|i1 ʔ- i1 #無變調
伊|i1 ʔ- i7 #變調
攏-是|long2-si7 l- o1 ŋ1 s- i7 #頭字變,尾字無變
攏-是|long2-si7 l- o1 ŋ1 s- i3 #頭字變,尾字變調
我lm的文本,大部份的原始來源攏是漢羅
所以轉做攏-是|long2-si7
這種分詞格式是必要的