本網站內容取自《噶哈巫語分類辭典》一書,謹此致謝。
書籍資訊:
- 原著:潘永歷
- 總編輯:董忠司
- 主編:陳嬿庄
- 編輯:潘正浩、林鴻瑞、涂文欽、朱恩成
- 出版單位:南投縣埔里鎮守城社區發展協會
- 出版年:2015年
- ISBN:9789869248808
- 文本:
《噶哈巫語分類辭典》EXCEL版本.xls
- 聲音:下載
本辭典用姓名標示-非商業性-相同方式分享 4.0 國際 (CC BY-NC-SA 4.0)
授權
除原始資料外,此檔案庫內轉換格式、重新編排的編輯著作權(如果有的話)皆以 CC0 釋出,衍生著作物應以原始資料之授權為準。
程式部份為MIT授權。
調整原始檔音量
sudo apt-get install normalize-audio -y
find . -type f -exec normalize-audio {} \;
希望會使逐句分開,逐詞嘛分開,所以愛做兩擺。
- xls檔
- 語句格式檔。照講的順序排,辨識單位放仝一個陣列
- 一句
- [('語詞編號','01A-001'),('臺語','thâu ê tsoân-pō•'),('華語','頭(整個)'),('Kaxabu','punu')]
- 一詞
- [('語詞編號','01A-001')]
- [('臺語譯解','thâu ê tsoân-pō•')]
- [('中文譯解','頭(整個)')]
- [('噶哈巫語教材標記法','punu')]
- 語料label標仔檔,佮dict辭典檔。逐個內容用逗號隔開,空白換做底線
- 一句
- 01A-001,thâu_ê_tsoân-pō•,頭(整個),punu 0 1 A 0 0 1 tʰ au e ts uan p o ㄊ ㄡ p u n u
- 一詞
- 01A-001 0 1 A 0 0 1
- thâu_ê_tsoân-pō• tʰ au e ts uan p o
- 頭(整個) ㄊ ㄡ
- punu p u n u
- HTK的mlf檔
到音檔目錄執行以下bash
mkdir wav ; find . -name '*mp3' | egrep -v "25|26" | awk '{print "avconv -i "$0" "$0}'| sed 's/3 \./3 wav/g' | sed 's/\.[^ 1-9]*mp3$/.wav/g' | bash
華語辭典
git clone https://github.com/g0v/moedict-data.git
sudo apt-get install -y liblapack-dev libblas-dev gfortran praat
virtualenv venv --python=python3 ; . venv/bin/activate ; pip install --upgrade pip
pip install -r requirements.txt
改bizu/參數.py
,填上面轉wav
和git clone
的路徑
xls所在 = '路徑/《噶哈巫語分類辭典》EXCEL版本.xls'
教育部重編國語辭典json所在 = 'moedict-data路徑/dict-revised.json'
wav音檔目錄= '路徑/wav/'
python 走.py
python bizu/敆音檔.py
才去檢查音檔有切好無
照分類聽
- 聽編號佮華語是毋是學姐的聲
- 臺語佮kaxabu是長老的聲