https://github.com/DILA-edu/cbeta-metadata
-
带现代标点和简单标记的utf8文本 https://github.com/mahawu/BM_u8
-
文本处理相关程序 https://github.com/RayCHOU/ruby-cbeta
http://www.rubydoc.info/gems/cbeta/CBETA/P5aToText
-
字频统计 https://github.com/DILA-edu/cbeta-metadata/tree/master/char-count
-
缺字文件 https://github.com/DILA-edu/cbeta-metadata/blob/master/gaiji/gaiji.json
根据中国《通用汉字规范表》一二级字表的制作方法,以CBeta的文本为基础语料,制作大藏经一二级字表。
步骤如下:
- 获取前叙的CBeta文本字频统计文件char-freq.csv。
- 根据缺字文件gaiji.json,对字频文件中的缺字进行替换,替换后的文件根据是否为unicode汉字分为两个文件。
- unicode.txt。文件中no_gaiji表示缺字文件中无此字,其余类型参照缺字文件。
- no_unicode.txt。
- 根据台湾异体字字典,判断unicode.txt中的异体字类型,结果为unicode_types.txt。(std表示正字,single_vt表示狭义异体字,mul_vt表示广义异体字。)
- 查询台湾异体字字典,获取unicode_types.txt中的狭义和广义异体字对应的正字,得到文件variants.txt。
- 根据variants.txt,将unicode.txt中所有的狭义异体字替换为正字,广义异体字则保留不变。
- 针对替换后的字频文件,将相同的文字进行合并,合并结果为final_char_freq.txt和detail_final_char_freq.txt。其中,detail_final_char_freq.txt记录了合并之前的字频。
- 针对合并后的final_char_freq.txt文件,按照《通用汉字规范表》一、二级字表提供的算法,计算得到大藏经一二级字表。
- 一级字表包含4176字,至:魍,657
- 二级字表包含8632字,至: 渕,36