GitHub - CoinLQ/CBetaText: CBeta related tools and material

CBeta Text Introduction

根据中国《通用汉字规范表》一二级字表的制作方法，以CBeta的文本为基础语料，制作大藏经一二级字表。

步骤如下：

根据台湾异体字字典，判断unicode.txt中的异体字类型，结果为unicode_types.txt。（std表示正字，single_vt表示狭义异体字，mul_vt表示广义异体字。）
查询台湾异体字字典，获取unicode_types.txt中的狭义和广义异体字对应的正字，得到文件variants.txt。
根据variants.txt，将unicode.txt中所有的狭义异体字替换为正字，广义异体字则保留不变。
针对替换后的字频文件，将相同的文字进行合并，合并结果为final_char_freq.txt和detail_final_char_freq.txt。其中，detail_final_char_freq.txt记录了合并之前的字频。
针对合并后的final_char_freq.txt文件，按照《通用汉字规范表》一、二级字表提供的算法，计算得到大藏经一二级字表。

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
code		code
txt		txt
README.md		README.md