Usage

此模型使用了BigScience的mT0多语言模型，用于训练中文到日语的翻译或者日语到中文的翻译

train

根据config/config.json可以调整模型训练的参数，目前fp16训练有loss nan的问题
colossalai的参数可以在colossalai_config.py里调整，注意：epoch和batch依然是使用config.json的参数，在colossalai_config.py中设置的全局参数不会起作用
load_epoch可以用于恢复之前训练的checkpoint
数据文件应放在 data/ 目录下，以源语言/目标语言为后缀保存

...
├───data
│   └───train.ja
│   └───train.zh
│   └───val.ja
│   └───val.zh
│   ...
...

由于Google官方的mT5模型并没有中日支持（虽然model card上有写，但是实际没有），所以在训练中日语言模型时可以使用我的版本的预训练模型
- NOTE:预训练模型使用的是mT0-base, 如果要使用small或者large等其他预训练模型，只需要修改config里的model就行例如 "model": "mt0-small"

运行训练脚本

python train.py

{
    ...
    "load_epoch": "best" or num,
    ...
    "device": "cpu"
}

python inference.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
config		config
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
colossalai_config.py		colossalai_config.py
config.py		config.py
data.py		data.py
inference.py		inference.py
main.py		main.py
models.py		models.py
preprocess.py		preprocess.py
requirements.txt		requirements.txt
text.py		text.py
train.py		train.py