Skip to content

ShiroDoMain/mT0-zh2ja-Translator

Repository files navigation

此模型使用了BigScience的mT0多语言模型,用于训练中文到日语的翻译或者日语到中文的翻译

Usage

train

  • 根据config/config.json可以调整模型训练的参数,目前fp16训练有loss nan的问题
  • colossalai的参数可以在colossalai_config.py里调整, 注意:epoch和batch依然是使用config.json的参数,在colossalai_config.py中设置的全局参数不会起作用
  • load_epoch可以用于恢复之前训练的checkpoint
  • 数据文件应放在 data/ 目录下,以源语言/目标语言为后缀保存
...
├───data
│   └───train.ja
│   └───train.zh
│   └───val.ja
│   └───val.zh
│   ...
...
 
  • 由于Google官方的mT5模型并没有中日支持(虽然model card上有写,但是实际没有),所以在训练中日语言模型时可以使用我的版本的预训练模型
    • NOTE:预训练模型使用的是mT0-base, 如果要使用small或者large等其他预训练模型,只需要修改config里的model就行例如 "model": "mt0-small"

运行训练脚本

python train.py

inference

  • 推理时需要在config/config.json里指定load_epoch,可以是指定的已经训练完成的epoch,也可以是已保存的最好的模型
  • 推理时应该使用cpu推理
  • 推理时会自动加上前缀
{
    ...
    "load_epoch": "best" or num,
    ...
    "device": "cpu"
}
python inference.py

About

基于mT0的中日翻译模型

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages