-
Notifications
You must be signed in to change notification settings - Fork 119
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别? #10
Comments
训练目标是一致的。 |
请问continual pretraining的bs和lr这些参数大概是什么样子,loss大小呢? |
参考了llama 原文的,bs=1024,lr=1e-4。 loss 大致在 1. ~ 2. 之间。 |
是可以持续下降吗,我跑的发现波动的厉害,从1.7下降到1.6,再上升下降这样的,有相关的建议吗 |
我们好像并没有遇到这个问题,偶尔会有一两个峰,但很快又回到正常的loss上,继续下降。 |
感谢回复,还想请教一个问题,关于continual pretraining的token数量你们做过实验吗?你之前提到的10B的量级才有明显效果是实验观察的结果吗? |
这个是个预估,更详细的模型性能和token数目的测试,我们还在进行中。 |
@AndrewZhe |
是的
是的,指令微调部分会涉及通用和领域相关的任务。 |
关于continual training我想问一下 这个和以前T5那种mask token,next-sentence预训练是差不多的方式吗 |
zero shot能力从哪里来?是与指令微调的任务有关吗? #24 |
如题!两种训练方式的训练目标是一样的么?两者的训练数据构造有什么区别?谢谢!
The text was updated successfully, but these errors were encountered: