-
Notifications
You must be signed in to change notification settings - Fork 79
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
很值得期待的新项目,加油。 #7
Comments
直觉上讲数据的质量基本决定了模型的质量,belle把基本所有的中文instruction tuning的数据都包括进去了,所以我们主要想对比这个模型。但我们正在筹备一个leaderboard,会增加更多的中文学术数据集以及极可能包含所有的中文模型。当然还是要提一句就是我们的模型不是很擅长对话,这是数据决定的,COIG的数据更多以任务导向为主(问答和翻译)。 我们后面会考虑把LLaMA换成别的模型,最好是多语言且开源可商用的语言模型,只是目前的开源模型要么没有用LLaMA这么大的预训练token量级(比如Dolly-6.9b),要么虽然是多语言但大家的反馈表示效果并没有很好(比如bloomz)。 关于词表的问题,我们其实一开始想过也扩充一下词表,因为好处有非常多,比如可以生成更长的序列,但是考虑到时间成本以及效果的不确定性我们还是没有做(unicode拆分后的子词应该也是被训练过了,重新扩充词表意味着要从零开始训练某些词向量) 最后,感谢支持。 |
是的,现在大家越来越发现,数据quality要远比size重要。好的词表,本质也是在提升数据质量。当然扩充词表确实比较麻烦,不确定性也很高。 |
非常感谢您的宝贵建议 我们会在后续版本进行调整 |
想问一下,是否在验证集上观察到了过拟合现象?看起来训练数据量很小,对于语言模型而言可能很容易过拟合 |
首先我们没有用数据集的验证集训练,应该也没有污染现象,所以应该不存在在验证集上过拟合的情况,且中文迁移预训练阶段的学习率相当小,所以只有可能在COIG上过拟合;README里放了不同instruction tuning step对应的checkpoint在C3和LogiQA-v2上的结果,目前还没有观察到饱和的现象。但依然不建议在小数据集上训练过久。 |
llama的中文问题一直没有很好的解决,一方面是词表,一方面是数据集。 Chinese-LLaMA的性能比大家预期的要差。很期待pandallm和Chinese-LLaMA的对比评测,可以让中文开源大模型越来越好。
看论文,pandallm使用的是llama的原始词表,作者可以说下原因吗?
The text was updated successfully, but these errors were encountered: