很值得期待的新项目，加油。 #7

imgingroot · 2023-05-06T01:55:00Z

llama的中文问题一直没有很好的解决，一方面是词表，一方面是数据集。 Chinese-LLaMA的性能比大家预期的要差。很期待pandallm和Chinese-LLaMA的对比评测，可以让中文开源大模型越来越好。

看论文，pandallm使用的是llama的原始词表，作者可以说下原因吗？

SparkJiao · 2023-05-06T02:21:53Z

直觉上讲数据的质量基本决定了模型的质量，belle把基本所有的中文instruction tuning的数据都包括进去了，所以我们主要想对比这个模型。但我们正在筹备一个leaderboard，会增加更多的中文学术数据集以及极可能包含所有的中文模型。当然还是要提一句就是我们的模型不是很擅长对话，这是数据决定的，COIG的数据更多以任务导向为主（问答和翻译）。

我们后面会考虑把LLaMA换成别的模型，最好是多语言且开源可商用的语言模型，只是目前的开源模型要么没有用LLaMA这么大的预训练token量级（比如Dolly-6.9b），要么虽然是多语言但大家的反馈表示效果并没有很好（比如bloomz）。

关于词表的问题，我们其实一开始想过也扩充一下词表，因为好处有非常多，比如可以生成更长的序列，但是考虑到时间成本以及效果的不确定性我们还是没有做（unicode拆分后的子词应该也是被训练过了，重新扩充词表意味着要从零开始训练某些词向量）

最后，感谢支持。

imgingroot · 2023-05-06T02:43:12Z

是的，现在大家越来越发现，数据quality要远比size重要。好的词表，本质也是在提升数据质量。当然扩充词表确实比较麻烦，不确定性也很高。
我觉得pandallm线路方向很好，整理出一份好的数据集，用一套框架可以适配到不同的基础开源模型。
我建议这个数据集最好是包括一部分平行语料的形式，类似中英文双语，来源可以收集，也可以用其他模型来做翻译生成。另外随着数据集增大，还是需要考虑词表。数据量大了，从零开始训练也没什么，因为有前面的平行语料，从英文语料训练出来的能力也能比较好的迁移到中文中。

Bosheng2020 · 2023-05-07T11:39:29Z

非常感谢您的宝贵建议我们会在后续版本进行调整

DaoD · 2023-05-17T12:59:20Z

想问一下，是否在验证集上观察到了过拟合现象？看起来训练数据量很小，对于语言模型而言可能很容易过拟合

SparkJiao · 2023-05-17T13:07:58Z

想问一下，是否在验证集上观察到了过拟合现象？看起来训练数据量很小，对于语言模型而言可能很容易过拟合

首先我们没有用数据集的验证集训练，应该也没有污染现象，所以应该不存在在验证集上过拟合的情况，且中文迁移预训练阶段的学习率相当小，所以只有可能在COIG上过拟合；README里放了不同instruction tuning step对应的checkpoint在C3和LogiQA-v2上的结果，目前还没有观察到饱和的现象。但依然不建议在小数据集上训练过久。

SparkJiao added the enhancement New feature or request label May 6, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

很值得期待的新项目，加油。 #7

很值得期待的新项目，加油。 #7

imgingroot commented May 6, 2023

SparkJiao commented May 6, 2023

imgingroot commented May 6, 2023

Bosheng2020 commented May 7, 2023

DaoD commented May 17, 2023

SparkJiao commented May 17, 2023

很值得期待的新项目，加油。 #7

很值得期待的新项目，加油。 #7

Comments

imgingroot commented May 6, 2023

SparkJiao commented May 6, 2023

imgingroot commented May 6, 2023

Bosheng2020 commented May 7, 2023

DaoD commented May 17, 2023

SparkJiao commented May 17, 2023