Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

有做和ChatGLM对比的评测吗 #6

Open
lanyuer opened this issue May 5, 2023 · 3 comments
Open

有做和ChatGLM对比的评测吗 #6

lanyuer opened this issue May 5, 2023 · 3 comments
Labels
enhancement New feature or request

Comments

@lanyuer
Copy link

lanyuer commented May 5, 2023

No description provided.

@SparkJiao
Copy link
Collaborator

目前没有,但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

@SparkJiao SparkJiao reopened this May 5, 2023
@SparkJiao SparkJiao added the enhancement New feature or request label May 5, 2023
@Zombiessss
Copy link

目前没有,但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

和chinese-llama-alpaca相比怎么样呢,https://github.com/ymcui/Chinese-LLaMA-Alpaca 有做过对比吗,感觉你贴出来pandas的效果很差呀,都是llama底座的情况下

@SparkJiao
Copy link
Collaborator

目前没有,但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

和chinese-llama-alpaca相比怎么样呢,https://github.com/ymcui/Chinese-LLaMA-Alpaca 有做过对比吗,感觉你贴出来pandas的效果很差呀,都是llama底座的情况下

我们没有和Chinese-LLaMA-Alpaca做对比是出于时间关系,从instruction tuning的数据量上看belle是更全面的(直觉上性能也会更好),所以我们优先测了belle,但我们忙完这段时间之后会尽可能补充现有的中文模型。倒不是刻意回避更强的模型,因为chatGLM-6B和Moss应该肯定会比我们强,但是我现在还没来得及补全这部分推理的框架,需要时间。

关于效果很差,我们的模型并不擅长做对话(因为COIG本身就没有很多chat的数据,以问答和翻译为主,我们没有用alpaca的数据)。目前在对话流畅性和事实性方面,除非有新的高质量instruction tuning数据集出现,否则其实大家都不会有什么本质的区别(我们预训练阶段和Chinese-LLaMA-alpaca是一致的,或者说目前这是最通用的语料)。

我们还是希望从基础能力方面去测评模型,并持续改进,这方面的评测相比case study或者少量样本人工主观判断,我们觉得还是更客观地去直接算准确率更合理,当然目前也有很多不足,比如现在全是zero-shot answer-only的设置,需要引入CoT和few-shot的设置。我们会持续完善。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

3 participants