关于distinct-1/2的计算，用了多少句子/conversations？ #135

ZenzenDatabase · 2022-05-06T08:38:40Z

is:issue is:open 你好，我想问一下，在计算distinct-1/2的时候，用了多少句子和多少词汇，是全部test 数据吗，还是选择了top 10？ 50？200？我们想知道这个分母是基于多少数据计算的。我们主要是为了做对照实验，想知道这个重要的数据信息。谢谢

sserdoubleh · 2022-05-07T03:55:54Z

200个话题，各进行一个 self-chat
每个多轮self-chat，除开始的话题以外，模型生成了9个 utterance，计算 distinct 是根据 200 * 9个 utterance 来计算的

对于 distinct-1、distinct-2，分母分别是200 * 9个 utterance 包含的 unigram 和 bigram 数量

Provide feedback