仅截取了输入数据的前4k和后4k token, 但longbench最长32k token？ #18

JulietLJY · 2024-07-18T03:16:51Z

为什么在代码中这样实现呢？这样导致的直接结果是答案并不是长文本阅读，而是只有model_max_length长度的文本阅读。如果答案出现在中间部分，full attention也无法做对。而如果答案出现在前后部分，这样又会导致去噪。不论哪种情况都会使得结果偏离实际。

Zefan-Cai · 2024-07-18T05:22:35Z

只有LlaMa3会这样做，因为LlaMa3只有8k长度。Mistral就是32k。代码中这样实现是因为这样相比截断后面或者截断前面相对合理。

Provide feedback