生成乱码 #2

world2025 · 2024-11-06T06:08:08Z

你好，请问下，我用qwen2.5采用SR方案，生成的内容是乱码，请问知道是什么原因吗？best-of-N没问题。
llm_model qwen2.5-7b-instruct reward_model internlm2-7b-reward

preminstrel · 2024-11-06T06:17:10Z

这个看上去很奇怪，理论上不至于乱码（因为这些算法只是在众多回答挑一个回答比较好的），你得检查一下 tokenizer 是否correct。你可以 print 一下中间的输出。

world2025 · 2024-11-06T06:20:12Z

@preminstrel 我理解tokenizer和best-of-N一样，我再检查下吧

world2025 · 2024-11-06T08:59:38Z

@preminstrel 我用chinese-llama3能正常输出，qwen2.5我debug也没发现tokenizer有什么问题

preminstrel · 2024-11-06T09:02:28Z

中间的输出正常吗，我的意思是partial generation，我怀疑是model不兼容我们implement的那个LLM（没有用HF），可能需要调一下。

world2025 · 2024-11-06T09:12:30Z

@也是不正常

preminstrel · 2024-11-06T09:15:44Z

qwen2.5的架构和llama在HF里面写法不太一样，这个你得自己改一下我们写的LLM那个class去兼容他，让他正常输出。

world2025 · 2024-11-06T09:15:47Z

@preminstrel llm这块和你给出的best-of-N实现有什么不一样吗，我跑best-of-N qwen2.5没问题的

preminstrel · 2024-11-06T09:29:28Z

BoN我们是直接用的HF的实现，我们自己算法单独写了个推理的class，为了方便管理kv cache。

world2025 · 2024-11-06T09:34:38Z

哦哦，好的

preminstrel · 2024-11-07T02:52:21Z

qwen2.5 我不清楚和 qwen2 架构有没有什么区别

world2025 · 2024-11-07T09:50:21Z

Provide feedback