-
Notifications
You must be signed in to change notification settings - Fork 383
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
train_llava推理结果有问题。 #197
Comments
发现有类似的bug,也是文本有空格+末尾有个token没有被替换掉。是否是因为tokenizer 用了两个,一个clip的,一个qwen的导致的? |
检查一下 但是这个值要是: |
具体代码参考这个吧#185 (comment) |
感谢回复。 https://hf-mirror.com/lmms-lab/llama3-llava-next-8b/blob/main/preprocessor_config.json 为啥他们没这种问题? |
哦,我可能懂了。 因为我在代码里,用了clip的tokenizer来格式化prompt
然后由于我把processor和qwen的文件放在一起,clip的tokenizer找不到自己的bpe文件对应的单词,而qwen的可能跟他不匹配,所以把每个character分一个单词,就有空格了?而llava-next只是用了clip的image processor部分,没用tokenizer,所以他们没事。 您感觉我的推理正确吗?我没有用实验去验证。 如果是这样的话,那就是各种bug混在一起反而跑通了,但是导致效果不行。太神奇了,但是这种bug也是最难定位的,没有解释器的错误提示。 |
这种不是最难定位的,而是你混淆了构造llava模型的最主要的关键点。
|
好的,大佬。你的视频我已经看了三遍了。 |
大佬好。我的train_llava训练完以后,推理过程出现两个问题:
1: 预测结尾有
< | i m _ e n d | >
2: 预测结尾每个字符之间都有空格间隔
而 label的string是
chatbot: the test - footed nerve's steps an evening with frank zappa by michael e schwartz
不知道为啥会这样。
以下是我的推理代码:
The text was updated successfully, but these errors were encountered: