[ISSUE] 模型推理有优化参数或者预期的优化方案吗 #86
Replies: 8 comments 13 replies
-
关于计划
对于你本地的话,目前最简单有用的优化就是装上 flash attn。正确安装之后 llama model 会自己加载并使用,有一定的速度增益 关于 batch_size,目前并不是传统意义上的 batch,因为推理依赖上下文无法完全并行,只有当满足分割条件时才会触发 batch 推理(即长文本推理), 这个 batch_size 可以理解为 max_batch_size |
Beta Was this translation helpful? Give feedback.
-
有4090相关的性能数据吗。 我这个数据看起来好像正常,但是感觉延迟还是很高。我怀疑我这边环境有问题,从监控看,GPU使用率很低。我想看下4090的一个正常加速的数据 |
Beta Was this translation helpful? Give feedback.
-
现象来看,响应时间跟并发成正比,感觉是并发没做起来。导致我整体的GPU使用率都提不上去 |
Beta Was this translation helpful? Give feedback.
-
Beta Was this translation helpful? Give feedback.
-
这边记录几个问题:
|
Beta Was this translation helpful? Give feedback.
-
2noise/ChatTTS#612 (commits) |
Beta Was this translation helpful? Give feedback.
-
@zhzLuke96 音频的声道、位深 这些参数对应的是哪个文件的哪些key值? |
Beta Was this translation helpful? Give feedback.
-
阅读 README.md 和 dependencies.md
检索 issue 和 discussion
检查 Forge 版本
你的issues
目前来看,用一张4090显卡推理,QPS超过1响应时间就很长了。在推理这块有没有优化参数或者优化方案,请求参数中有batch_size,这个参数batch合成是否意味着可以加速推理?从文档我没有看的太懂。
从压测数据来看,GPU使用率只能达到50%(worker配置的是4,batch_size设置的默认值)。
目前有优化方案或者优化路线吗?从模型工程或者算法层面有预期的优化策略吗
Beta Was this translation helpful? Give feedback.
All reactions