mnn推理时如何降低内存占用 #3086

lxh0510 · 2024-11-16T13:15:29Z

目前使用--fp16将模型大小降低了一倍，但运行过程中内存并无变化，请问该如何修改以降低内存呢

jxt1234 · 2024-11-18T07:49:50Z

模型转换的 --fp16 与是否使用 fp16 推理没有关联，使用 fp16 的开关是：编译 mnn 打开 MNN_ARM82 ，创建 session 或者 module 时，precision 设成 low ，这样如果设备支持便会启用 fp16 优化

此外可以考虑用动态量化的方式：

lxh0510 · 2024-11-21T15:05:13Z

谢谢您，我还想问一下，使用动态量化将模型转化为int8后，是不是也是只有模型大小减少，但推理时会反量化，运行内存并没有变化呢

jxt1234 added the User The user ask question about how to use. Or don't use MNN correctly and cause bug. label Nov 18, 2024

Provide feedback