UbiquitousLearning / mllm

Fast Multimodal LLM on Mobile Devices
https://ubiquitouslearning.github.io/mllm_website
MIT License
537 stars 60 forks source link

多模态推理比较慢 #163

Closed dingtine closed 3 weeks ago

dingtine commented 1 month ago

多模态推理的首字挺慢的,类似你的demo也是这种情况,大约要15s+。 这部分为什么比较慢,是图片的编码慢吗,这快能做一些优化吗? 比如 对clip编码量化 或者先把图片做个压缩 或者图片编码用QNN ? 求教

yirongjie commented 1 month ago

感谢您关注我们的项目。您提出的问题确实存在,我们正在对该问题进行优化,主要也是从以下两方面进行:

  1. 使用QNN计算多模态模型的prefilling阶段;
  2. 对多模态模型的图片输入进行token层面剪枝;
dingtine commented 1 month ago

很希望跟你们合作,你们有需要实习或者正式工作的同学吗

chenghuaWang commented 1 month ago

@dingtine 您好,感谢您的关注,您可以联系我们的导师 mwx@bupt.edu.cn 。