Qwen-7B-Chat-TensorRT-LLM/docs/trt_llm_deploy_langchain.md at release/0.5.0 · Rane2021/Qwen-7B-Chat-TensorRT-LLM · GitHub

TensorRT-LLM + Langchain部署

部署Qwen-7B-Chat-TensorRT-LLM , 参考该项目：https://github.com/Tlntin/Qwen-7B-Chat-TensorRT-LLM ，需要部署api。
下载Langchain-Chatchat，当前最新版0.2.6

git clone https://github.com/chatchat-space/Langchain-Chatchat -b v0.2.6

环境配置安装readme操作即可。
模型下载可以忽略，如果网络好的话，可以在线下载。
初始化配置，参考readme操作即可。

python copy_config_example.py

修改模型配置文件configs/model_config.py，修改LLM_MODEL为OpenAI

修改前

# LLM 名称
LLM_MODEL = "chatglm2-6b"

修改后

# LLM 名称
LLM_MODEL = "OpenAI"

修改模型配置文件configs/model_config.py，修改OpenAI的url地址为你部署TensorRT-LLM api的地址

修改前

"OpenAI": {
        "model_name": "your openai model name(such as gpt-4)",
        "api_base_url": "https://api.openai.com/v1",
        "api_key": "your OPENAI_API_KEY",
        "openai_proxy": "",
    },

修改后

"OpenAI": {
        "model_name": "gpt-3.5-turbo",
        "api_base_url": "http://127.0.0.1:8000/v1",
        "api_key": "",
        "openai_proxy": "",
    },

初始化启动数据

python init_database.py --recreate-vs

启动Langchain-Chatchat，会自动打开浏览器

python startup.py -a

再选择LLM模型部分，选择OpenAI (Running)即可，然后就可以愉快的聊天了。
如果要知识库问答。

先选择知识库管理，新建知识库，然后上传任意一个文档上去，推荐点击一下根据源文件重建向量库。
回到对话，对话模式选择知识库问答，LLM模型选择OpenAI(Running)，最下面的知识库，选择你刚刚新建的那个，然后即可在右边愉快的问答了。