昇腾 910_P4 Qwen2.5 LLM VLM Emb Rerank部署

type

Post

status

Published

date

May 28, 2025

slug

tech-10

summary

一、安装检查CANN（手册）

0. 检查驱动安装（手册）

1. 检查ascend_toolkit安装成功

2. 检查安装Kernels

3.Ascend Docker Runtime 要安装

步骤参考：这里

3.1 编译需要安装 go

yum install golang（❌不要这样装，版本太低有问题，要去官网下载）

设置镜像，不然包下载不下来

export GOPROXY=https://goproxy.cn,direct

下载go 包

wget https://go.dev/dl/go1.24.2.linux-amd64.tar.gz

安装 go 包

rm -rf /usr/local/go && tar -C /usr/local -xzf go1.24.2.linux-arm64.tar.gz

3.2 检查

docker info | grep Runtimes | grep ascend

🤖

vllm 有一个适配昇腾的项目，支持 910：

LLM 和 VLM 都用 vllm 进行部署，推理速度和时延都好不少

embedding 和 rerank 没办法还是只能用 mis-tei

二、推理镜像

mis-tei（embedding rerank）

镜像申请以及下载地址：这里，注意下载 7.0.RC1-800I-A2-aarch64 版本

使用方式：参考

vllm（LLM VLM）

镜像申请以及下载地址：docker pull quay.io/ascend/vllm-ascend:v0.8.5rc1

容器使用方式：参考

官方example：参考

三（optional）、模型量化

四、模型部署

🤖

华为框架 mis-tei 的 rerank 接口不适配 jina 的接口，要写一个接口转发的服务

1. embedding

将模型文件挂载进去，注意修改部署的 ip 和端口

华为将其他部署参数藏的特别深，深入挖掘在 /home/HwHiAiUser/.cargo/bin/text-embeddings-router —help

修改 start.sh 并将 start.sh 挂载进去

测试请求

2. rerank

将模型文件挂载进去，注意修改部署的 ip 和端口

测试请求

3. VLM（四卡部署 Qwen2.5-VL-32B-Instruct）

vllm 部署配置

docker 启动命令

测试服务

4. LLM（跟 VLM 流程一致）

vllm 部署配置(昇腾暂时不支持 prefix 和 chunk prifill)

docker 启动命令

测试服务

五、接口转发

requirements.txt

openaiasend_trans.py

安装并启动服务

🤖

经过接口转发之后就可以注册到 new-api 上统一管理了