type
status
date
slug
summary
tags
category
icon
password

一、安装检查CANN(手册

0. 检查驱动安装(手册

1. 检查ascend_toolkit安装成功

2. 检查安装Kernels

3.Ascend Docker Runtime 要安装

3.1 编译需要安装 go

yum install golang(❌不要这样装,版本太低有问题,要去官网下载)
  • 设置镜像,不然包下载不下来
    • export GOPROXY=https://goproxy.cn,direct
  • 下载go 包
    • wget https://go.dev/dl/go1.24.2.linux-amd64.tar.gz
  • 安装 go 包
    • rm -rf /usr/local/go && tar -C /usr/local -xzf go1.24.2.linux-arm64.tar.gz

3.2 检查

docker info | grep Runtimes | grep ascend
 
🤖
vllm 有一个适配昇腾的项目,支持 910:
vllm-ascend
vllm-projectUpdated Jun 3, 2025
LLM 和 VLM 都用 vllm 进行部署,推理速度和时延都好不少
embedding 和 rerank 没办法还是只能用 mis-tei

二、推理镜像

mis-tei(embedding rerank)

  • 镜像申请以及下载地址:这里,注意下载 7.0.RC1-800I-A2-aarch64 版本

vllm(LLM VLM)

  • 镜像申请以及下载地址:docker pull quay.io/ascend/vllm-ascend:v0.8.5rc1

三(optional)、模型量化

 

四、模型部署

🤖
华为框架 mis-tei 的 rerank 接口不适配 jina 的接口,要写一个接口转发的服务

1. embedding

  • 将模型文件挂载进去,注意修改部署的 ip 和 端口
  • 华为将其他部署参数藏的特别深,深入挖掘在 /home/HwHiAiUser/.cargo/bin/text-embeddings-router —help
  • 修改 start.sh 并将 start.sh 挂载进去
  • 测试请求

2. rerank

  • 将模型文件挂载进去,注意修改部署的 ip 和 端口
  • 测试请求
 

3. VLM(四卡部署 Qwen2.5-VL-32B-Instruct)

  • vllm 部署配置
  • docker 启动命令
  • 测试服务

4. LLM(跟 VLM 流程一致)

  • vllm 部署配置(昇腾暂时不支持 prefix 和 chunk prifill)
  • docker 启动命令
  • 测试服务

五、接口转发

requirements.txt
openaiasend_trans.py
  • 安装并启动服务
🤖
经过接口转发之后就可以注册到 new -api 上统一管理了
 
昇腾 310_P3 Qwen2.5 LLM VLM Emb Rerank部署VPS 详叙
Loading...