type
status
date
slug
summary
tags
category
icon
password
一、安装检查CANN(手册)
0. 检查驱动安装(手册)
1. 检查ascend_toolkit安装成功
2. 检查安装Kernels
3.Ascend Docker Runtime 要安装
- 步骤参考:这里
3.1 编译需要安装 go
yum install golang(❌不要这样装,版本太低有问题,要去官网下载)
- 设置镜像,不然包下载不下来
export GOPROXY=https://goproxy.cn,direct
- 下载go 包
wget https://go.dev/dl/go1.24.2.linux-amd64.tar.gz
- 安装 go 包
rm -rf /usr/local/go && tar -C /usr/local -xzf go1.24.2.linux-arm64.tar.gz
3.2 检查
docker info | grep Runtimes | grep ascend
vllm 有一个适配昇腾的项目,支持 910:
vllm-ascend
vllm-project • Updated Jun 3, 2025
LLM 和 VLM 都用 vllm 进行部署,推理速度和时延都好不少
embedding 和 rerank 没办法还是只能用 mis-tei
二、推理镜像
mis-tei(embedding rerank)
- 镜像申请以及下载地址:这里,注意下载 7.0.RC1-800I-A2-aarch64 版本
- 使用方式:参考
vllm(LLM VLM)
- 镜像申请以及下载地址:
docker pull quay.io/ascend/vllm-ascend:v0.8.5rc1
- 容器使用方式:参考
- 官方example:参考
三(optional)、模型量化
四、模型部署
华为框架 mis-tei 的 rerank 接口不适配 jina 的接口,要写一个接口转发的服务
1. embedding
- 将模型文件挂载进去,注意修改部署的 ip 和 端口
- 华为将其他部署参数藏的特别深,深入挖掘在
/home/HwHiAiUser/.cargo/bin/text-embeddings-router —help
- 修改
start.sh
并将start.sh
挂载进去
- 测试请求
2. rerank
- 将模型文件挂载进去,注意修改部署的 ip 和 端口
- 测试请求
3. VLM(四卡部署 Qwen2.5-VL-32B-Instruct)
- vllm 部署配置
- docker 启动命令
- 测试服务
4. LLM(跟 VLM 流程一致)
- vllm 部署配置(昇腾暂时不支持 prefix 和 chunk prifill)
- docker 启动命令
- 测试服务
五、接口转发
requirements.txt
openaiasend_trans.py
- 安装并启动服务
经过接口转发之后就可以注册到 new -api 上统一管理了
- 作者:SimonSun
- 链接:https://simonsun.xyz//article/tech-10
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。