【CIE全国RISC-V创新应用大赛】基于 K1 AI CPU 的大模型部署落地

4 天前

1192 RISC-V cpu

基于 Spacemit K1 的 Qwen2.5-14B 边缘端量化部署方案

Qwen2.5-14B 即使使用官方文档推荐的 Q4_0 量化，其文件体积也接近 8.5GB 。

K1 开发板 只有 8GB 物理内存 （且操作系统还要占用约 500MB+）。

结论：如果直接照搬官方文档下载 Q4 模型， 100% 会因为内存不足（OOM）而无法运行 。

为了满足赛题要求，必须采用 “极限量化” 策略。我们必须使用 Q2_K (2-bit) 量化格式，将模型体积压缩到 5.5GB 左右，从而在 8GB 内存上给 KV Cache（上下文）留出空间。

以下是按照官方工具链针对 14B 模型定制的 落地方案 ：

1. 系统部署方案书 (System Proposal)

方案要点

部署工具 ：使用官方提供的 spacemit-llama.cpp (v0.0.4) 二进制包。
模型策略 ：采用 Q2_K 量化版本的 Qwen2.5-14B。
- Q2_K 显存占用：约 5.8GB。
- 系统预留：1GB。
- KV Cache (上下文) 空间：约 1.5GB。
性能优化 ：通过 numctl 或 taskset 绑定大核，减少上下文切换。

官方文档仅列出 Q4_K_M, Q4_0 是因为这些是平衡性最好的量化。但在 8GB 内存跑 14B 这种极限场景下， Q2_K 是唯一的可行解 。llama.cpp 引擎本身兼容 Q2_K，Spacemit 的硬件加速（X60 NPU）通常对矩阵乘法通用，即使 NPU 不支持 Q2，CPU (RVV) 也会自动接管，保证任务“成功完成”。

2. 完整的实施代码与步骤

项目结构

/contest_14b
    ├── spacemit-llama.cpp.riscv64.0.0.4/    (官方工具)
    ├── run_contest.sh                       (一键启动脚本)
    ├── Qwen2.5-Coder-14B-Instruct-Q2_K.gguf (模型文件)
    └── logs/                                (运行日志)

请在 K1 开发板上依次执行以下命令。

第一步：安装官方工具

# 1. 创建工作目录
mkdir ~/contest_14b
cd ~/contest_14b

# 2. 下载进迭时空官方提供的部署工具 (v0.0.4)
wget https://archive.spacemit.com/spacemit-ai/llama.cpp/spacemit-llama.cpp.riscv64.0.0.4.tar.gz

# 3. 解压
tar -xzvf spacemit-llama.cpp.riscv64.0.0.4.tar.gz

# 4. 设置环境变量 (这是官方要求的关键一步)
export LD_LIBRARY_PATH=$(pwd)/spacemit-llama.cpp.riscv64.0.0.4/lib:$LD_LIBRARY_PATH

# 验证安装是否成功
./spacemit-llama.cpp.riscv64.0.0.4/bin/llama-cli --version

第二步：获取 14B 的 Q2_K 模型

由于官方文档演示的是 0.6B 小模型，我们需要自己获取 Qwen2.5-14B 的 Q2_K 版本。
注意：K1 下载速度慢且无法进行量化转换，建议在 PC 下载好传进去。

# 安装 modelscope 以便高速下载
sudo apt install -y pipx
pipx install modelscope

# 下载 Qwen2.5-14B-Instruct-Q2_K.gguf
# 这是一个社区预转换版本，体积约 5.8GB，正好能塞进 K1
modelscope download bartowski/Qwen2.5-Coder-14B-Instruct-GGUF Qwen2.5-Coder-14B-Instruct-Q2_K.gguf --local_dir .

第三步：编写测试脚本 `run_contest.sh`

这个脚本包含了线程设置、Prompt 预设。

#!/bin/bash

# --- 配置区域 ---
# 指向官方解压后的 binary 路径
TOOL_PATH="$HOME/contest_14b/spacemit-llama.cpp.riscv64.0.0.4/bin/llama-cli"
LIB_PATH="$HOME/contest_14b/spacemit-llama.cpp.riscv64.0.0.4/lib"
MODEL_FILE="Qwen2.5-Coder-14B-Instruct-Q2_K.gguf"

# 设置库路径
export LD_LIBRARY_PATH=$LIB_PATH:$LD_LIBRARY_PATH

# --- 性能优化参数 ---
# 线程数：K1 是 8 核，留 2 核给系统和 I/O，使用 6 核推理
THREADS=6
# 上下文长度：由于内存只有 8GB，模型占了 ~6GB，上下文限制在 2048 以防 OOM
CTX_SIZE=2048
# 批处理大小：配合 Spacemit 硬件带宽调整
BATCH_SIZE=512

echo "Starting Qwen2.5-14B on Spacemit K1 (8GB)..."
echo "Model: $MODEL_FILE"

# --- 启动推理 ---
# -p: 预设 Prompt
# -cnv: 开启对话模式
# --color: 彩色输出
# -no-mmap: 建议加上，防止内存映射在低内存下卡顿（视情况而定，如果报错则去掉）

$TOOL_PATH \\
    -m $MODEL_FILE \\
    --threads $THREADS \\
    -c $CTX_SIZE \\
    -b $BATCH_SIZE \\
    -p "你是一个智能助手。请帮我写一段关于RISC-V芯片未来的分析。" \\
    -n 256 \\
    --color \\
    --temp 0.7

第四步：执行并验证

chmod +x run_contest.sh
./run_contest.sh

基于 K1 AI CPU 的大模型部署落地

本主题由 liuyongwangzi 于 4 天前审核通过

只看该作者 淘帖0 举报

精选推荐

【CIE全国RISC-V创新应用大赛】MUSE PI PRO 測評

989 浏览 0 评论
【CIE全国RISC-V创新应用大赛】基于 K1 AI CPU 的大模型部署落地

1089 浏览 0 评论
【CIE全国RISC-V创新应用大赛】MUSE Pi Pro开发板ROS系统

612 浏览 0 评论
【CIE全国RISC-V创新应用大赛】+ 一种基于LLM的可通过图像语音控制的元件库管理工具

575 浏览 0 评论
【CIE全国RISC-V创新应用大赛】+基于本地大模型的AI智能助手开发

423 浏览 0 评论

创建小组步骤

创建小组创建自己的地盘
个性设置精心打造小组空间
邀请好友邀请好友加入我的小组
小组升级小组积分升级赢得社区推荐

创建属于自己的小组

快速回复 返回顶部 返回列表

关注微信公众号

电子发烧友网

电子发烧友论坛

社区合作: 刘勇; 联系电话：15994832713; 邮箱地址：liuyong@huaqiu.com

社区管理: elecfans短短; 微信：elecfans_666; 邮箱：users@huaqiu.com

返回进迭时空

搜索历史