< 返回列表

【客户案例】ALINX VD100低功耗端侧大模型部署方案,运行3B模型功耗仅5W?!

2025-09-03

大模型能运行≠用户体验好。

 

IDC 预测,到 2026 年,全球超过 50% 的企业 AI 工作负载将部署在边缘设备上。在 AI 部署逐渐从云端转向边缘端的趋势下,越来越多智能终端开始尝试在本地运行完整模型,以降低延迟、保护隐私并节省通信成本。但真正落地时却发现:功耗吃紧、模型裁剪严重、开发流程繁琐,使得“能运行”远远达不到“用得好”。

 

基于 ALINX VD100 开发平台,客户打造出一套面向 AI 终端的大模型部署方案,实测可支持 8B 模型运行、运行 3B 模型功耗仅 5W,推理速度达 12 tokens/s,远优于市面同类产品。

  

VD100-3.jpg


本方案基于 AMD Versal ACAP 架构,通过硬件架构、推理框架、模型压缩等多个层级的全栈优化,显著提升大模型端侧部署的能耗比。


 

可重构数据流硬件架构

→ 在同等功耗下,平台可以支持更多模型层级与更大参数规模。

 

自研开发工具链

→ 快速搭建模型、开发体验友好。

 

优化推理运行

→ 让模型跑得稳,持续运行不掉链子。

 

敏捷开发推理框架

→ 优化大模型推理流程,实现敏捷开发,迁移更快,体验更流畅。

 

模型压缩

→ 模型轻巧运行稳,真正适配边缘与终端AI场景。

 

 

实测效果

5W 功耗实现行业领先推理性能

 

基于 ALINX VD100 平台实测,模型运行结果如下:

 18 (1).png

完整实测报告和对比报告,联系 ALINX 获取。

 

应用场景

AI 终端的可能性不止于你想象

 

这套端侧大模型部署方案已在多种高要求场景中落地:

 

如果你也在评估“端侧+大模型”,

欢迎和我们聊聊

 

如果您正在:

 

 

欢迎联系我们,扫码留下您的需求信息,获取完整技术白皮书、项目评估与对接服务。


 客户信息登记表.png

 


Copyright © 芯驿电子科技(上海)有限公司 All Rights Reserved 沪ICP备13046728号