燧原 S60
1. 产品概述:燧原 S60
燧原 S60 (CloudBlazer S60) 是燧原科技(Enflame)于 2021年 发布的推理型通用人工智能加速卡。该产品基于燧原自主研发的第二代 “邃思® 2.0” (SuiSi 2.0) 架构,专为云端推理和边缘计算场景设计。是面向数据中心大规模部署的新一代人工智能推理加速卡,满足大语言模型、搜广推及传统模型的需求,具有模型覆盖面广、易用性强、易迁移易部署等特点,可广泛应用于图像及文本生成等应用、搜索与推荐、文本、图像及语音识别等主流推理场景。
核心特性与架构
- GCU 架构:S60 采用通用计算单元(GCU - General Compute Unit)架构,拥有完全自主的指令集和数据流设计。
- 推理优化:专为复杂的推理业务优化,支持动态电压频率调整(DVFS),在保持高性能的同时实现了优异的能效比。
- 大显存支持:配备大容量高带宽显存,能够有效支持自然语言处理(NLP)、计算机视觉(CV)以及各类大模型的推理任务。
2. 算力规格与精度支持
为了保障您的推理体验,请务必了解 GCU 对不同计算精度的支持情况,特别是关于 FP8 的限制。
重要限制:不支持 FP8
- 不支持精度:FP8。
- 影响:当前 S60 硬件架构及软件栈无法直接运行 FP8 量化的模型。如果强行加载 Hugging Face 上最新的 FP8 版本模型,将会报错。
支持的计算精度
燧原 S60 在以下精度下能提供最佳的性能表现:
| 精度类型 | 适用场景 |
|---|---|
| FP16 | 高性能推理首选,精度与速度的最佳平衡 |
| BF16 | 大模型推理主流格式,无需转换即可运行 |
| INT8 | 极致性能量化推理 |
| FP32 | 基础精度,用于验证或对精度要求极高的场景 |