曦云 C500
1. 产品概述:曦云 C500
曦云C500 是沐曦(MetaX)于 2022年 发布的旗舰级通用计算 GPU。该产品基于沐曦自主研发的**“曦云”架构**设计,旨在为科学计算、人工智能训练及推理提供强大的国产算力解决方案。曦云C500采用自研 XCORE 1.0 架构及指令集,配备标量、矢量和张量计算单元,支持多种混合精度计算,搭载64GB HBM2e显存与7个高速 MetaXLink 互连接口,可实现2卡至64卡多种互连拓扑,具备国内稀缺的高带宽、超多卡互连能力;依托自研MXMACA软件栈,适配主流算法框架、运算库等工具,编程接口在API层面高度兼容GPU行业国际主流CUDA 生态。
核心特性与架构
- 自研架构:采用全自主设计的“曦云”通用计算架构,具备完整且独立的指令集系统。
- 高性能显存:搭载大容量、高带宽的 HBM2e 显存,显著解决了大规模数据吞吐的瓶颈,尤其适合大模型训练与高并发推理场景。
- 高精度覆盖:作为一款通用 GPU,C500 不仅针对 AI 场景优化(INT8/BF16/TF32),还保留了强大的 FP32 甚至 FP64(双精度)计算能力,使其同样适用于数值模拟、气象预测等传统 HPC 领域 。
- 互联技术:支持 MXLink 内部互联与标准 PCIe Gen5 接口,能够实现多卡、多机的高效算力扩展。
2. 算力规格与精度支持
为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于 FP8 的限制。
重要限制:暂不支持 FP8
请注意: 当前沐曦 C500 的硬件及软件栈尚未直接支持 FP8 量化格式的加载与推理。
- 如果您尝试直接运行社区中最新的 FP8 模型(例如
DeepSeek-V2-FP8、Qwen2-72B-Instruct-FP8等),将会导致加载失败或运行错误。 - 建议:在下载模型前,请务必确认量化类型。推荐优先选择 FP16、BF16 或 INT8 版本的模型。
支持的计算精度与性能
根据官方数据,曦云® C500 OAM 加速卡在主流精度下的理论峰值性能如下:
| 精度类型 | 性能指标 | 适用场景 |
|---|---|---|
| FP32 (Vector) | 18 TFLOPS | 通用科学计算 |
| FP32 (Matrix) | 36 TFLOPS | 矩阵运算、基础训练 |
| TF32 | 140 TFLOPS | AI 训练加速 |
| FP16 | 280 TFLOPS | 混合精度训练、推理 |
| BF16 | 280 TFLOPS | 大模型训练主流格式 |
| INT8 | 560 TOPS | 高性能量化推理 |
3. 核心软件生态:MACA
MACA(MetaX Advanced Compute Architecture)是沐曦 GPU 的统一计算软件栈。
高度兼容 CUDA
MACA 在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。
- 低成本迁移:绝大多数基于 CUDA 开发的原生应用和算法,无需重写代码,仅 需少量环境适配即可在 C500 上运行。
- 开箱即用:建议直接使用预装了 MACA 驱动与工具链的官方镜像,无需手动处理底层驱动安装。
4. AI 开发库:版本管理与避坑指南
为了发挥 C500 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用沐曦官方适配版。
严禁随意更新核心库
在使用过程中,请极度小心 pip install 或 pip upgrade 操作。
- 风险:执行标准的
pip install torch会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的沐曦适配版(带+metax后缀),直接导致无法调用 GPU,程序运行失败。
识别适配版本
沐曦适配的 Python 库版本号中通常包含 +metax 或 +maca 标识。你可以通过以下命令检查当前环境状态:
pip list | grep -e torch -e maca -e metax -e +
正常输出示例:
apex 0.1+metax... # 混合精度加速库
flash_attn 2.6.3+metax... # 注意力优化库
torch 2.6.0+metax... # 核心框架
torchvision 0.15.1+metax...
triton 3.0.0+metax...
vllm 0.8.5+maca... # 大模型推理框架
最佳实践:
- 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的沐曦官方镜像。
- 检查是否存在:在安装新库前,先检查该库是否已存在
+metax版本。 - 获取正确源:如确需更新,请访问沐曦官方软件中心获取正确的 whl 安装包或安装源。
5. 模型部署建议与排查
模型支持列表
根据沐曦(MetaX)官方提供的 MACA 软件栈适配数据,曦云 C500 算力集群已完成对下列主流模型的适配与验证。
- 软件栈版本:以下模型主要基于 MACA-vLLM 推理框架进行验证。请务必使用平台提供的 MACA 3.x 及以上版本的镜像。
- 显存规划:曦云 C500 单卡显存 为 64GB。对于 70B/72B 以上的大参数模型,通常需要进行 INT4 量化或使用多卡/多机部署。
- 功能支持:支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。
1. 通用语言模型 (LLM)
涵盖了 DeepSeek、Qwen、Llama、GLM 等业界主流开源大模型。
| 模型系列 | 模型名称 | 备注/架构 |
|---|---|---|
| DeepSeek | DeepSeek-V3 | 重点支持,MACA-vLLM |
| DeepSeek | DeepSeek-R1 / R1-Distill (Llama/Qwen) | 重点支持 |
| DeepSeek | DeepSeek-V2 / V2-Chat / V2-Lite | MoE 架构支持 |
| DeepSeek | DeepSeek-Coder-V2 | 代码模型 |
| Qwen (通义) | Qwen2.5 (72B / 32B / 14B / 7B) | 全系支持 |
| Qwen (通义) | QwQ-32B | 推理思考模型 |
| Qwen (通义) | Qwen2 / Qwen1.5 | 全系支持 |
| Qwen (通义) | Qwen2-MoE-57B | MoE 架构 |
| Llama (Meta) | Llama-3 / Llama-3.1 (8B / 70B) | 主流支持 |
| Llama (Meta) | Llama-2 (7B / 13B / 70B) | - |
| Llama (Meta) | CodeLlama | 代码模型 |
| GLM (智谱) | GLM-4-9B / Chat | - |
| GLM (智谱) | ChatGLM3-6B / CodeGEEX | - |
| Yi (零一万物) | Yi-1.5 (34B / 9B / 6B) | - |
| Yi (零一万物) | Yi-Coder | - |
| Baichuan | Baichuan2 (13B / 7B) | - |
| InternLM (书生) | InternLM2.5 / InternLM2 | - |
| Gemma / Gemma-2 (2B / 9B / 27B) | - | |
| Mistral AI | Mistral-7B / Mixtral-8x7B / 8x22B | MoE 架构支持 |
| Microsoft | Phi-3 / Phi-3.5 (Mini / Medium) | - |
| Microsoft | Phi-4 | - |
| 其他模型 | Grok-1 | - |
| 其他模型 | Jamba / Jamba-1.5 | SSM 混合架构 |
| 其他模型 | Command R / R+ (Cohere) | - |
| 其他模型 | TeleChat (星辰) | 中国电信 |
| 其他模型 | XVERSE (元象) | - |
| 其他模型 | Solar-10.7B | - |
| 其他模型 | StarCoder2 | 代码生成 |
| 其他模型 | Aquila / Aquila2 | 悟道天鹰 |
2. 向量与重排序模型 (Embedding / Reranker)
适用于 RAG(检索增强生成)与知识库构建场景。
| 模型名称 | 类型 | 备注 |
|---|---|---|
| bge-m3 | Embedding | 多语言通用 Embedding |
| bge-reranker-v2-m3 | Reranker | 重排序模型 |
| gte-Qwen2-1.5B-instruct | Embedding | - |
| gte-Qwen2-7B-instruct | Embedding | - |
| jina-embeddings-v2 | Embedding | 长文本支持 |
| GritLM | Embedding | 生成式 Embedding |
| Nomic-Embed | Embedding | - |
| Snowflake-Arctic-Embed | Embedding | - |
3. 奖励与分类模型 (Reward / Classification)
适用于 RLHF(人类反馈强化学习)流程及文本分析任务。
| 模型名称 | 用途 | 备注 |
|---|---|---|
| Eureka-Reward | 奖励模型 (Reward Modeling) | - |
| InternLM2-Reward | 奖励模型 | - |
| Fudan-Disc-80 | 文本判别/分类 | 复旦大学 |
| Toast | 质量评分/分类 | - |
4. 视频与多模态 (关联支持)
虽然主要针对文本模型,但部分多模态模型的文本塔也已包含在支持列表中。
| 模型名称 | 备注 |
|---|---|
| Qwen2-VL | 视觉语言模型(文本部分已验证) |
| InternVL | - |
常见问题排查
- 模型格式:是否误用了 FP8 模型?
- 库版本:是否不小心执行了
pip install --upgrade覆盖了官方驱动库? - 新模型适配:对于刚刚发布的全新架构模型,可能需要等待官方 MACA 软件栈的更新适配。
6. 监控工具:mx-smi 使用简明手册
mx-smi 是沐曦 GPU 的命令行管理工具,其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi,方便用户快速上手。