Sand.ai重磅更新MagiAttention，定义分布式Attention性能新标杆

机器之心编辑部

2025 年 4 月，Sand.ai 开源了 MagiAttention v1.0.0，定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕，今天Sand.ai正式发布：MagiAttention v1.1.0，以更成熟的原生算子组件，重新定义 Hopper 与 Blackwell 两代架构分布式 Attention 的性能上限

代码仓库：https://github.com/SandAI-org/MagiAttention 使用文档：https://sandai-org.github.io/MagiAttention/docs 技术博客：https://sandai-org.github.io/MagiAttention/docs/main/blog/magi_attn

Blackwell 新架构适配：释放下一代算力红利

为了在下一代硬件上延续 Flex-Flash-Attention (FFA) 的灵活性，研发团队引入了基于 Flash-Attention 4 的 FFA_FA4 后端，完成了对 Blackwell 架构的初步适配：

灵活掩码支持

高效分块稀疏生成

R2P 指令级加速

极致显存和延迟

原生 Group Collective 原语：突破 RDMA 带宽瓶颈

跨机通信效率决定了分布式扩展上限，受 DeepEP 启发，Sand.ai 构建了原生 Group Collective 通信内核，彻底重塑了分布式 Attention 在节点内外的数据交换范式：

算子级融合

RDMA 传输去重

系统级协同优化：负载均衡与多阶段重叠

MagiAttention 的卓越性能不仅源于算子端的极致打磨，更得益于系统级的全栈协同调度和全场景通用的启发式算法：

Dispatch Solver

Adaptive Multi-Stage Overlap

实测表现与应用

目前，MagiAttention v1.1.0 已在 Magi-1 等大规模视频生成模型训练中得到实证，也在各大厂中被 “悄悄” 应用于多模态大模型训练。为了验证 MagiAttention 在真实长文训练中的表现，Sand.ai 也给出了细致的 Benchmark 结果：

算子层面：支持灵活掩码并维持 SOTA 性能

H100/B200 Varlen Causal 掩码下前反向的内核算子性能对比

分布式层面：重塑超长序列的扩展性曲线

H100/B200 Varlen Causal 掩码下前反向的分布式性能对比

结语与未来展望

自去年 v1.0 发布以来，Sand.ai 收到的社区反馈让研发团队更加坚定：只有将底层算力压榨到极限，才能开启人工智能处理复杂多模态任务的新篇章。MagiAttention v1.1.0，是 Sand.ai 向这一愿景迈进的关键一步。Sand.ai 相信，强大的模型能力必须建立在普惠且极致的技术基石之上。

了解更多信息，欢迎访问 Sand.ai 官网：https://sand.ai