摩尔线程重磅发布 Torch-MUSA v2.7.0，AI训练推理迈入新纪元

摩尔线程发布Torch-MUSA v2.7.0，提升AI训练与推理性能。

　　 11月28日，据消息，摩尔线程近日正式推出其针对PyTorch深度学习框架的MUSA扩展库——Torch-MUSAv2.7.0。该版本在功能整合、性能提升以及硬件兼容性方面取得进一步进展。Torch-MUSA在短短一个月内，相继发布了v2.5.0和v2.7.0两个版本。

　　据介绍，自v2.5.0版本起，Torch-MUSA的版本号与PyTorch主版本号实现同步，方便开发者进行版本识别和管理。新版本进一步集成了muSolver和muFFT等计算加速库，大幅提升复杂计算任务的执行效率；同时新增对统一内存设备（UnifiedMemory）的UMM支持，有效优化内存使用效率。

　　此外，新版本继续确保与最新MUSASDK的兼容性，支持使用MUSASDK4.2.0至4.3.0及更高版本进行编译。目前，Torch-MUSA所支持的专属算子数量已超过1050个，系统在性能和稳定性方面均实现了进一步优化。

　　新增特性

　　新增 muFFT 与 muSolver 库集成，大幅扩展计算能力；

　　在面向边缘计算的SoC设备中，支持统一内存管理机制，基于Arm架构的UMA（统一内存寻址）设计，实现GPU与CPU共享同一片物理内存空间，有效降低模型运行过程中的内存消耗，具体包括：避免GPU端重复进行内存分配；减少主机与设备之间的内存复制操作；GPU可直接访问由CPU分配器申请的内存区域。

　　算子扩展与性能优化

　　新增支持包括 ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin / amax / prod.dim_int、glu_bwd 等多个算子；

　　新增基础 Sparse (CSR) 操作支持；

　　扩充量化算子支持范围；

　　修复 torch.norm 形状错误问题；

　　支持 reduce_sum 的 uint8 输入与 int64 输出；

　　 C++ 扩展新增支持 tensor.is_musa () 方法；

　　修复空输入下 argmax/argmin 的异常行为；

　　优化 var / std、pad、convolution3d、layer_norm 等操作的执行效率。

　　系统功能增强

　　开放 torch.musa.mccl.version () 接口；

　　支持 getCurrentMUSABlasHandle 与 getCurrentMUSABlasLtHandle；

　　优化 FSDP2 流水线并行策略，降低训练内存占用。

　　从官方获悉，Torch-MUSA将持续跟进PyTorch的版本更新，计划在下个版本中支持PyTorch 2.9.0，并继续提升性能和功能。

　　 Torch-MUSA 开源地址：https://github.com/MooreThreads/torch_musa

摩尔线程重磅发布 Torch-MUSA v2.7.0，AI训练推理迈入新纪元

摩尔线程 Torch-MUSA v2.7.0 发布，AI算力全面跃迁新高度

相关阅读

Gboard 引入 Gemini 驱动听写，一句话秒懂多国语言

Anthropic 商业客户数首超 OpenAI，背后暗藏怎样的技术博弈？

阿里云AI基建大手笔投入超3800亿，产业链企业迎爆发式机遇

AI使用者：更信其助业，而非夺职

发表评论

AI栏目

即时资讯

深度分析

24小时热文

字节跳动重磅发布Seed3D 2.0，3D生成技术引领几何与材质新纪元

马斯克豪掷600亿抢购AI编程神器，微软曾心动却最终落选

全球首个开源量子AI模型ISING问世，破解量子计算纠错与校准难题

AI幻觉首案落槌！用户告输，法院明确：AI不是人，不担侵权责

博通联手谷歌，Anthropic打造AI算力新引擎

光谱感知新突破：智能白平衡让色彩更真实

活体生物芯片问世！日本团队驯化大鼠神经元，首次实现活体脑细胞实时运行AI算法

谷歌 TurboQuant 技术颠覆存储芯片市场：AI 内存消耗骤降 83%，推理速度狂飙 8 倍

Meta 推出 AI 助手，24 小时守护你的社交账号

雷蛇×Luma AI强强联手！Axon雷幻壁纸引擎重磅升级：AI一键生成动态幻境壁纸

相关文章

友情链接

地平线快报

深度瞭望台

AI进销存

智融科技

手机扫码访问