【導讀】6月12日,MiniMax新一代原生多模態旗艦模型 M3正式開源。同日,摩爾線程旗艦級AI訓推一體智算卡MTT S5000已完成對該模型的Day-0極速適配。這是國產大模型與國產算力芯片完成適配的又一例證,也彰顯了摩爾線程憑借原生FP8算力底座與高效MUSA軟件生態,對前沿大模型需求的即時響應與穩定支撐能力。
MiniMax M3開源地址:
https://huggingface.co/MiniMaxAI/MiniMax-M3
開發者可下載鏡像進行開箱體驗:
registry.mthreads.com/mcconline/inference/vllm:v0.20.0-ph1-4.3.5-torch2.9-20260605-mtcc51
MiniMax M3是目前國內唯一同時具備前沿Coding & Agentic能力、超長下文與原生多模態的開源大模型,也是第一個將完整frontier能力帶入開放世界的模型。該模型基于自研MSA(MiniMax Sparse Attention)架構,可將上下文窗口擴展至1M級別,并在BrowseComp、SWE-Bench Pro等國際權威評測中達到前沿水平。作為原生多模態模型,M3重構了整個數據管線,從第零步開始多模態訓練,使文本和視覺語義空間高度對齊。

圖示:MiniMax M3的Coding & Agentic能力在軟件工程、終端執行、工具調用等多維度權威評測中達到前沿水平。
針對MiniMax M3的核心技術特性,MTT S5000從硬件算力、軟件棧到開源框架進行了全鏈路精準匹配與深度優化:
支撐超長上下文:高密度算力與大顯存提供堅實支撐。
MSA架構帶來的超長上下文窗口,對推理階段的KV Cache存儲和訪存帶寬提出了極高要求。MTT S5000憑借硬件級原生FP8加速,單卡AI算力(稠密)高達1000 TFLOPS;同時配備80GB大容量顯存與1.6TB/s的超高帶寬,為百萬token級長序列提供充足的緩存空間與卓越的數據吞吐能力。此外,依托MUSA C++與Triton-MUSA等抽象層,M3的新算子結構可實現快速遷移,確保摩爾線程平臺能夠快速完成架構適配。
賦能前沿Coding與Agentic能力:實現低延遲、高吞吐的推理優化。
面向M3重點強化的編程與智能體場景,摩爾線程基于此前對DeepSeek-V4、MiniMax M2.7、GLM-5.1等多款國產旗艦模型的Day-0適配經驗,已形成一套高效、系統化的復雜推理任務優化方法論。本次適配通過原生算子定制,在保障模型精度無損的前提下,顯著提升推理吞吐、降低響應延遲;同時,摩爾線程完成了vLLM與SGLang兩大主流推理框架的同步拉起,以MUSA開放架構擁抱開源生態,為開發者提供靈活多樣的部署選擇。
推動原生多模態推理:覆蓋全精度與貫通全場景。
M3作為從Step 0即進行多模態混合訓練的模型更適配當下Agentic AI多元場景的需求,同時這也要求算力底座具備多元化算力。MTT S5000智算卡覆蓋從FP8至FP64全計算精度,可無縫適配從模型研發到商業化落地的完整鏈路,助力國產旗艦大模型快速完成生態普及。
隨著MiniMax M3在MTT S5000上完成適配,開發者現在即可基于MUSA軟件棧與vLLM/SGLang雙框架完成部署,并持續獲得算子級性能優化。依托MUSA架構對主流AI生態的深度兼容與持續演進,摩爾線程已具備覆蓋前沿模型“適配—部署—優化”的完整工程能力,幫助開發者以更快響應、更穩運行、更低遷移成本接入最新模型能力,加速大模型創新落地與規模化應用。



