10月27日報道,剛剛,MiniMax發布并開源MiniMax-M2,一款為Max可視化編程和智能體工作流構建的輕量級模型。
圖片
▲MiniMax-M2在Hugging Face的開源界面截圖
MiniMax-M2聚焦智能體的效率提升,是一款總參數達2300億個的MoE(混合專家)模型,其中活躍參數達100億個,兼顧編程和智能體任務以及通用智能。
在權威基準測評中,MiniMax-M2的測試成績趕超Gemini 2.5 Pro、DeepSeek-V3.2等領先模型,接近GPT-5(thinking)模型性能,據稱可提供匹敵這些模型的端到端工具使用性能,同時部署和擴展更便捷。
圖片
▲MiniMax-M2的基準測試概況
具體來看,MiniMax-M2有以下幾大亮點:
1、智能提升。根據知名分析機構Artificial Analysis的基準測試,MiniMax-M2在數學、科學、指令遵循、編程和智能體工具使用方面展現出具競爭力的通用智能。其綜合得分在全球開源模型中排名第一。
2、高級編程。MiniMax-M2專為端到端開發人員工作流程而設計,擅長多文件編輯、編碼-運行-修復循環以及測試驗證修復。在Terminal-Bench和(Multi-)SWE-Bench風格的任務中展現了其在跨語言終端、IDE和CI中的實用有效性。
3、智能體性能。MiniMax-M2能夠規劃并執行跨Shell、瀏覽器、檢索和代碼運行器的復雜、長周期工具鏈。在類似BrowseComp的評估中,它能夠持續定位難以發現的漏洞來源,保持證據的可追溯性,并優雅地從不穩定的步驟中恢復。
4、高效設計。MiniMax-M2擁有100億個激活參數,可為交互式智能體和批量采樣提供更低的延遲、更低的成本和更高的吞吐量,這與向高度可部署的模型轉變契合,這些模型在編程和智能體任務中仍然表現出色。
以下更全面的評估測試了端到端編程和智能體工具的使用情況,涉及編輯真實的代碼庫、執行命令、瀏覽網頁以及交付實用的解決方案等方面。MiniMax-M2在Multi-SWE-Bench、Terminal-Bench、ArtifactsBench、BrowseComp等多項測試中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等頂尖模型。