200亿AI独角兽反击,第一个Minimax理解模型超过了
日期:2025-06-18 09:42 浏览:

由|有一组SOHU技术| Liang Changjun Openai和DeepSeek注意到了大型推理模式的浪潮,越来越大的模型公司开始倾注,而阿里巴巴,Baidu,Tencent,Byte,Byte,Google和其他人随后通过理解模型发布。许多公司正在考虑如何防止其大型运动和行动。此时,这是独角兽Minimax的回合,并释放了超过200亿元人民币,以释放第一个M1型号,并表示这是世界上第一个由世界上第一个开放资源加权的大型推理模型。根据基准评论,M1性能超过了国内封闭的源模型,并且接近海外最先进的模型。某些任务超过了DeepSeek,Alibaba,Byte,以及OpenAI,Google和Anthropic等最新,最强大的开放和封闭模型。在年初推出DeepSeek-R1之后,“ AI六龙”营地Minimax位置令人震惊。如今,M1将Minimax带到了一定程度上,在国内模型阵营中向前迈出了一步。 “这是我第一次觉得山脉并非不可能攀登。” Minimax的创始人兼首席执行官Yan Junjie发布了一条消息。 Sohu Technology发现,M1是Minimax五天发布中的第一个。它还将在将来正式表达智能机构的应用,并将为产品模型和级别(例如Conch AI视频和音乐)带来更多更新。多任务性能超过了DeepSeek。 M1行业输入的最大长度是Minimax推出的第一个识别模型。它是基于最小TEXT-01模型构建的,含量为4560亿个,每个令牌为459亿个激活参数。它采用了混合专家(MOE)的架构和关注的线性机制(闪电注意)。 Minimax通过该行业的17个基本考试集对M1进行了测试。结果表明它已经脱颖而出DS是最强的拟人化Claude-4-4-Opus模型,Seed-V1.5思维字节的最新版本和6710亿个参数,但不如R1-0528版本,也不如R1-0528版本,也是O3和Google 2.5-Proro的Gemini的最新Gemini的最新gemini。扩展全文
但是,M1对复杂的生产力情况(例如软件工程,长篇小说和工具使用)具有相对全面的好处。例如,M1在SWE-Bench软件测试功能中获得了超过55%的成就。尽管Caseg在国外的顶级模型中不是很好,但它比国内DeepSeek-R1和Alibaba和Byte模型高。
在长期存在的上下文工作中,M1超过了三个基准上的所有模型的所有开放资源,并且超过了O3和Claude-4等封闭的资源模型,并以小时的间隔在Gemini 2.5 Pro的背后被捕获,该间隔是第二世界的排名。
在使用代理工具的TAU基准测试中,M1在飞机上得分超过60%(P车道字段),它导致当前标记最开放和封闭的资源模型;它在零售业(零售领域)的性能超出了DeepSeek,Alibaba,Byte和Google的模型,略低于O3和Claude-4型号。
Minimax说:“通过全面的评估,Minimax-M1以及DeepSeek-R1和Qwen3-235b,这是世界上最好的开放重量模型的等级。”
值得注意的是,M1包括两个版本模型,具有40k和80k上下文的思维长度,其中M1-80K在大多数基准测试中始终优于minimax-M1-40k,这充分证明了扩展试验期间计算源的有效性。
M1的另一个重要优势是支持多达100万个令牌上下文输入,该输入是行业中最高的,例如Gemini 2.5 Pro,是DeepSeek-R1输入长度的8倍。同时,M1支持80,000个令牌的斜率输出,最大排除O3。
变化体系结构和算法,售价$ 540,000
这些性能是由于体系结构和算法的最小变化所致。
在过去的六个月中,约会模型在大规模的强化研究的帮助下,继续探索语言的大型语言的上限。但是,在变压器的架构中,注意机制的体积计算随采用的长度而言完全增加,从而导致了扩大识别的挑战。
月球的Deptseek和阴暗面以前已经开发了注意机制。前者建议民间混乱的关注(NSA),后者提出了注意混合体系结构(MOBA)的关注,这增加了上下文处理的过程超过十倍。
在本文中提到的Minimax提到,该行业以前提出了诸如稀疏注意的方法,但在大型认可模型中尚未得到充分证明。因此,这是必要的y可以很好地探索以扩大理解。
M1采用了一种线性机制,将注意力(闪电的注意)对混合专家体系结构进行,其核心是通过衰减注意许多小块并使用计算复杂性的线性方法来实现长期谴责的有效处理。
“这种设计可能是理论上的,可以极大地扩大对道路的认识的长度 - 成千上万的令牌。” Minimax表示,这也可能导致计算成本大量崩溃。 “此功能使我们在训练和推理时实力计算的效率具有很大的优势。”
例如,与DeepSeek-R1相比,当形成64K令牌时,M1消耗了其计算功率差的50%。当形成100K令牌时,消耗的拖鞋约为其计算强度的25%。
这是M1的Kotext长度的关键,使其适用于需要LO的复杂,现实世界中的活动NG输入和深思熟虑。因此,它反映了执行软件工程,长上下文,工具使用等的好处。
当然,在研究过程中,它也不会与M1变化的大大加强。该论文引用了两个重大变化。一种是提出对Cishop算法的增强小说研究,从而提高了加固研究的技能。
验证和比较后,该算法的效率更高。例如,在数学测试基准实验中,Minimax发现,与最近由字节进行研究的算法相比,顺式达到了两倍的速度,也就是说,在实践中仅需要50%的Ridersg才能匹配DAPO的性能,并且它也比DeepSeek使用的GRPO AlgorithM更好。
第二个是应对使用混合体系结构扩大强化研究的挑战,例如内核培训与联合国之间的癫痫发作精度为此目的而开发了建筑内核的阐述,从而阻止了增强研究期间的奖励以及目标解决方案的增长。
此外,为了防止过度的训练长度的积极尺度,可能会导致训练期间突然的梯度爆炸(模型失控),Minimax达到了四个阶段,具有更好的上下文长度,从32K开始,最终将上下文扩展到1M。
“多亏了这些创新技术,我们的密集培训过程非常好,超出了预期。” Minimax论文介绍,在整个强化阶段,M1在三个星期内仅持续了512 H800元,租金成本仅为537,400美元,仅为537,400美元(仅3800万美元)(约3800万Yuan)(约3800万YUAN),这是一个比大量的预期。
加强与杜巴相同的价格策略,而minimax有更多更新
目前,Minimax-M1通过Minimax App和Web SID免费提供和升级e。在API价格方面,最新更新的BYTE BYTE 1.6的Bean Bag还采用了“间隔定价”方法。
在0-32K和32K-128K输入长度的输入长度下,M1价格比deepSeek-r1(输入4元/百万个令牌,输出16元/百万个令牌)更有效,这些价格均未以间隔定价。 DEPSEEK模型不支持最长的128K-1M输入长度。
同时,三个间隔除以M1的价格与相应的Bean 1.6面包间隔的价格相同,但最后一个Bean 1.6面包间隙的最大长度为256K。可以说,M1已成为诸如Dubao之类的巨大模型,这肯定是由于计算能力的训练和效率相对较好。
许多开发人员对M1评论说,“新的成本效益之王”和“它再次在硅谷”。
Minimax认为,M1将对未来的代理申请具有独特的好处。 “我们希望如此良好的建筑具有出色的功能在解决现实世界中的挑战方面,包括自动工作流,科学研究等等。”
Minimax说:“将来,代理商将需要数十个周期来进行推理,同时将各种IARE资源的上下文信息纳入,我们将来将在此目的中实现这一目标。”
Sohu Technology发现,Minimax目前正在针对内部智能应用程序的内部测试,重点关注代码,多模式和其他功能,并支持MCP中许多工具的呼吁。
值得注意的是,M1是Minimax Week五天发布的第一个广播。该公司正式宣布将来推出智能机构,并将为产品模型和水平(例如Conch AI视频和音乐)带来更多更新。
过去,Minimax进行了品牌调整,对话海螺AI的最初应用被更名为Minimax,包括国内和国际市场。海螺品牌特别定义ES AI视频海螺视频,因此清楚地识别了产品品牌。
在DeepSeek的影响下,市场询问了前者的“六个小龙”,并提出了不同的选择。零100项目和Baichuan智能对模型提供了出色的培训,而其他人则在不同级别的成功。
Minimax显然坚持进行巨大的模型培训,并且由于数量的价值和效率,它正在尝试挑战Deptseek等领先的模型,后者希望获得更多的机会,以赢得模型模式的未来大型竞争的机会。回到Sohu看看更多