关于MiniMax的新模型,我想说点不一样的
发布时间:2026-03-19 15:05 作者:棠宁 阅读量:20.2W
图片


新眸原创·作者 | 棠宁


这两天,大家聊的最多的不是又出了什么刷新榜单的新模型,也不是又签了什么千万级的行业订单,而是两个字:涨价。


就在昨天,阿里云和百度智能云同步发布了公告,旗下AI算力与存储产品将在4月18日正式调价,最高涨幅达到34%。而在这之前,亚马逊AWS、微软Azure、谷歌云已经完成了一轮AI相关服务的价格上调,部分特定项目的涨幅甚至达到100%。全球云厂商集体进入算力涨价周期,没有一家能置身事外。


打个比方,现在做大模型,就像开着车上了没有出口的高速,油门不敢松,松了就会被后面的车瞬间超过,但油价一直在涨,油箱里的融资款越烧越少,没人知道自己能不能撑到下一个服务区。


这话不是矫情。如果你留意阿里2026财报Q3前瞻和刚刚发布的腾讯财报,你会发现两者最大的共通点,就是加大了对AI基础设施与大模型研发的大额持续投入,当然,这也不可避免地让昔日互联网巨头在营收增速上放慢了脚步。


几乎在同一时间,上海的大模型创业公司MiniMax,发布了新一代旗舰大模型M2.7。和行业里常见的“参数规模再创新高”、“权威榜单全面领先”的发布逻辑不同,这款模型最核心的标签,是“自进化”。


据官方介绍,这是全球第一个实现商用的自进化大模型,它可以深度参与自身训练优化的全流程,在部分研发场景可承担30%到50%的工作量。


一边是全行业都在为算力成本、研发效率焦虑,在军备竞赛的泥潭中越陷越深;一边是一家成立仅4年多的创业公司,让大模型从被研发的工具,变成了研发的参与者,甚至是主体。这一枪,算是打到了行业的七寸上。


01

3年竞赛,大模型的背后难点


大模型行业走到今天,整整三年时间,几乎所有玩家都困在同一场军备竞赛里。


2023年ChatGPT引爆生成式AI浪潮的时候,行业的竞争焦点是参数规模。从百亿参数到千亿参数,再到万亿参数,大模型的参数膨胀速度,远超摩尔定律曾经的节奏,仿佛参数规模就是衡量大模型能力的唯一标尺,谁家的参数更大,谁家就站在了行业的顶端。


很快,参数竞赛就走到了尽头,大家发现,参数规模的提升,带来的能力增长越来越有限,反而对算力的需求呈指数级上涨。于是行业的竞争焦点,转向了算力资源的争夺。高端AI芯片的供需缺口持续扩大,国内的大模型公司纷纷锁定长期算力订单,行业一度出现“一卡难求”的局面,甚至有创业公司为了保障算力稳定,直接包下了整个智算中心的机柜。


到了2025年,单纯的算力军备竞赛也卷不动了,行业的战场延伸到了落地场景。大厂们纷纷把大模型和自己的云服务、硬件产品、生态体系绑定,试图在千行百业的落地中抢到先发优势,竞争从技术研发,蔓延到了生态、渠道、客户资源的全面比拼。


但这场持续了三年的竞赛,代价越来越沉重,已经开始影响到整个行业的发展。


大厂尚且如此,创业公司的生存压力更是肉眼可见。我接触过的不少大模型创业者,都有过类似的经历:融到的第一笔钱,一半先打给了云厂商锁定算力,剩下的钱大部分用来支付算法团队的薪酬,留给产品打磨、场景落地的资金少之又少。行业就像一个高速运转的跑步机,所有人都必须不停往前跑,一旦停下来就会被赶超,但跑的越快,消耗的成本就越高,陷入了“越卷越贵,越贵越卷”的死循环。


而这个问题的根源,是大模型研发效率的底层瓶颈。


传统的大模型研发,是一套完全由人驱动的标准化流程。从最开始的数据清洗、标注,到模型架构的设计、预训练的参数调整,再到后续的微调、对齐、评测、bug修复,每一个环节都需要大量的算法工程师、数据标注人员、产品经理深度参与。


一个千亿参数级别的大模型,从立项到正式发布,往往需要一个几百人的团队,花费3到6个月的时间,中间还要消耗数亿的算力成本。即便是迭代速度最快的头部厂商,一个完整的大版本更新,也需要至少两个月的研发周期。


更让人无奈的是,这种“手工作坊”式的研发模式,正在遭遇明显的边际效益递减。从GPT-3到GPT-4,再到GPT-5,OpenAI的每一次迭代,都投入了比上一次更多的算力和人力,但普通用户能感知到的能力提升,却越来越有限。


国内的大模型玩家也是如此,从2023年到2026年,国内已经发布了数百款大模型,参数规模越来越大,训练数据越来越多,但真正能重构行业流程、带来颠覆性体验的能力突破,却寥寥无几。很多大模型的迭代,只是在特定榜单上的分数提升,很难转化为用户可感知的体验升级。


02
自进化给大模型行业
找了个新出口


从这个角度看,MiniMax的M2.7,给大家指了一条全新的路。


M2.7的核心突破,不是参数规模的提升,或是某个特定场景能力的优化,而是对大模型研发范式的重构。


在M2.7之前,大模型在自身的研发流程里,最多只能承担辅助工具的角色。算法工程师可以用它写一些训练相关的代码,做一些简单的数据清洗工作,但核心的模型架构设计、训练流程控制、对齐优化等关键环节,还是必须由人来完成。大模型始终是一个被研发的对象,而不是研发的参与者,整个研发流程的核心驱动力,始终是人


而M2.7的“自进化”能力,第一次让大模型深度参与到了自身研发的全流程中。


根据MiniMax官方披露的信息,M2.7可以完成数据筛选与清洗、训练数据的构建、模型架构的迭代优化、训练过程中的参数调整、对齐与评测,甚至是自身推理代码的优化等多个环节的工作。在部分特定研发流程中,M2.7可以承担30%到50%的工作量,研发人员只需要完成顶层的目标设定、关键环节的审核与把控,以及最终的效果验收。


这个变化的本质,是把大模型的研发模式,从过去的“人驱动模型迭代”,转向了“模型驱动模型迭代”。


最直观的改变,就是研发效率的提升和成本的下降。


同样的一个大模型迭代版本,过去需要一个200人的算法团队花费3个月的时间完成,现在只需要更少的人力、更短的周期就能落地,人力成本和时间成本都有显著下降。而在算力成本上,因为M2.7可以自主优化训练流程,调整训练参数,提升算力的使用效率,同样的训练任务,消耗的算力资源也会明显减少。对于本就面临资金压力的创业公司来说,这种效率的提升,直接意味着生存空间的扩大。


很多人会有疑问,让大模型参与自己的研发,会不会牺牲基础能力?


从官方发布的信息来看,并没有。M2.7的编程能力已经追平了OpenAI的GPT-5.3-Codex,在多模态理解、长上下文处理、逻辑推理等核心能力上,也进入了国内大模型的第一梯队。自进化能力的实现,没有以牺牲基础能力为代价,反而通过模型的自主优化,实现了基础能力的同步提升。


对于一家成立仅4年多的创业公司来说,这样的成绩并非偶然。MiniMax成立于2022年,是国内最早一批入局大模型赛道的创业公司,此前已经发布了多个版本的通用大模型,在多模态生成、长对话等领域积累了成熟的技术能力,也沉淀了大量的模型研发数据与经验,这些都为自进化大模型的研发提供了坚实的基础。而这次自进化大模型的发布,也让MiniMax从国内大模型的第二梯队,一跃进入了技术创新的第一阵营。


M2.7的发布,之所以能在行业内引发这么大的震动,核心原因在于,它打破了大模型行业过去三年的竞争逻辑。


过去三年,大模型行业的竞争,本质上是资源的竞争。谁能拿到更多的算力,谁能组建更大的算法团队,谁能投入更多的资金,谁就能在竞争中占据优势。大厂凭借着自己的资金优势、算力优势、生态优势,在这场竞争中占据了绝对的主导地位,创业公司想要突围,只能在细分场景里寻找机会,很难在通用大模型的核心技术上,和大厂正面抗衡。


行业的马太效应越来越明显,头部厂商占据了绝大多数的算力资源、人才资源和市场份额,中小玩家的生存空间越来越小。


但自进化大模型的出现,改变了这个游戏规则。当大模型可以自己研发自己的时候,资源的重要性会相对下降,技术创新的权重会被无限放大。创业公司不需要再和大厂拼算力、拼资金、拼团队规模,只需要在核心技术上实现突破,就能用更少的资源,实现更快的迭代速度,在竞争中拿到自己的一席之地。


和当年的DeepSeek类似,相当于给陷入内卷的行业,打开了一条全新赛道,让技术创新重新成为行业竞争的核心。