微博开源轻量大模型 VibeThinker:15亿参数实现超大规模模型级性能
微博正式发布其首个自研开源大模型——VibeThinker。该模型仅拥有15亿参数,却在多项国际顶级数学与编程基准测试中,展现出超越参数量高达6710亿的竞品模型的卓越能力,引发人工智能领域广泛关注。
VibeThinker的研发聚焦于复杂数学推理与竞赛级代码生成任务,在AIME、HMMT等高难度数学测试集以及LiveCodeBench编程评测中表现亮眼,甚至媲美部分千亿级闭源模型。尤为引人注目的是,其单次“后训练”成本仅为7800美元,相较同类高性能模型动辄数十万美元的投入,大幅降低了AI研发门槛。
这一突破得益于微博团队提出的创新训练框架——“频谱到信号原理”(SSP)。该方法将训练过程分为两个阶段:首先鼓励模型探索多样化解题路径,构建丰富的“解题频谱”;随后通过强化学习从中提炼最优“信号”,实现高效精准推理。这种先发散、再收敛的策略,使小模型在有限参数下释放出强大智能潜力。
目前,VibeThinker已在GitHub、Hugging Face及ModelScope等平台全面开源。微博强调,该模型尚处于实验性阶段,未针对日常对话进行优化,主要适用于专业领域的高智能任务。未来,团队将持续迭代模型能力,并探索其在教育、科研及企业智能化场景中的落地应用。
VibeThinker的发布标志着“小而精”成为大模型发展新路径,为资源有限的中小企业与高校研究团队提供了高性价比的技术选择,有望推动AI技术进一步普惠化与多元化。