推理模型新路线开源!与 DeepSeek 截然不同,抛弃思维链不用人类语言思考

开源推理大模型新架构来了,采用与 Deepseek-R1/OpenAI o1 截然不同的路线

抛弃长思维链和人类的语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。

image.png

例如问题:Claire 每天早餐都会做一个 3 个鸡蛋的煎蛋卷。她在 4 周内会吃多少个鸡蛋?

从新模型 Huginn 的思考轨迹可视化中,可以看到对数字 3 等重要 token 不断旋转,最终收敛到正确答案对应的位置,但在不关键的人物名字 Cla-ire 上没有这个现象。

Image

除旋转之外还能观察到更多丰富的几何模式,研究团队认为这表明该模型正在独立学习利用潜空间的高维性质以新的方式做推理

由于不使用长思维链推理范式,新方法还有几个额外优势:

  • 不需要任何专门的训练数据
  • 可以在很小的上下文窗口下工作
  • 能捕捉到难以用语言表达的推理类型

研究来自马克思普朗克研究所、马里兰大学等团队,他们使用美国橡树岭实验室的 Frontier 超算完成训练实验,用到 8 个 AMD GPU 节点(4096 块 GPU),没有使用英伟达体系。

Image

新架构给 Transformer 加入循环模块

新架构仍然围绕 Decoder-only 的 Transformer block 构建,但分为三段:

  • Prelude(前奏):使用多个 transformer 层将输入数据嵌入到潜空间中
  • Recurrent Block(循环块):循环计算单元,在潜在空间中修改状态
  • Coda(尾声):从潜空间解码,并包含模型的预测头

Image

在训练期间为每个输入序列分配随机数量的迭代次数。同时为了在训练时保持较低的计算和内存,只反向传播循环单元的最后 k 次迭代。

研究中可视化了模型在潜在空间中的推理轨迹,发现了这些有趣现象:

  • 对一些简单 token,模型的隐状态会快速收敛到稳定点
  • 但对一些关键 token,如数学问题中的数字”3”,隐状态会形成复杂的圆形轨道
  • 还有一些 token 的隐状态会沿特定方向”滑动”,可能用于计数循环次数

Image

论文一作Jonas Geiping透露,他们的算力只够一次大规模训练,也就是最后发布的 3.5B 参数的 Huginn 模型,在 800B tokens 数据上预训练。

没有 post/mid-training 过程,但可以与 7B 参数、在 2-3T tokens 数据上训练的开源模型能力相匹配。

另外算上循环模块中的计算,3.5B 参数的模型训练时的计算量相当于传统的 32B 模型。

Image

有人猜测 OpenAI o3 使用了类似的方法,通过循环来达到近似无限上下文,并且控制高中低三种推理时间设置。

Image

有 OpenAI 研究员已经注意到这个工作,把论文读完了还在线捉 bug。

Image

也已经有人准备根据 DeepSeek-R1 开源的方法尝试新思路,同时保留潜空间思考的推理能力,和 CoT 思考的可读性。

Image

论文: https://arxiv.org/abs/2502.05171
模型: https://huggingface.co/tomg-g...
代码: https://github.com/seal-rg/re...

参考链接:
[1]https://x.com/tomgoldsteincs/...
[2]https://x.com/jonasgeiping/st...

END

来源:量子位

推荐阅读

欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18938
内容数
1441
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息