万万没想到,做奥数题都能拿金牌的模型,却不会「倒着背诗」。

说完全不会,倒也不严谨。因为如果允许模型「深度思考」,给诗的每个字都编上号,然后倒着排一下,这诗也能背出来。然而,这与人类倒背文本的方式并不一样 —— 人类记忆诗词时,往往不是逐字死记,而是以句子、意境、节奏为单位,而倒背时则是在脑中「反向调用」这些单元。


研究者们在 2023 年的一篇论文中就提到了这个现象,并将其命名为「Reversal Curse(反转诅咒)」。类似的表现还包括模型学习了「A is B(如巴黎是法国的首都)」之后,却无法自然地推出「B is A(如法国的首都是哪里)」。
这个问题之所以被拎出来讨论,是因为它会在一些需要模型同时理解前后文或逆向推理的场景中影响性能。
两年过去,AI 大模型能力突飞猛进,但这一问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归(AR)生成范式所造成的 —— 模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕捉 token 之间的双向依赖关系。
而且,自回归的天然缺陷还不止这一个 —— 长文本的计算成本高、生成速度慢是常被诟病的问题,而且它缺乏直接修正错误的能力,还会导致错误产生连锁反应。
面对这些问题,大量研究者选择继续改进自回归,但也有人另辟蹊径,尝试新的建模范式。
蚂蚁集团和中国人民大学高瓴人工智能学院组成的联合研究团队选择的就是后者,他们探索的语言建模方向是「扩散(diffusion)」。
在他们之前,也有不少研究者在这一方向发力。但今年 2 月份,他们首次将扩散语言模型(dLLM)扩展至 8B 参数规模,推出了性能对标 LLaMA 3 的 LLaDA 模型