作者|苏霍伊
编辑|王博
2017年,Google团队发表了一篇文章《Attention Is All You Need》。
这篇开创性的论文介绍了基于Transformer的深度学习架构。Transformer彻底改变了自然语言处理(NLP)领域,它的自注意力机制也被广泛应用于计算机视觉等其他领域,并对AI研究产生了深远影响,成为了AI发展史上的一个里程碑。截至今天,这篇论文的被引用次数已超过14万次。
如果说ChatGPT是席卷AI行业的一场“风暴”,那么Transformer就是“扇动翅膀”的那只蝴蝶。
但Transformer架构并不完美。《Attention Is All You Need》论文作者之一、Cohere联合创始人&CEO Aidan Gomez今年3月的英伟达GTC大会上说出了一句意味深长的话:“我们希望这个世界可以创造出比Transformer更好的东西。”
周期性特征的外推性困难就是Transformer的重要缺陷之一。
周期性是指某些现象或函数在规律的间隔内重复出现的特性,是最重要的基本特性之一。周期性现象广泛存在,例如:天文学中的行星运动、生物学中的昼夜节律、数学运算和逻辑推理等等。而在机器学习领域,外推性指的是模型在学习了训练数据后,能够对超出训练数据范围的测试数据进行预测的能力。
近年来,以MLP(多层感知器)和Transformer为代表的基础模型在各种领域取得了显著的突破,诸如语言理解、图像识别等任务中表现出卓越的能力,但在理解周期性现象时暴露了其天然缺陷。
MLP和Transformer通过对输入特征进行复杂的非线性组合来完成任务,但这些模型缺少明确的机制来建模周期性。在面对简单的正弦函数时,即使给定大量的训练数据,现有基础模型也难以理解其中的周期性规律,甚至在外推时表现出完全失控的状态,无法有效捕捉到周期性现象的本质。
“现有基础模型在域外数据周期性建模上的显著缺陷也能一定程度反映,当前大模型似乎只能通过不断增加数据量来扩展其认知边界,以此实现通用人工智能,但这并不是一个理想的状态。”北京大学计算机学院22级博士生董益宏告诉「甲子光年」。
《Attention Is All You Need》论文作者之一、OpenAI技术团队成员Lukasz Kaiser也曾提到过基于Transformer架构的大模型推理问题,即哪些推理任务应该通过外部的符号系统来完成,哪些推理任务应该直接在模型内部执行。
“这在很大程度上是一个关于效率的讨论。我确实相信,大型模型最终会学会如何进行‘2+2’这样的计算,但如果你要计算‘2+2’,却通过累加数字来进行,那显然是低效的。”Lukasz Kaiser曾表示。
今年10月,北京大学李戈教授的团队提出了一种新型网络架构FAN(Fourier Analysis Networks,傅里叶分析网络)。通过引入傅里叶原理,FAN能够将周期性信息直接嵌入网络的结构中,使模型更自然地捕捉和理解数据中的周期性模式。
实验表明,FAN不仅在周期性建模上的表现显著优于现有模型,而且在符号公式表示、时间序列预测和语言建模等实际任务中也同样表现出色,超过了Transformer等主流模型。
《FAN:Fourier Analysis Networks》论文的通讯作者是北京大学计算机学院长聘教授李戈,第一作者是北京大学计算机学院22级博士生董益宏,董益宏曾在ISSTA、FSE、ACL、NeurIPS、TOSEM等CCF-A类/SCI一区国际顶级会议和期刊上发表11篇学术论文。
那么,FAN和Transformer、MLP的差异在哪里?为什么FAN可以用更少的参数和计算需求更准确地预测周期模式?FAN的意义及应用价值是什么?
为此,「甲子光年」对董益宏进行了独家专访,与其讨论了大模型周期性特征建模缺陷、傅里叶分析原理以及FAN的核心逻辑等问题。
1.周期性建模问题
甲子光年:首先,为什么周期性很重要?
董益宏:因为周期性现象广泛存在,深刻影响着人类社会和自然科学。
作为最重要的基本特性之一,许多规律都显式或隐式地包含周期性,例如天文学中的行星运动、气象学中的季节变化、生物学中的昼夜节律、经济学中的商业周期、物理学中的电磁波以及数学运算和逻辑推理等。
因此在许多任务和应用中,人们通常会对周期性进行建模,再基于以往经验进行预测和推理。
甲子光年:传统神经网络,如MLP、KAN、Transformer,在周期性特征建模上有什么问题?
董益宏:这个问题其实源自于现有LLM(大语言模型)展现出许多令人印象深刻的表现,人们主观上认为这些模型应该具备理解周期性现象的能力。而目前社区中对于Transformer的能力究竟是来源于死记硬背还是真正理解其中规律的讨论也非常激烈。
我们可以通过反证法来证明传统神经网络,如MLP、KAN、Transformer,不具备周期性建模的能力。以一个简单的正弦函数为例,即使给定大量的训练数据,现有基础模型也难以理解其中的周期性规律,在外推时表现出完全失控的状态,无法有效捕捉到周期性现象的本质。
甲子光年:如果大模型无法充分建模周期性特征,会造成什么严重后果吗?
董益宏:目前不少技术社区也在讨论这一问题,其中我比较认同的一个观点是:如果大模型无法理解周期性这种基本特性,它似乎只能通过不断增加数据量来扩展其认知边界,以此实现通用人工智能,但这并不是一个理想的状态。
甲子光年:在今年英伟达GTC上,我在现场听《Attention Is All You Need》论文作者之一、NEAR Protocol联合创始人Illiya Polosukhin说了一个案例:“例如‘2+2=4’,如果你正确地将他输入到模型中,它就会使用一万亿个参数。所以我认为自适应计算是接下来必须出现的事情之一,我们知道在特定问题上应该花费多少计算资源。”所以,FAN属于自适应计算吗?
董益宏:我觉得有一定关系,但FAN并非严格意义上的自适应计算。
我觉得Illiya Polosukhin说的自适应计算是指如何根据具体任务的需求来动态分配计算资源,以提高计算效率。而FAN的创新点更多在于其网络架构的优化,而不是在计算资源的动态适应性方面。
两者之间的关联点可能有两方面:
1.FAN能够让模型自主决定何时使用傅里叶分析进行周期性建模,从而提高了模型在周期性任务上的计算效率和效果;
2.在GTC上,《Attention Is All You Need》的另一位作者Lukasz Kaiser还提到大模型推理效率的问题,他认为其根本性问题在于,哪些知识应该内置于模型之中?对此,我认为周期性建模的能力应该内置于模型中。
甲子光年:FAN和Transformer的根本不同在于?
董益宏:准确地说,FAN的竞争对手是最经典的神经网络架构——MLP。
MLP在许多现有的深度学习模型中都发挥着重要作用,例如Transformer中的FFN层(Feed Forward Network,前馈神经网络)就是MLP。FFN层是一种前馈神经网络,它是深度学习模型中的重要组成部分。两者的根本不同之处在于FAN通过引入傅里叶原理,将周期性信息直接嵌入网络的结构中,使模型更自然地捕捉和理解数据中的周期性模式,这是传统MLP所不具备的。
2.引入傅里叶分析的思想
甲子光年:FAN的核心层结构是什么?
董益宏:FAN的核心层结构是FAN Layer,其定义如下:,其中,,是可学习参数,表示激活函数。
甲子光年:FAN是如何将傅里叶原理融入网络结构的?为什么它可以用更少的参数和计算需求更准确地预测周期模式?
董益宏:FAN引入傅里叶原理实现了高效的周期性建模,其设计基于以下两个核心原则:
1.FAN的深度应与其表示傅里叶系数的能力正相关,即网络越深,周期性建模的表现力越强;
2.任何隐藏层的输出都可以通过后续层利用傅里叶级数来进行周期性建模。这确保了FAN中间层捕捉到关键的周期性特征可用于后续层的周期性建模。
此外,FAN通过共享Sin(正弦)和Cos(余弦)函数的参数和计算,大幅减少了参数量和计算量。这种结构融入了傅里叶级数(用于分析周期性波动的数学工具)的原理,相比传统神经网络,FAN层在不牺牲灵活性的情况下,能更有效地理解数据中的周期性特征。
甲子光年:将傅里叶原理从理论应用到神经网络设计的过程中是否遇到过哪些挑战?你们又是如何解决的?
董益宏:在研究中,我们面临的主要挑战在于如何实现“既要又要还要”。
我们既要增强周期性建模的能力,又要确保其他方面的能力不受影响,还要在实际任务中有出色的表现。最具挑战性的是如何让FAN能够同时保证前面提到的两个核心原则。
通过解构整个网络架构为原子操作,我们发现这两个原则在一定程度上是互斥的,即:需要同时用到两个原子操作。于是我们做了一个尝试,将两个原子操作合并,设计出了FAN Layer,定义为:。其中,左半部分的和右半部分的分别是原网络架构中的原子操作。
甲子光年:在确定使用傅里叶级数处理周期性之前,你有没有考虑过其他数学工具?
董益宏:确实,我们探索了许多经典的数学公式,但将它们融入神经网络架构中比预想的要复杂得多。神经网络对我们而言仍是一个“黑箱”,许多理论上可行的方法在实际应用中却常常意外失效。最终我们选择了其中一个最简洁且高效的方案,也就是FAN。
甲子光年:那FAN对非周期性变化的时间序列数据,如股市崩盘或气候临界点等的理解力如何?
董益宏:FAN遵循通用近似原理,从理论上保证了其函数拟合能力;在符号公式表示任务上,FAN在许多部分周期性或完全非周期性的函数上,FAN增强周期性建模的同时并没有损害非周期性函数的拟合能力。在股市和气候预测等实际数据集上的实验显示,使用FAN的效果有所提升,这从侧面也能说明FAN对非周期性变化数据的理解力良好。
3.对神经网络理解的根本转变
甲子光年:FAN的性能如何?
董益宏:我们从两个主要方面评估了FAN的性能,分别是周期性建模和实际任务应用,包括符号公式表示、时间序列预测和语言建模任务。FAN在周期性建模能力和实际应用效果都有不错的表现。
在处理周期性数据建模方面,FAN展现出了比现有的神经网络模型如MLP、KAN和Transformer更加明显的优势。处理其余模型处于混沌状态的域外测试数据时,FAN也能实现良好的建模效果。同时在符号公式表示任务中,FAN的表现也始终优于参数量相同的基线模型(包括MLP、KAN和Transformer)。
在一些具有显著周期性特征的任务上,FAN表现尤为出色,例如时间序列预测和信号识别等实际任务。一些研究者也通过邮件等方式向我表示,FAN在这些任务上能够提供有效助力并带来性能提升。
更让我们惊喜的是,整合了FAN的改良Transformer模型在时间序列预测和语言建模任务中同样表现出色,超过了如标准Transformer、LSTM和Mamba这类主流模型。
在时间序列预测任务中,与标准Transformer相比,FAN达到了高达14.3%到15.0%的均方误差(MSE)和7.6%到7.9%的平均绝对误差(MAE)的改进。在语言建模方面,它实现了高达14.65%的减少损失和8.50%的准确率提升。
甲子光年:FAN是对神经网络理解和建模周期性模式的根本转变吗?
董益宏:可以这么认为。
从实验结果来看,FAN在理解和建模周期性方面展现出显著优势。在域内和域外的优异表现表明,它能够深入理解周期性的原理并进行精准建模,而不仅仅是简单地记住训练数据,根本性地改善了传统神经网络在周期性建模(尤其是域外数据)上的效果。
甲子光年:在计算资源消耗方面,FAN与MLP相比,有无显著的差异?在处理大规模数据时,FAN的计算效率和能耗表现如何?
董益宏:在相同设置下,FAN的参数量和计算量更小,在默认超参数下,仅为MLP的3/4左右。在处理大规模数据时也是如此。如表所示,我们对比了MLP(多层感知器)层和FAN层的数学表示、参数数量和浮点运算(FLOPs)的数量。
甲子光年:FAN能否替代MLP?
董益宏:FAN也遵循通用近似原理,能够确保其函数近似能力。因此,FAN不仅全面继承了MLP的既有优势,还通过明确纳入周期性增强了其捕获数据周期性特征的能力,可以作为MLP的有力替代品。
甲子光年:FAN能为大模型领域带来什么改变吗?
董益宏:我认为,FAN的意义在于FAN提供了一种全新的范式来有效地建模周期性,能够无缝替换传统MLP,同时减少参数量和计算量,填补了当前基础模型在周期性建模上的缺陷。
另一个重要意义在于明确指出了“当前基础模型架构在周期性建模方面存在潜在缺陷”这一问题。我相信,未来一定会出现更优的改进方案,也期待广大研究者在此问题上进行深入的探索和创新。
甲子光年:除了已知的应用场景外,FAN还有哪些潜在的应用领域?
董益宏:许多看似与周期性无直接关联的机器学习任务,如数学运算和逻辑推理,实际上可能也隐含着周期性特征。因此,我认为赋予模型周期性建模的能力是必要的,至于何时启用该能力,可以交由模型自主判断。所以我认为,图像识别和LLM可能也是FAN的潜在应用领域,当然也希望将来FAN能够应用到更多的行业和领域。
甲子光年:你认为FAN会在推动AI的发展中将扮演怎样的角色?
董益宏:我觉得FAN在其中更多的是扮演了一个先行者,我们关注到了“当前基础模型架构在周期性建模方面存在潜在缺陷”这一问题,并给出了一个可行且可靠的方案。虽然这只是人工智能发展进程中的非常微小的一步,但如果能够激发更多研究者的思考,也算是一种成功。
甲子光年:接下来,你们还在回FAN的基础上做其他拓展吗?
董益宏:FAN未来研究方向主要包括:
1.优化FAN与现有模型的结合方式;
2.提升FAN的参数规模;
3.拓展FAN的应用范围。
当前FAN与Transformer等现有模型的结合方式仍较为初步,只是直接将其中的MLP替换为FAN并保证其余组件不变,我们计划在未来探索更多的结用方式并优化其余组件,以充分发挥FAN的潜力。
同时,研究结合FAN的Transformer的Scaling Law也是我们未来研究中的重要环节。目前我们在一定参数规模的模型上已经取得了成效,接下来计划进一步验证FAN在更大参数规模的LLM上的表现。
我们还希望拓展FAN作为基础模型组件的应用范围。近期我们也将FAN扩展到了图像识别领域,结合FAN的CNN取得了良好的性能表现。
甲子光年:最后想问下研究缘起,你们为什么会想到做FAN的研究?
董益宏:李戈老师一直鼓励我们实验室的同学思考:“现有的基础模型架构是否已经达到最优解?如果没有,那么更理想的架构应该是什么样的?”他提倡我们大胆探索,有了好想法就深入研究。FAN的诞生便是源于这种思考。