这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。
语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers,它是llm和slm的构建模块。虽然transformers通过其注意力网络已经证明了其跨领域的卓越性能,但注意力存在许多问题,包括低归纳偏置和输入序列长度的二次复杂度。
状态空间模型(ssm)在处理信息密集数据建模方面效率较低,特别是在计算机视觉等领域,并且在基因组数据等离散场景中面临挑战。为了解决典型状态空间模型难以有效处理长序列的问题,最近提出了一种选择性状态空间序列建模技术Mamba。但是Mamba却有稳定性问题,当扩展到计算机视觉数据集的大型网络时,训练损失不收敛。
来自微软的研究人员介绍了SiMBA,这是一种引入EinFFT进行通道建模的新架构。SiMBA体系结构将Mamba用于序列建模,并引入EinFFT作为一种新的通道建模技术。有效地解决了在扩展到大型网络时在Mamba中观察到的不稳定性问题。该方法突出了基于卷积模型、transformers模型、mlp混频器、频谱混频器模型和状态空间方法的各种模型。论文还介绍了将卷积与transformers或频谱方法相结合的混合模型。
SiMBA的信道混合包含三个主要组件:频谱变换、使用爱因斯坦矩阵乘法的频谱门控网络和逆频谱变换。EinFFT通过在复数表示上应用爱因斯坦矩阵乘法来利用频域信道混合。这使得能够提取具有增强的全局可见性和能量集中度的关键数据模式。Mamba结合MLP进行信道混合可以弥补小规模网络的性能差距,但对于大型网络可能存在同样的稳定性问题。结合EinFFT, Mamba解决了小型和大型网络的稳定性问题。
在ImageNet 1K数据集上的评估表明,SiMBA的出色性能达到了84.0%的前1准确率,优于著名的卷积网络和transformers。
在多变量长期预测中,也显示出了很强大的能力,使用预测查询窗口96的所有数据集的长𝑇∈{96,192,336,720}。
性能评估显示SiMBA在各种指标上的优势,包括均方误差(MSE)和平均绝对误差(MAE),超过了最先进的模型。包括最新的时间序列域的最新方法,如FourierGNN, CrossGNN,TiDE, SciNet, FreTS,PatchTST,以下结果是基于所有数据集大小为96的查找窗口
微软SiMBA体系结构的引入标志着视觉和时间序列分析领域的重大进步。SiMBA解决了稳定性问题,同时在不同的指标上提供卓越的性能,为处理复杂的数据任务提供了无与伦比的能力,同时将一个模型应用在图像识别和时间序列中,这个研究还是很有意思。另外官方给得代码也很简洁,可以直接下载复现。
https://avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb