人工智能的加入,为材料科学领域带来了新进展。借助 AI 的力量,科研人员能以前所未有的速度设计出更多新型材料,但是「快」也成了一种烦恼。
AI 跑得太快,实验验证却跟不上了。 作为新材料「落地前最后一道关卡」——光谱表征环节,仍受限于传统模式。不仅需要单价动辄高达 50 万美元的专业仪器,还依赖专业人员操作解读。更复杂的是,许多样品稀缺、易碎甚至有毒,无法进行反复实验,这均阻碍了新材料的转化。
再喊 AI 来帮忙?只可惜当下的深度学习技术侧重于简单的分类回归,而变分自动编码器(VAE)的输出,难以满足光谱表征生成对数据的高保真需求。
为破解这一困境,来自麻省理工的研究团队提出了一种物理先验生成式人工智能模型 SpectroGen,仅需单一光谱模态的输入,就能实现与实验结果相关性达 99% 的跨模态光谱生成。 其引入了两项关键创新,首先是将光谱数据表示为数学分布曲线,其次是构建了一种基于物理先验的变分自动编码器生成算法。在解决传统表征效率低、成本高问题的同时,让材料的「发现与验证」能够「同速共鸣」。
相关研究以「SpectroGen: A physically informed generative artificial intelligence for accelerated cross-modality spectroscopic materials characterization」为题,发表于 Matter。
研究亮点:
- 受物理学启发,将模型与自动编码器相结合;
- 以物理先验为内核,推进高保真光谱的生成;
- 人工智能驱动材料科学领域「发现与验证」的同速。
论文地址:
https://www.cell.com/matter/a...(25)00477-1
关注公众号,后台回复「光谱表征」获取完整 PDF
更多 AI 前沿论文:
https://hyper.ai/papers
光谱数据到数学分布曲线的变身
为了保证模型的准确性与实验采集相媲美,研究团队针对模型的训练与验证均基于 RRUFF 数据库(国际公开的标准矿物光谱数据库),共包含 6,066 个标准样本。研究选取了其中 319 组 IR–Raman 光谱对 以及 371 组 XRD–Raman 光谱对作为实验数据。所有数据表示为数学分布曲线,基于光谱特征采用高斯(Gaussian)、洛伦兹(Lorentzian)及 Voigt 分布作为物理先验,使模型能够捕捉真实光谱中的峰位、展宽与信号特征。
训练与测试数据集
受物理+变分自动编码器启发的架构
SpectroGen 的核心思想是以物理为先导,通过生成式人工智能实现跨光谱模态的高保真映射,整体架构基于变分自动编码器(VAE)框架。 模型以光谱分布为输入,经由编码—解码的双向映射过程,在潜在空间中学习不同光谱模态间的对应关系,实现从红外(IR)或 X 射线衍射(XRD)谱到拉曼(Raman)谱的转换。
在将实验光谱以数学分布曲线的形式进行解构之后,模型通过概率编码器将输入谱映射至潜变量,在物理先验约束下学习其分布特征,再由解码器重构目标模态光谱,实现跨域生成。训练过程中引入 KL 散度损失,以最小化生成谱与真实谱的分布差异,确保生成结果的准确性。
建模流程
与实验采集相媲美的准确性
研究团队通过多组对比实验,对模型的性能进行了系统验证。以 IR–Raman 与 XRD–Raman 两类任务为核心开展,首先从光谱特征与图像相似度两个维度对生成结果进行分析。评估指标涵盖:结构相似度(SSIM)、均方根误差(RMSE)及相关系数(Correlation)等。
实验结果表明,SpectroGen 在两类任务中均实现了与实验采集数据高度一致的光谱生成。 在 IR–Raman 转换任务中,生成光谱在峰形、强度及噪声控制方面表现优异,平均 SSIM 为 0.96±0.03,RMSE 仅为 0.010±0.006,与实验光谱的相关系数达 0.99±0.01。在 XRD–Raman 任务中,模型进一步展现出对复杂峰形与重叠信号的建模能力,SSIM 提升至 0.97±0.04,PSNR 达 43±4 dB。这得益于以精确的物理先验来表示相关模态的各自光谱,以及采用变分自动编码器主干架构。
两类任务的光谱特性评估
其次,为了验证生成光谱的信息完整性,研究团队进一步比较了使用其生成光谱和使用实验获取光谱在材料类型分类任务中的性能。在 26 类矿物材料的十轮重复验证中,SpectroGen 生成的光谱实现了 90.476% 的平均准确率(测试集准确率:50.100%),实验收集光谱的平均分类准确率为 69.879%(测试集准确率:61.644%)。 针对测试集中确率较低现象,研究团队认为可能是由于数据集规模较小导致,整体来看模型依然能够有效传递反映分子振动的特征信息。
光谱信息完整性评估实验结果
最后,研究团队还探究了物理先验的关键作用。当错误地将 IR 光谱以洛伦兹分布建模,或将 XRD 光谱以高斯分布错误表示时,生成谱的峰高、信噪比与峰形均出现显著退化。凸显了物理先验模型在网络可解释性方面的关键作,其有助于实现精确生成。
人工智能驱动的材料科学新范式
本文介绍的研究,通过人工智能的加持带来了一种无需物理仪器即可实现光谱分析的方法。 值得关注的是,人工智能赋能于材料科学领域的远不止于表征环节,更延伸至材料性能的预测与应用推荐。
加拿大多伦多大学化学工程与应用化学系的研究团队,提出了一种基于多模态机器学习模型的新方法,利用 MOFs 合成后即可获得的信息来预测其潜在性能和用途,例如其粉末 X 射线衍射图谱(PXRD)以及所使用的合成化学物质,并为模型添加了应用推荐系统,能在 MOFs 合成后的第一时间给出应用建议。相关研究以「Connecting metal-organic framework synthesis to applications using multimodal machine learning」为题,发表于 Nature Communications。
论文地址:
https://www.nature.com/articl...
香港理工大学团队发表的 RingFormer 框架,通过构建原子-化学环的层级图 Transformer 架构,结合局部消息传递与全局注意力机制,能精准预测分子光电性能。在来自哈佛大学的清洁能源项目数据库 Clean Energy Project Database (CEPDB) 测试集上,其性能较传统方法提升 22.77%。相关成果以「RingFormer: A Ring-Enhanced Graph Transformer for Organic Solar Cell Property Prediction」为题,入选 AI 领域顶级学术会议 AAAI 2025。
论文地址:
https://doi.org/10.48550/arXi...
从前我们会说:材料科学已步入人工智能驱动的崭新范式,而当下这一变革的轨迹正逐渐清晰蔓延,其发展正从宏观的范式转移,迈向更细分、多元路径的纵深发展,助力我们探索更多空白地带。