Google 基于 GNN 开发气味识别 AI，工作量相当于人类评价员连续工作 70 年

内容一览：气味总是萦绕我们身边。然而，我们却很难对气味准确描述。最近，Google Research 的子公司 Osmo 基于图神经网络，开发了气味分析 AI。它可以根据化学分子的结构，对分子的气味进行预测。基于这一 AI，研究人员绘制出了主气味谱图，建立了化学结构与气味之间的映射，有望为感知觉研究提供新方法。
关键词：气味分析 GNN 气味谱图

作者 | 雪菜
编辑 | 三羊

本文首发于 HyperAI 超神经微信公众平台~

神经科学研究的一项基本问题，是将外部刺激的物理特性映射到感知觉中。

视觉中，颜色是波长的映射。听觉中，音调是频率的映射。但在嗅觉中，气味与物质之间的映射却很难建立。

目前，我们只能提取出一些基本的气味，绘制出气味轮 (fragrance wheel)，再用这些基本气味组成更复杂的气味。

在这里插入图片描述
图 1：气味轮示意图

然而，这种粗略的分类很难用于科学研究。虽然已有气味传感器等技术用于气味的监测，但这些传感器仍只能识别特定气味。现有的气味鉴定很多时候仍需要气味评价员的参与，这一过程耗时长，且可重复性差。

近期，Google Research 的分支 Osmo 公司基于图神经网络 (GNN) 开发了一种气味分析 AI。它可以根据化学分子的结构，对该分子的气味进行描述。 这一模型在 53% 的化学分子、55% 的气味描述词判断中优于人类。最终，研究人员利用这一模型绘制出了主气味谱图 POM (Principle Odor Map)。 这一成果已发表于《Science》。

在这里插入图片描述

实验过程

GNN 模型在多个架构中表现稳定

气味本质上是人们对于空气中化学分子的感应。因此，化学分子的结构会对气味产生影响。 在 GNN 中，化学分子的结构被分析整合，形成了一张代表整个分子的图表。

分子结构输入到模型中后，GNN 会优化不同化学结构在特定气味中的权重，最后通过预测层对分子的气味进行判断，输出对应的气味描述词。
在这里插入图片描述

图 2：GNN 模型示意图

结合 Good Scents 和 Leffingwell & Associates 数据库 (GS-LF 数据库)，研究人员挑选出了 5,000 种分子作为模型的数据库。每种分子可以由多个气味描述，如奶酪味、果香味等。

在这里插入图片描述

图 3：GS-LF 数据库中的部分分子

随后，将 GS-LF 数据库按照 8 : 2 的比例划分为训练集和测试集，训练集被进一步划分为五个交叉验证的子集。

使用贝叶斯优化算法对数据进行交叉验证，并对 GNN 模型的超参数进行优化。优化完成后，GNN 模型在多个架构中表现稳定，交叉验证集中 AUROC 最高为 0.89。

GNN 模型在气味预测中优于人类

为验证模型对其他分子的分辨能力，研究人员对 GNN 模型和人类组进行了气味测试。
在这里插入图片描述
图 4：不同模型对于 2,3-二氢苯并呋喃-5-甲醛气味的判断

A：GNN 模型；

B：RF 模型；

C：人类组；

D：不同评价员对 2,3-二氢苯并呋喃-5-甲醛气味的评价。

对于 53% 的分子，GNN 模型的气味预测结果优于人类组的中位数。而目前最先进的算法，基于计数摩根指纹法 (cFP, count-based fingerprint) 的随机森林模型 (RF)，仅在 41% 的分子气味预测中优于人类组。

在这里插入图片描述

图 5：不同模型的预测结果与人类组平均值的相关性

随后，研究人员将 GNN 模型的预测结果按气味描述词分类。除麝香外，GNN 模型对分子气味的预测结果均在人类组的误差分布中，且在 30 个气味描述词的预测结果中优于人类组中位数。

在这里插入图片描述

图 6：GNN 模型、RF 模型和人类组对不同分子的判断结果

GNN 模型的预测结果会受到分子的结构影响， 因此对于含硫基的大蒜味和含胺的鱼腥味，GNN 模型有着较高的预测准确率。而麝香至少包含五种不同的结构，大环、多环、硝基、甾体和直链，因此 GNN 模型的预测结果最差。

而人类组的表现则会受到熟悉度的影响。 他们对坚果、大蒜、干酪等常规的食物香味判断较为一致，而在麝香和干草味上分歧较大。

同时，描述词在训练集中的数量也会影响 GNN 模型对某一气味的预测。 出现次数够多时，GNN 模型可以对复杂的结构进行较准确的预测，如果香、花香和甜味。
在这里插入图片描述

图 7：训练数据对 GNN 模型预测结果与人类组平均值相关性的影响

然而，对于出现次数较少的味道，GNN 模型的正确率两极分化。对于鱼腥味、薄荷和樟脑的预测正确率较高，但对臭氧、醋酸味和发酵的味道判断较差。

GNN 模型绘制主气味谱图

GNN 模型绘制主气味谱图 GNN 模型的性能进行验证后，研究人员进一步将其用在了不同嗅觉任务中。

首先，他们测试了模型对结构相似的分子的判断能力。模型已知一种分子的气味后，需要对结构相似、气味不同和结构不同、气味相似分子的气味进行判断。对于这种反常的结构-气味关系，GNN 模型有 50% 的判断正确率，而 RF 模型仅有 19%。
在这里插入图片描述

图 8：一组结构或气味与已知分子接近的「三胞胎」

在获得了稳定的结构-气味关系之后，研究人员开始尝试绘制大规模的气味谱图。他们完成了约 500,000 种分子的主气味谱图 (POM)。 这些分子在科研领域尚不为人知，甚至绝大多数未被合成出来。

然而它们在谱图中的位置可以直接被 GNN 模型计算出来，因此可以绘制出很大规模的气味谱图。如果让一名训练过的人类评价员对这些分子的气味进行评估，大概需要连续工作 70 年。
在这里插入图片描述

图 9：主气味谱图

图中，每个分子气味的坐标由 GNN 模型确定，其颜色的 RGB 值对应其在预测气味矩阵中前三个维度的坐标。

普鲁斯特效应：嗅觉与记忆的联动

当我们闻到特定气味时，就会想起曾经的记忆，气味会使这一记忆更加形象、更富情感。 作家马塞尔·普鲁斯特在《追忆似水年华》中提到，叙述者闻到浸在茶水中的玛德莱娜蛋糕的味道时，「往事浮上心头」。因此，这一现象也被称为普鲁斯特效应。

嗅觉与记忆在神经系统中的联系较其他感知觉更为密切。它是唯一一个直接与情感脑区、记忆脑区直接相连的感觉系统。 嗅觉细胞被激活后，神经冲动会直接传递到梨状皮层。这一脑区包括负责恐惧和其他情感的杏仁核和负责记忆的海马旁回。

在这里插入图片描述

图 10：嗅觉环路的组成

Primary olfactory cortex：初级嗅皮层；

Amygadala：杏仁核；

Hippocampus：海马。

正是因为嗅觉与记忆、情感之间有着如此密切的联系，香水成了人们外出会面的必备品。也许对方再次见到你已经叫不出你的名字，但闻到这个味道，他一定会想起与你相见的那个情景。

借助 AI，人们对于分子结构与气味之间的联系有了更深入的了解。 也许有一天，我们真的能调配出自己最熟悉的味道。打开瓶盖，就能搭乘时光机器，让记忆回到过去。

参考链接：

[1] https://perfumersupplyhouse.c...

[2] https://www.slideserve.com/co...

本文首发于 HyperAI 超神经微信公众平台~

实验过程

GNN 模型在多个架构中表现稳定

GNN 模型在气味预测中优于人类

GNN 模型绘制主气味谱图

普鲁斯特效应：嗅觉与记忆的联动

推荐阅读

目录