内容 AI：建立统一的跨媒体多模态内容理解内核

我们身处的环境本身多模态环境，人工智能要更好的理解环境，则需要具备解析多模态信息的能力。通过模态学习可以搭建能处理和连接多模态信息的模型。在内容理解领域，需要分析的模态有文本，图片，视频，语音对应的不同级别特征；其他辅助描述特征等。
作者：孙子荀 zixunsun@tencent.com
来源：腾讯技术工程微信号

Jeff Dean 谈 2020 年机器学习趋势：多任务和多模式学习将成为突破口

2019 年下半年，CDG 广告、 CSIG 音视频，IEG 内容推荐、PCG 信息流、TEG 数平广告推荐和 AI 平台部团队、WXG 看一看团队内容技术专家沟通，大家在处理内容理解任务时候，都有融合多模态特征进行内容理解需求，同时大家具有很好的技术能力和研发经验。

我们希望能建立统一的跨媒体多模态内容理解内核，对新增内容理解任务，快速完成 0-1 步积累，提升模型实践加速度、降低试错成本，通过 Oteam 运行机制，扩大知识圈，共享公司内容算法团队之间的经验。（如果大家有兴趣可以加入一起交流讨论）。

技术背景

我们身处的环境本身多模态环境，人工智能要更好的理解环境，则需要具备解析多模态信息的能力。通过模态学习可以搭建能处理和连接多模态信息的模型。在内容理解领域，需要分析的模态有文本，图片，视频，语音对应的不同级别特征；其他辅助描述特征等。

当前多模态的技术落地和具体任务是强相关的。随着深度学习技术的发展，不同的研究人员在进行内容理解任务的时候，会加上更多模态的特征，并且尝试通过网络结构的改进获得更好的数据表现。然而针对最近几年不同任务上多模态学习的论文研究发现，学者们更多关注多模态的网络结构设计，而较少关注不同动作下的模型学习能力与任务、数据集之间的关联性研究（如游戏视频和体育视频的动作序列识别任务上，语音特征与光流特征融合方式如何选择）。

多模态学习研究的各个方向都可能对最终的任务表现产生作用，这些方向之间的影响和联系需要进一步分析。当前各个方向之间没有在一个统一模型下进行实验挖掘或者自动分析，难以充分复用其他任务上的研究成果进行改进。

技术方向

内容团队内容理解算法应不断提升，多模态学习技术也需要不断升级，通用框架技术具备必要的研究性和很好的落地价值，可以做到提升模型技术和业务指标表现，同时提升基于内容理解能力构建效率。模型层面可以在如下几个方向深入：1.表征：多个模态同时存在的情况下，针对具体任务动态进行模态内不同级别特征信息使用（如文本中句义、句法、字词特征；视觉中语义、边缘、色彩特征），利用注意力机制选择特征；利用生成对抗网络对形式和内容进行表征解耦的能力。2.融合：支持不同融合策略的对比，融合动作本身可以支持动态适配；研究时序特征和非时序特征的映射对齐策略。3.协同：通过协同学习，做到多模态之间的有效信息传递；结合多任务学习，增强原模型的表征能力，降低过拟合风险，适应随机噪声。

多模态研究方向分析

多模态学习目前主要有以下五个研究方向： 表征(Representation), 转化(Translation),对齐(Alignment),融合(Fusion),协同学习(Co-learning)

表征(Representation)

单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表征是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。

研究方向：
联合表征(Joint Representation) ,将多个模态的信息一起映射到一个统一的多模态向量空间；

协同表征(Coordinated Representation) , 将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束（例如线性相关）

（联合表征）Multimodal learning with deep boltzmann machines (NIPS 2012) 提出将 deep boltzmann machines（DBM）结构扩充到多模态领域，通过 Multimodal DBM，可以学习到多模态的联合概率分布。

在获得图像与文本间的联合概率分布后，我们在应用阶段，输入图片，利用条件概率 P(文本|图片) ,生成文本特征，可以得到图片相应的文本描述；而输入文本，利用条件概率 P(图片|文本) ,可以生成图片特征，通过检索出最靠近该特征向量的两个图片实例，可以得到符合文本描述的图片。

（协同表征）Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)!

利用协同学习到的特征向量之间满足加减算数运算这一特性，可以搜索出与给定图片满足“指定的转换语义”的图片。

300 维的文字与图像特征 PCA 投影

难点：
如何结合异质性的来源的数据，比如文字是符号性的，图片是一个 RGB 矩阵，视频是时序的 RGB 矩阵，声音需要采样成一个一位数组；如何处理不同级别的噪音，原因是不同模态产生的噪声是不同的；如何处理数据缺失的问题。

技术方案：

转化(Translation)

多模态转化也可称为映射(Mapping)，主要是将一个模态的信息转化或映射为另一个模态的信息。

相关任务：
机器翻译(Machine Translation) :将输入的语言 A（即时）翻译为另一种语言 B。类似的还有唇读(Lip Reading)和语音翻译 (Speech Translation)，分别将唇部视觉和语音信息转换为文本信息。

图片描述(Image Captioning)与视频描述(Video Captioning):对给定的图片/视频形成一段文字描述，以表达图片/视频的内容。

语音合成(Speech Synthesis) ：根据输入的文本信息，自动合成一段语音信号。

难点：
1.未知结束位(Open-ended)，例如实时翻译中，在还未得到句尾的情况下，必须实时对句子进行翻译；

2.主观评判性(Subjective)，很多模态转换问题的效果没有一个比较客观的评判标准，目标函数的确定非常主观。

技术方案：

对齐(Alignment) ：

从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系。

相关任务：
给定一张图片和图片的描述，找到图中的某个区域以及这个区域在描述中对应的表述。给定一个美食制作视频和对应的菜谱，实现菜谱中的步骤描述与视频分段的对应。

例如下图中的 Temporal sequence alignment，将一组动作对应的视频流同骨骼图片对齐。

类似的还有电影画面-语音-字幕的自动对齐，对于空间维度上的，比如图像语义分割(Image Semantic Segmentation)，将每个像素对应到某一类型标签，实现视觉-词汇对齐。

方向：
对齐分为两类：显式对齐和隐式对齐。显式对齐即应用的主要任务就是对齐，而隐式对齐是指应用在完成主要任务时需要用到对齐的技术。

显式对齐的技术方法主要分为：无监督方法 Unsupervised，(弱)监督方法 (Weakly)Supervised。

隐式对齐的技术方法主要分为：图模型 Graphical models，神经网络 Neural networks。

难点：
很少有显式对齐标注的数据集；2. 很难建模不同模态之间相似度计算；3.存在多个可能的对齐方案并且不是一个模态的所有元素在另一个模态中都存在对应。

相关方案：

融合(Fusion) ：

多模态融合指从多个模态信息中整合信息来完成分类或回归任务，不过在深度神经网络方法下，融合和表征这两个方向是很难区分的。多模态融合是目前应用最广的方向，存在其他常见的别名，例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)等。

按照融合的层次，可以将多模态融合分为 pixel level，feature level (early)和 decision level (late)
三类，分别对应对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。

按照融合的类型又可分为：
(a)数据级别融合；（b）判定级别融合；(c)组合融合

常见的机器学习方法都可以应用于多模态融合

相关任务：
视觉-音频识别(Visual-Audio Recognition) ：综合源自同一个实例的视频信息和音频信息，进行识别工作。

手机身份认证(Mobile Identity Authentication) ：综合利用手机的多传感器信息，认证手机使用者是否是注册用户。

难点：
1.信号可能并不是时序对齐的（temporally aligned）。很可能是密集的连续信号和稀疏的事件（比如一大段视频只对应一个词，然后整个视频只对应稀少的几个词）；
2.每一个模态在不同的时间点可能表现出不同的形式和不同等级的噪声。

技术方案：

协同学习(Co-learning):

协同学习是指通过利用资源丰富（比如数据量大）的模态的知识来辅助资源稀缺（比如较小数据）的模态建立模型。根据训练资源（数据）形式可以将协同学习进行如下划分：

parallel：Co-training, Transfer learning
non-parallel：Transfer learning, Concept grounding, Zero-shot learning
hybrid：Bridging

其中，常用的迁移学习(Transfer Learning) 也属于协同学习的范畴，例如将 ImageNet 数据集上学习到的权重，在自己的目标数据集上进行微调。

协同训练(Co-training)
则负责研究如何在多模态数据中将少量的标注进行扩充，得到更多的标注信息。

相关方案：

多模态在内容理解的应用

描述类任务（表示，转换，对齐，融合）

视频描述

Predicting Visual Features from Text for Image and Video Caption Retrieval：输入原始图像，图像标题和众多描述图像的句子，将它们映射到隐空间并合成视频描述。

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning：输入原始视频和视频的文字索引来进行视频描述工作。

Multimodal Dual Attention Memory for Video Story Question Answering：这是一个 VQA 任务，把原始视频，视频的描述和问题输入最终得到答案。

Dual-Stream Recurrent Neural Network for Video Captioning:
将原始的视频和静态的图像（用来描述视频）一起输入，得到对视频的描述。

医疗问答

Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:简单把图像和问题输入得到答案。

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence：把 VQA 框架用于关于健康问题的问答。

分析类任务（表征，融合）

视频分类

分类框架：

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:
这是一个较为通用的多模态视频分类任务网络，将特征组合成矩阵，采用 outer-product 计算任意组合的乘积，为避免外积太长，用滑动窗对自向量求外积。

视频分类：

Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 将视频和代表性的音频文件一起输入进行视频分类。

图1:工作1框架图

Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition：将视频，代表性图片，farneback 流和音频信息一起输入，对视频进行分类。

图2:工作2框架图

Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 将空间视频、运动视频、音频和原视频一起输入，得到结果。

图3:工作3框架图

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同样还是将图像、视频和音频异构信息一起输入，得到视频分类的结果。

图4:工作4框架图

文本分类：

下面几篇虽然用于的文本理解任务不同，但是其实网络结构都可以用于文本分类

讽刺检测：

Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model：对在融合是考虑每个模块的 low-level
feature，而不是直接采用全局特征。模态间的 local feature 用 concat 连接，同一模态的 local feature 采用加权和，最终融合时各模态特征同样采用加权和。

情感分类：

Contextual Inter-modal Attention for Multi-modal Sentiment Analysis：将文字，视频和声音输入来对人的情感进行分类。

图1:工作1框架图

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling：将图像、标题和文字放入模型进行情感分类。

图2:工作2框架图

假新闻识别

Exploiting Multi-domain Visual Information for Fake News Detection：将图像和对图像词频的统计输入来进行假新闻分类。

图1:工作1框架图

EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:将图像和文字输入来对假新闻进行检测。

图2:工作2框架图

A Deep Learning Approach for Multimodal Deception Detection：将视频、音频、文字和高频词放入模型进行假新闻识别。

图3:工作3框架图

图像/视频质量评价

A deep learning framework for quality assessment and restoration in video endoscopy:将视频和视频检测结果输入来进行质量评价。

图1:工作1框架图

片段重要性评分

Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos:将视频和提出的问题输入而后定位和问题相关的片段。

图1:工作1框架图

Give ear to my face: modelling multimodal attention to social interactions:将视频和音频信息一起输入来定位视频相关的位置。

图2:工作2框架图

Overview of ImageCLEFlifelog 2019: Solve My Life Puzzle and Lifelog Moment Retrieval:根据文字信息来定位视频中相关片段的比赛。

图3:工作3框架图

标题党检测

SWDE: A Sub-Word And Document Embedding Based Engine for Clickbait Detection:将文章标题和内容片段输入来分类是否是标题党。

图1:工作1框架图

Characterizing Clickbaits on Instagram:将图像、标题和文字描述输入模型来分类是否是标题党。

图2:工作2框架图

社交网络的实体匹配

Multimodal Learning of Social Image Representation by Exploiting Social Relations:运用图像和相关文字注释对个体进行分类分组。

图1:工作1框架图

From content to links: Social image embedding with deep multimodal model：跟上一篇文章类似，也是利用相关图像和文字进行社交群体分类。

图2:工作2框架图

检索类任务（表示，转换，对齐，融合）

1 .Deep Multimodal Learning for Affective Analysis and Retrieval: 作者采用深度波尔茨曼机来做多模态的联合表征。

事实上该框架得到的多模态表征后续可用于视频排重等任务。

2.ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks ：
作者提出了修改的 Bert 框架，联合了文本和图片特征 co-attention 来获得多模态描述特征，进行下一步的 VQA 等任务。

//合成类任务（表示，转换，对齐，融合）内容生成类任务暂不涉及

开源协同

内容理解能力成熟度

(1)初始级(initial):
针对具体的业务问题，具体开发人员，选择合理成熟模型进行开发。效果依赖训练样本的质量。

(2)可重复级(Repeatable):
有约定的流程制度。初步实现标准化，新业务场景的开发可以使用过去的团队实的践经验，具有重复以前特征算法的环境和条件。任务中开始尝试引入更多的内容特征，进行不同模型直接实验对比工作。对模型的工作特性，badcase 的边界有不断的掌握。

(3)已定义级(Defined):
开发过程实现标准化、文档化，有沉淀。有完善的经验制度和评审制度，模型和工程开发遵循团队流程。针对任务有大家统一具有共识的原型模型处理方式，并且在不同内容领域进行问题的针对性建模，获得可复用的经验。数据集有良好规范的沉淀。

(4)已管理级(Managed):
业务任务可以充分的进行特征和模型实验，综合得到多个技术评价指标，业务评价指标。构建团队统一的内容理解模型框架。建立了完善的算法工程体系（样本标注管理，内容实验，模型自动化训练升级）。

(5)优化级(Optimizing):
已可集中精力改进模型，针对业务场景优化。引入新算法、新工程架构。可取得过程有效性的统计数据，并可据进行分析挖掘，从而得出最佳 state-of-the-art 方法。

内容理解场景的问题，伴随业务自身需求特点。具有特征多源，多目标且目标之间有逻辑关联，定义边界主观等特点。早期的解决方式是针对业务问题收集样本测试单一模型，中期开始测试更多特征模型组合(2),后期开始完善算法工程 workflow 积累沉淀(4)，每个业务任务都经历这个流程，能否快速降低问题解决成本。当前存在任务之间技术较少联动复用与任务之前特征模型客观算法上高度关联的矛盾。因此进行新任务，新问题研究时需要重复整个流程，效率低；还不能充分受益于公司兄弟团队已有的经验资源。新的内容业务团队没有足够的算法人员想要解决实际业务场景想要从初始级开始。

方案简述

通过对上诉论文的多模态网络结构分析，我们希望设计具有领域通用性、可扩展、可编程结构的多模态内容理解框架。该框架能统一把当前各类多模态内容理解模型放在一个可编程的架构下进行构建分析。框架包括以下必备的组件：

（1）数据和特征表征模块：多源图像、文本、视频，语音的特征表示模块。支持通用的特征提取算法；特定 CV、NLP、Audio 任务提取模型；图表示学习方法等算法模型对各个模态单独和联合特征表示。支持可编程接口进行选择。

（2）特征融合对齐模块：针对各模态数据特征，支持适用于内容理解的融合算法，如特定模态算法提取的向量特征；显式属性值特征；外部编码特征之间的融合对齐。支持多种编码表示。特征之间可选择不同的方式进行融合，或选择不同阶段进行融合。

（3）任务决策模块：通过分析论文中多模态学习的目标优化方案，对目标决策方法进行抽象。做到可编程的支持多类损失函数；各类梯度下降算法；多种集成学习技术；支持转化和对齐的多模态学习任务（如通过对抗性损失函数解耦表征，反向优化特征，分离出内容结构特征和内容语义特征）。

（4）功能性模块：采用自动机器学习：神经网络架构搜索，参数量化压缩等技术对框架学习能力进行优化。使其更好的面向内容理解任务，提高训练运行效率，支持（1）（2）（3）层之间的各种自动化组合方式实验。

通过一个框架体系和编程接口构建多模态学习模型。对多模态学习的各个研究方向进行抽象，支持不同方向独立和联合的进行优化，支持多任务联合学习。通过集成神经网络架构搜索，模型压缩，实验框架等功能将其做成一个完整的开源产品来打磨，把模块结构优化和算法模型改进紧密结合，方案具有较强的技术先进性。

图 1:可扩展通用多模态内容理解框架图

图 2:框架在视频分类任务中尝试不同特征融合实验

意义价值

通过合理的多模态内容理解框架设计，抽象多模态学习各个研究任务成为独立的系统模块，模块之间的交互符合软件工程模块化设计的思想。框架本身支持常见的文本、图片、语音、视频等特征描述，支持多种表征、对齐、融合方式的选择，支持针对目标任务的各个层次实验，支持自定义接口形式扩展。

将参与团队&个人积累的内容模型经验进行沉淀，通过开源项目创造可伸缩可扩展可实验的内容理解内核，不断尝试新特征，新模型框架如何在业务场景有效。对于新业务，新内容理解的场景，可以通过该微内核快速完成过去重复积累建设工作，更快进入业务实际挑战的攻坚。

参考文献：

[1] Baltrusaitis T , Ahuja C , Morency L P . Multimodal Machine Learning: A Survey and Taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018:1-1.
[2] Wu M， Goodman N. Multimodal generative models for scalable weakly-supervised learning[C]//Advances in Neural Information Processing Systems. 2018: 5575-5585.
[3] Krishnamurthy G， Majumder N， Poria S， et al. A deep learning approach for multimodal deception detection[J]. arXiv preprint arXiv:1803.00344， 2018.
[4] Song G， Wang S， Huang Q， et al. Harmonized Multimodal Learning with Gaussian Process Latent Variable Models[J]. IEEE transactions on pattern analysis and machine intelligence， 2019.
[5] Huang P Y， Chang X， Hauptmann A. Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations[J]. arXiv preprint arXiv:1910.00058， 2019.
[6] Wu M， Goodman N. Multimodal generative models for scalable weakly-supervised learning[C]//Advances in Neural Information Processing Systems. 2018: 5575-5585.
[7] HUK PARK D， ANNE HENDRICKS L， AKATA Z， et al. Multimodal explanations: Justifying decisions and pointing to the evidence; proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，
F， 2018 [C].
[8] Wang X， Wang Y F， Wang W Y. Watch， listen， and describe: Globally and locally aligned cross-modal attentions for video captioning[J]. arXiv preprint arXiv:1804.05448， 2018.
[9] Kim K M， Choi S H， Kim J H， et al. Multimodal dual attention memory for video story question answering[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 673-688.
[10] Xu N， Liu A A， Wong Y， et al. Dual-stream recurrent neural network for video captioning[J]. IEEE Transactions on Circuits and Systems for Video Technology， 2018.
[11] Dong J， Li X， Snoek C G M. Predicting visual features from text for image and video caption retrieval[J]. IEEE Transactions on Multimedia， 2018， 20(12):3377-3388.
[12] WANG X， WANG Y-F， WANG W Y. Watch， listen， and describe: Globally and locally aligned cross-modal attentions for video captioning [J]. arXiv preprint arXiv:180405448， 2018.
[13] KIM K-M， CHOI S-H， KIM J-H， et al. Multimodal dual attention memory for video story question answering; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].
[14] XU N， LIU A-A， WONG Y， et al. Dual-stream recurrent neural network for video captioning [J]. IEEE Transactions on Circuits and Systems for Video Technology， 2018.
[15] LIU J， YUAN Z， WANG C. Towards good practices for multi-modal fusion in large-scale video classification; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].
[16] HE D， LI F， ZHAO Q， et al. Exploiting spatial-temporal modelling and multi-modal fusion for human action recognition [J]. arXiv preprint arXiv:180610319， 2018.
[17] JIANG Y-G， WU Z， TANG J， et al. Modeling multimodal clues in a hybrid deep learning framework for video classification [J]. IEEE Transactions on Multimedia， 2018， 20(11): 3137-47.
[18] LONG X， GAN C， DE MELO G， et al. Attention clusters: Purely attention based local feature integration for video classification; proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，F， 2018 [C].
[19] GHOSAL D， AKHTAR M S， CHAUHAN D， et al. Contextual inter-modal attention for multi-modal sentiment analysis; proceedings of the Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing， F， 2018 [C].
[20] MAJUMDER N， HAZARIKA D， GELBUKH A， et al. Multimodal sentiment analysis using hierarchical fusion with context modeling [J]. Knowledge-Based Systems，2018， 161(124-33.
[21] QI P， CAO J， YANG T， et al. Exploiting Multi-domain Visual Information for Fake News Detection [J]. arXiv preprint arXiv:190804472， 2019.
[22] WANG Y， MA F， JIN Z， et al. Eann: Event adversarial neural networks for multi-modal fake news detection; proceedings of the Proceedings of the 24th acm sigkdd international conference on knowledge discovery & data mining， F， 2018 [C]. ACM.
[23] KRISHNAMURTHY G， MAJUMDER N， PORIA S， et al. A deep learning approach for multimodal deception detection [J]. arXiv preprint arXiv:180300344， 2018.
[24] ALI S， ZHOU F， BAILEY A， et al. A deep learning framework for quality assessment and restoration in video endoscopy [J]. arXiv preprint arXiv:190407073， 2019.
[25] ZHANG Z， LIN Z， ZHAO Z， et al. Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos [J]. arXiv preprint arXiv:190602497，2019.
[26] BOCCIGNONE G， CUCULO V， D'AMELIO A， et al. Give ear to my face: modelling multimodal attention to social interactions; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].
[27] DANG-NGUYEN D-T， PIRAS L， RIEGLER M， et al. Overview of ImageCLEFlifelog 2019: solve my life puzzle and lifelog moment retrieval; proceedings of the CLEF2019 Working Notes CEUR Workshop Proceedings， F， 2019 [C].
[28] KUMAR V， DHAR M， KHATTAR D， et al. SWDE: A Sub-Word And Document Embedding Based Engine for Clickbait Detection [J]. arXiv preprint arXiv:180800957， 2018.
[29] HA Y， KIM J， WON D， et al. Characterizing clickbaits on instagram; proceedings of the Twelfth International AAAI Conference on Web and Social Media， F， 2018 [C].
[30] HUANG F， ZHANG X， XU J， et al. Multimodal Learning of Social Image Representation by Exploiting Social Relations [J]. IEEE transactions on cybernetics， 2019.
[31] HUANG F， ZHANG X， LI Z， et al. From content to links: Social image embedding with deep multimodal model [J]. Knowledge-Based Systems， 2018，160(251-64.
[32] VU M， SZNITMAN R， NYHOLM T， et al. Ensemble of streamlined bilinear visual question answering models for the imageclef 2019 challenge in the medical domain [J]. Working Notes of CLEF， 2019.

技术背景

技术方向

相关任务