当前位置: 首页 > 学术动态 > 正文

通过划分来解析表达:多模态感知数据的表示学习框架

【来源:通过划分来解析表达:多模态感知数据的表示学习框架 | 发布日期:2022-10-04 】

通过划分来解析表达:多模态感知数据的表示学习框架

W.Hsu, and J. Glass, “Disentangling by Partitioning: A Representation Learning Framework for Multimodal Sensory Data,” arXiv preprint arXiv:1805.11264.

摘要:多模态感知数据是一种类似于人类感知学习的信息形式,并且易于大量获取。与单模态数据相比,这些数据中的模态之间包含的概念同步提供了用于解开每种模态的潜在解释因素的监督信息。以前利用多模态数据的工作主要集中在保留模态不变因素而忽略其余因素。在本文中,本文提出了一个分离变分自动编码器和几个训练目标函数来学习分解的表征,它们不仅将共享因素编码,而且将模态依赖因素也编码,将它们表征为单独的潜在变量。具体而言,分离变分自动编码器集成了变分推理框架和多模态生成模型,该模型将解释因素分离开,条件地划分为它们的相关子集以用于生成。我们在两个平行的语音/图像数据集上评估我们的模型,并通过定性探索内部模态和跨模态条件生成来证明其学习分解表征的能力,其中语义和样式由示例指定。对于定量分析,我们评估自动发现的语义单位的分类准确性。我们的分离变分自动编码器可以在两种模式下实现99%以上的准确度。

一、 研究背景

要建立像人类一样学习和思考的人工智能,人们需要设计一种能够理解世界的机器。这种理解只能通过学习从观察到的低级感官数据中识别和分解潜在的解释性因素来实现,例如,来自语音的单词和说话者身份。该过程也称为表征学习,是机器学习中的基本问题之一。除了认知科学家的兴趣之外,可解释和解开的表征也被证明在各种任务中都很有用,例如零样本学习,异常点检测和转移学习,这些人类擅长和但是监督模型学习却很难完成的任务。

变分自动编码器通过结合神经网络和概率生成模型为学习表征提供了一个通用而强大的框架:变量之间的因果关系由概率图模型表达,复杂的非线性条件指定关系由神经网络来表征。在这种情况下,学习对应于拟合模型参数,使得观察到的数据集的可能性最大化,表征指的是数据的潜在变量的推断值。该框架在直接从原始感官数据表征方面取得了巨大成功,包括图像,语音和视频。

二、 研究现状

多模态数据的学习表征近年来引起了人们的极大兴趣。许多工作采用了文本,语音,音频,图像或视频的某种组合,旨在从组合中学习模态不变的语义表征。例如,[1]中的作者提出了一个框架,用于学习通常由图像和并行语音标题描述的概念,但忽略了说话者信息和图像样式信息。尽管这样的表征对于某些任务(例如模式识别或基于语义的检索)可能是有用的,但是它们不能应用于要求以单一模态出现的信息的许多其他任务,例如图像生成或说话者验证。相比之下,我们提供了一个统一的PVAE框架,用于学习模态不变的语义信息以及依赖于模态的因素。

最近有许多关于使用变分自动编码器学习解缠结表征的研究,其中不同的潜在变量集对不同解释因素的变化敏感,而对其他因素没有影响。一个研究方向采用简单的图形模型,该模型仅包含单个多维潜变量,旨在进行尺寸方向解开,将每个维度与不同的解释因素联系起来[2]。通常通过鼓励表征分布是因素来实现解缠结。然而,但是由于潜在变量的维度之间的可交换性,只有通过手动检查所生成的样本中的包含信息对应的物理意义,所以这种表征是不可解释的。

另一项研究重点是变量解缠结,它将数据的不同方面编码为单独的潜在变量[3]。这些方法通过设计具有潜在变量之间固定因果关系的图形模型,结合了关于数据生成过程的先验知识。因此,无需人工检查即可解释通过此类方法学习的表征。设计这种图形模型的一个常见技巧是将一个潜在变量与多个观察变量的生成联系起来,使得该潜在变量将编码所关联的观察变量的辅因素。我们的分离变分自动编码器模型与神经统计学家[3]和因素分层变分自动编码器[4]从这个角度共享相同的视图,其中我们将一个潜在变量与样本中的不同模态联系起来,而不是与一个数据集中的实例相关联,或序列中的段相关联。

我们的工作还涉及联合多模态变分自动编码器[5],它从多模态数据中学习表征,并允许从一种模态到另一种模态的双向生成。作者假设所有模态的生成过程都涉及相同的解释因素集,并且每种模态的生成都以相同的潜在变量为条件。因此,从联合多模态变分自动编码器获得的陈述并未被解开。此外,联合多模态变分自动编码器中考虑的模态是图像及其属性标签,具有从前者到后者的相对确定的映射。