Representation Learning with Contrastive Predictive Coding

欢乐狗 · 2025-3-21 07:46:14

Aaron van den Oord DeepMind avdnoord@google.com
Yazhe Li DeepMind yazhe@google.com
Oriol Vinyals DeepMind vinyals@google.com
摘要
只管监督学习在许多应用中取得了巨大希望，但无监督学习尚未得到如此广泛的应用，仍然是人工智能范畴一个重要的挑战。本文提出了一种通用的无监督学习方法，用于从高维数据中提取有效的表现，我们将其称为对比预测编码（Contrastive Predictive Coding）。该模型的焦点思想是通过使用强大的自回归模型在潜伏空间中预测未来信息来学习这些表现。我们接纳概率对比损失函数，促使潜伏空间捕获对未来样本预测最有效的信息。此外，通过使用负样本采样，使模型变得可行。只管以往的大多数工作都专注于评估特定模态的表现，但我们证明，我们的方法可以或许在四个差别的范畴（语音、图像、文本和三维环境中的强化学习）中学习有效的表现，而且体现强劲。

1 引言

通太过层可微模型以端到端的方式从标记数据中学习高级表现，是人工智能范畴迄今为止最大的成功之一。这些技术使手动指定的特征变得大多多余，并在几个现实世界的应用中极大地提升了最先进的程度 [1, 2, 3]（[1] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. [2] Geoffrey Hinton, Li Deng, Dong Yu, George E Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N Sainath, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. [3] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks）。然而，仍有许多挑战存在，例如数据服从、鲁棒性或泛化能力。
改进表现学习需要那些不专门用于解决单一监督使命的特征。例如，在对模型举行图像分类的预训练时，诱导出的特征可以公道地迁徙到其他图像分类范畴，但也会缺少某些与分类无关但与图像形貌相关的信息，例如颜色或计数能力 [4]（[4] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator）。同样，用于转录人类语音的特征大概不太适合于语言人识别或音乐类型预测。因此，无监督学习是实现鲁棒且通用的表现学习的一个重要步骤。
只管无监督学习非常重要，但尚未实现与监督学习类似的突破：从原始观测中建模高级表现仍然是一个难以捉摸的目标。此外，抱负表现并不总是清晰的，也不清晰是否可以在没有额外监督或专门针对特定数据模态的环境下学习这样的表现。
无监督学习最常用的策略之一是预测未来的、缺失的或上下文信息。预测编码的概念 [5, 6]（[5] Peter Elias. Predictive coding–i. [6] Bishnu S Atal and Manfred R Schroeder. Adaptive predictive coding of speech signals）是信号处置惩罚中用于数据压缩的最古老技术之一。在神经科学中，预测编码理论表明大脑在差别抽象条理上预测观测效果 [7, 8]（[7] Rajesh PN Rao and Dana H Ballard. Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. [8] Karl Friston. A theory of cortical responses）。最近在无监督学习中的工作成功地利用这些想法通过预测邻近词汇来学习词汇表现 [9]（[9] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space）。对于图像，通过从灰度图像预测颜色或图像块的相对位置也被证明是有效的 [10, 11]（[10] Richard Zhang, Phillip Isola, and Alexei A Efros. Colorful image colorization. [11] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsupervised visual representation learning by context prediction）。我们假设这些方法之所以有效，部分是由于我们从中预测相关值的上下文通常条件依赖于雷同的共享高级潜伏信息。通过将这视为一个预测问题，我们自动推断出表现学习感爱好的特征。
本文提出以下内容：首先，我们将高维数据压缩到一个更紧凑的潜伏嵌入空间中，在这个空间中条件预测更容易建模。其次，我们在这个潜伏空间中使用强大的自回归模型举行多步未来的预测。最后，我们依赖于噪声对比估计 [12]（[12] Michael Gutmann and Aapo Hyvärinen. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models）作为损失函数，类似于在天然语言模型中用于学习词嵌入的方式，从而允许整个模型以端到端的方式举行训练。我们将得到的模型——对比预测编码（CPC）应用于图像、语音、天然语言和强化学习等截然差别的数据模态，并证明雷同的机制在这些范畴中都学会了有趣的高级信息，超越了其他方法。
2 对比预测编码

本节首先论述我们方法的动机和直觉。接下来，介绍对比预测编码（CPC）的架构。之后，解释基于噪声对比估计的损失函数。最后，讨论与 CPC 相关的工作。
2.1 动机与直觉
我们模型的主要直觉是学习编码（高维）信号差别部分之间共享的底层信息的表现。同时，它抛弃更局部的低级信息和噪声。在时间序列和高维建模中，利用信号的局部平滑性的下一步预测方法，共享信息量变得很低，模型需要推断出更多的全局布局。这些跨越多个时间步的“慢特征” [13]（[13] Laurenz Wiskott and Terrence J Sejnowski. Slow feature analysis: Unsupervised learning of invariances）通常更有趣（例如，语音中的音素和语调、图像中的物体或书籍中的故事情节）。
预测高维数据的一个挑战是，均方误差和交叉熵等单模态损失函数并不十分有效，而需要重建数据中每一个细节的强大条件生成模型通常盘算量很大，而且在建模数据 x 中的复杂关系时浪费容量，经常忽略了上下文 c。例如，图像大概包含数千比特的信息，而高级潜伏变量（如类别标签）包含的信息要少得多（对于 1,024 个类别来说是 10 比特）。这表明直接建模

对于提取 x 和 c 之间的共享信息的目标来说大概不是最优的。当我们预测未来信息时，我们反而将目标 x（未来）和上下文 c（现在）编码到一个紧凑的分布式向量表现中（通过非线性学习映射），以最大程度地保存原始信号 x 和 c 的互信息，界说为

通过最大化编码表现之间的互信息（这受到输入信号之间互信息的限制），我们提取输入所共有的潜伏变量。
2.2 对比预测编码

图 1 展示了对比预测编码模型的架构。首先，非线性编码器

将输入观测序列 xt 映射到潜伏表现序列

，大概具有较低的时间分辨率。接下来，自回归模型

在潜伏空间中汇总全部

，并产生上下文潜伏表现

。
正如前一节所讨论的，我们不直接使用生成模型

预测未来的观测 xt+k。相反，我们建模一个密度比，以保存 xt+k 和 ct 之间的互信息（方程 1），如下（下小节提供更多细节）：

此中，∝ 表现“与……成比例”（即，乘以一个常数）。注意，密度比 f 可以是非归一化的（不必积分到 1）。只管这里可以使用任何正实数得分，我们接纳简朴的对数双线性模型：

在我们的实行中，使用线性变换

举行预测，每个步长 k 使用差别的

。当然，也可以使用非线性网络或循环神经网络。
通过使用密度比

并用编码器推断 zt+k，我们使模型免于建模高维分布 xt+k。只管我们不能直接评估 p(x) 或 p(x∣c)，但我们可以使用这些分布的样本，从而可以使用基于将目标值与随机采样的负值举行比力的技术，例如噪声对比估计 [12, 14, 15]（[12] Michael Gutmann and Aapo Hyvärinen. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. [14] Andriy Mnih and Yee Whye Teh. A fast and simple algorithm for training neural probabilistic language models. [15] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling）和重要性采样 [16]（[16] Yoshua Bengio and Jean-Sebastien Senecal. Adaptive importance sampling to accelerate training of a neural probabilistic language model）。
在所提出的模型中，zt 和 ct 均可作为下游使命的表现。如果额外的过去上下文有效，例如在语音识别中，zt 的感受野大概不足以捕获音素内容，则可以使用自回归模型的输出 ct。在其他环境下，如果不需要额外上下文，则 zt 大概更合适。如果下游使命需要整个序列的一个表现，例如在图像分类中，可以在全部位置对 zt 或 ct 的表现举行池化。
最后，需要注意的是，在所提出的框架中可以使用任何类型的编码器和自回归模型。为简便起见，我们选择了尺度架构，例如对于编码器使用带残差块的步长卷积层，对于自回归模型使用 GRU [17]（[17] Kyunghyun Cho, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation）。诸如掩码卷积架构 [18, 19]（[18] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative model for raw audio. [19] Aaron van den Oord, Nal Kalchbrenner, Oriol Vinyals, Lasse Espeholt, Alex Graves, and Koray Kavukcuoglu. Conditional image generation with pixelcnn decoders）或自注意力网络 [20]（[20] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need）等自回归建模的最新希望，大概会进一步提升效果。
2.3 InfoNCE 损失与互信息估计
编码器和自回归模型共同优化基于 NCE 的损失，我们将其称为 InfoNCE。给定一个包含 N 个随机样本的集合

，此中包含一个来自

的正样本和 N−1 个来自“提议 proposal ” 分布

的负样本，我们优化如下：

优化该损失将使

估计方程 2 中的密度比。可以这样证明：
方程 4 中的损失是正确分类正样本的分类交叉熵，此中

是模型的预测。我们用

表现该损失的最优概率，此中 [d=i] 表现样本 xi 是“正”样本的指示。样本 xi 是从条件分布

而不是提议分布

中抽取的概率可以推导如下：

正如我们所见，方程 4 中

的最优值与

成正比，且与负样本数量 N−1 的选择无关。只管训练时不需要，但我们可以如下评估变量 ct 和 xt+k 之间的互信息：

随着 N 的增大，该不等式变得越来越紧 tighter。同时，注意到最小化 InfoNCE 损失

最大化了互信息的一个下界。更多细节请参阅附录。
2.4 相关工作
CPC 是一种新方法，将预测未来观测（预测编码）与概率对比损失（方程 4）结合起来。这使我们可以或许提取跨越长时间范围的观测的互信息的最大化“慢特征”。对比损失函数和预测编码以往曾被单独使用过，现在我们来讨论。
过去许多作者都使用过对比损失函数。例如，[21, 22, 23]（[21] Sumit Chopra, Raia Hadsell, and Yann LeCun. Learning a similarity metric discriminatively, with application to face verification. [22] Kilian Q Weinberger and Lawrence K Saul. Distance metric learning for large margin nearest neighbor classification. [23] Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet: A unified embedding for face recognition and clustering）所提出的技术基于三元组损失，接纳最大隔断方法将正样本与负样本区分开来。更近期的工作包罗时间对比网络 [24]（[24] Pierre Sermanet, Corey Lynch, Jasmine Hsu, and Sergey Levine. Time-contrastive networks: Self-supervised learning from multi-view observation），该方法提出最小化来自同一场景多个视角的嵌入之间的间隔，同时最大化来自差别时刻的嵌入之间的间隔。在时间对比学习 [25]（[25] Aapo Hyvarinen and Hiroshi Morioka. Unsupervised feature extraction by time-contrastive learning and nonlinear ica）中，接纳对比损失函数预测多变量时间序列的段 ID，以此来提取特征并实行非线性独立身分分析。
在界说从相关观测中预测使命以提取有效表现方面，也已经开展了许多工作，此中许多已应用于语言范畴。在 Word2Vec [9]（[9] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space）中，使用对比损失函数预测邻近词汇。Skip-thought vectors [26]（[26] Ryan Kiros, Yukun Zhu, Ruslan R Salakhutdinov, Richard Zemel, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. Skip-thought vectors）和 Byte mLSTM [27]（[27] Alec Radford, Rafal Jozefowicz, and Ilya Sutskever. Learning to generate reviews and discovering sentiment）是替代方案，它们超越了使用循环神经网络举行词预测的范围，并对观测序列使用最大似然估计。在盘算机视觉范畴，[28]（[28] Xiaolong Wang and Abhinav Gupta. Unsupervised learning of visual representations using videos）在跟踪的视频块上使用三元组损失，使得同一物体在差别时刻的块相互之间的相似度高于随机块。[11, 29]（[11] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsupervised visual representation learning by context prediction. [29] Mehdi Noroozi and Paolo Favaro. Unsupervised learning of visual representations by solving jigsaw puzzles）提出预测图像中块的相对位置，而在 [10]（[10] Richard Zhang, Phillip Isola, and Alexei A Efros. Colorful image colorization）中，从灰度图像预测颜色值。
3 实行

我们在四个差别的应用范畴举行了基准测试：语音、图像、天然语言和强化学习。对于每个范畴，我们训练 CPC 模型，并通过线性分类使命或定性评估来探究所提取的表现包含的内容，在强化学习中，我们测量辅助 CPC 损失如何加速智能体的学习。
3.1 音频
对于音频，我们使用公开可用的 LibriSpeech 数据集 [30]（[30] Vassil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur. Librispeech: an asr corpus based on public domain audio books）的一个 100 小时子集。只管该数据集除了原始文本外没有提供其他标签，但我们使用 Kaldi 工具包 [31]（[31] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget, Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motlicek, Yanmin Qian, Petr Schwarz, et al. The kaldi speech recognition toolkit）和预训练的 Librispeech 模型得到了强制对齐的音素序列。我们已将对齐的音素标签和我们的训练 / 测试分割在 Google Drive [2] 上提供下载。该数据集包含来自 251 位差别语言者的语音。
在我们的实行中所使用的编码器架构 genc 包含一个步长卷积神经网络，该网络直接作用于 16kHz 的 PCM 音频波形。我们使用五个卷积层，步长分别为 [5,4,2,2,2]，滤波器大小分别为 [10,8,4,4,4]，以及带有 ReLU 激活的 512 个隐藏单元。网络的总下采样因子为 160，因此每 10ms 的语音就有一个特征向量，这也是使用 Kaldi 得到的音素序列标签的速率。然后，我们使用带有 256 维隐藏状态的 GRU RNN [17] 作为模型的自回归部分 gar。GRU 在每个时间步的输出被用作上下文 c，从中我们使用对比损失预测未来的 12 个时间步。我们在长度为 20480 的采样音频窗口上举行训练。我们使用 Adam 优化器 [32]（[32] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization），学习率为 2×10−4，并使用 8 个 GPU，每个 GPU 的小批量为 8 个样本，这些样本用于对比损失中的负样本采样。模型训练直至收敛，约莫在 300,000 次更新时发生。
图 3 展示了模型预测未来潜伏变量的准确率，从 1 到 20 个时间步。我们陈诉了在概率对比损失中正样本的 logit 高于负样本的平均次数。该图还表明，该目标既非微不足道，也非不大概实现，正如预期的那样，随着目标间隔的增加，预测使命变得更加困难。

为了明确 CPC 提取的表现，我们使用线性分类器在这些特征之上训练，以权衡电话预测性能，这表明在这些特征下相关类别线性可分的程度。我们在模型收敛后提取整个数据集的 GRU 输出（256 维），即 ct，并训练一个多类线性逻辑回归分类器。效果如表 1（上）所示。我们将其准确性与三个基线举行比力：来自随机初始化模型的表现（即，genc 和 gar 未颠末训练）、MFCC 特征以及一个端到端使用标记数据训练的模型。这两个模型具有与用于提取 CPC 表现雷同的架构。完全监督的模型表明了使用该架构可以实现的程度。我们还发现，并非全部编码的信息都可以线性获取。当我们使用单隐藏层时，准确性从 64.6 提高到 72.5，更靠近完全监督模型的准确性。

表 2 概述了针对电话分类的 CPC 的两个消融研究。在第一组中，我们改变模型预测的步数，表明预测多步对于学习有效的特征很重要。在第二组中，我们比力了差别的负样本采样策略，全部策略均预测 12 步（在第一次消融中给出了最佳效果）。在混合语言者实行中，负样本包含差别语言者的样本（第一行），与同语言者实行（第二行）形成对比。在第三和第四实行中，我们排除当前序列以采样负样本（因此，X 中只有其他样本），在最后一个实行中，我们仅在序列内采样负样本（因此，全部样本均来自同一语言者）。
除了电话分类之外，表 1（下）显示了使用雷同的表现举行语言者身份识别（251 位语言者中）的准确性，使用线性分类器举行识别（我们不对时间上的发音举行平均）。

有趣的是，CPC 捕获了语言者身份和语音内容，如简朴的线性分类器所得到的良好准确性所示，这也靠近于完全监督网络的程度。此外，图 2 展示了一个 t-SNE 可视化 [33]（[33] Laurens van der Maaten and Geoffrey Hinton. Visualizing data using t-sne），表明嵌入对于语言者声音特征的区分性。需要注意的是，窗口大小（GRU 的最大上下文大小）对性能有很大影响，更长的段将给出更好的效果。我们的模型最多可以处置惩罚 20480 个时间步，这略长于一秒。

3.2 视觉
在我们的视觉表现实行中，我们使用了 ILSVRC ImageNet 比赛数据集 [34]（[34] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. ImageNet Large Scale Visual Recognition Challenge）。许多作者 [28, 11, 35, 10, 29, 36]（[28] Xiaolong Wang and Ab
nav Gupta. Unsupervised learning of visual representations using videos. [11] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsupervised visual representation learning by context prediction. [35] Jeff Donahue, Philipp Krähenbühl, and Trevor Darrell. Adversarial feature learning. [36] Carl Doersch and Andrew Zisserman. Multi-task self-supervised visual learning）已使用 ImageNet 数据集来评估无监督视觉模型。我们遵循与 [36] 雷同的设置，并使用 ResNet v2 101 架构 [37]（[37] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks）作为图像编码器 genc 来提取 CPC 表现（请注意，此编码器未举行预训练）。我们没有使用批量归一化 [38]（[38] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift）。在无监督训练后，训练一个线性层以测量在 ImageNet 标签上的分类准确率。训练过程如下：从 256x256 的图像中，我们提取一个 7x7 的 64x64 裁剪网格，每个裁剪之间有 32 像素的重叠。简朴的数据增强在 256x256 图像和 64x64 裁剪上都证明是有帮助的。256x256 的图像从 300x300 的图像中随机裁剪，以 50% 的概率程度翻转，并转换为灰度图像。对于每个 64x64 的裁剪，我们随机取一个 60x60 的子裁剪，并将其填充回 64x64 的图像。然后，每个裁剪通过 ResNet-v2-101 编码器举行编码。我们使用第三残差块的输出，并举行空间平均池化，以得到每个 64x64 块的单个 1024 维向量。这产生了一个 7x7x1024 的张量。接下来，我们使用类似 PixelCNN 的自回归模型 [19]（[19] Aaron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Conditional image generation with pixelcnn decoders）（卷积行 GRU PixelRNN [39]（[39] Aaron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks）给出了类似的效果）来预测 7x7 网格中接下来的行的潜伏激活，从上到下举行预测，如图 4 所示。

我们预测多达 5 行，并对每一行中的每个块应用对比损失。我们使用 Adam 优化器，学习率为 2×10−4，并在 32 个 GPU 上举行训练，每个 GPU 的批量大小为 16。对于在 CPC 特征之上训练的线性分类器，我们使用动量为 0.9 的 SGD，学习率计划为 0.1、0.01 和 0.001，分别对应 50k、25k 和 10k 次更新，单个 GPU 上的批量大小为 2048。请注意，在训练线性分类器时，我们首先将 7x7x1024 的表现举行空间平均池化，得到一个 1024 维的向量。这与 [36] 略有差别，[36] 使用 3x3x1024 的表现而不举行池化，因此在监督线性映射中有更多的参数（这大概是一个优势）。
表 3 和表 4 显示了与最新技术相比的 top-1 和 top-5 分类准确率。只管 CPC 相对通用，但在 top-1 准确率上比最新技术提高了 9% 的绝对值，在 top-5 准确率上提高了 4% 的绝对值。

3.3 天然语言
我们的天然语言实行紧密遵循 [26] 中用于 skip-thought vectors 模型的程序。我们首先在 BookCorpus 数据集 [42]（[42] Yukun Zhu, Ryan Kiros, Rich Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books）上学习我们的无监督模型，并通过使用 CPC 表现举行一系列分类使命来评估模型作为通用特征提取器的能力。为了处置惩罚训练期间未见过的词汇，我们接纳与 [26] 雷同的词汇扩展方法，在 word2vec 和模型学习的词嵌入之间构建线性映射。对于分类使命，我们使用了以下数据集：影戏评论情感（MR）[43]（[43] Bo Pang and Lillian Lee. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales）、客户产品评论（CR）[44]（[44] Minqing Hu and Bing Liu. Mining and summarizing customer reviews）、主观性 / 客观性 [45]（[45] Bo Pang and Lillian Lee. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts）、观点极性（MPQA）[46]（[46] Janyce Wiebe, Theresa Wilson, and Claire Cardie. Annotating expressions of opinions and emotions in language）和问题类型分类（TREC）[47]（[47] Xin Li and Dan Roth. Learning question classifiers）。与 [26] 一样，我们训练逻辑回归分类器，并对 MR、CR、Subj、MPQA 举行 10 折交叉验证评估，对 TREC 使用训练 / 测试分割。通过交叉验证选择 L2 正则化权重（因此对于前 4 个数据集举行嵌套交叉验证）。我们的模型由一个简朴的句子编码器 genc（一维卷积 + ReLU + 平均池化）组成，将整个句子嵌入到一个 2400 维向量 z 中，然后是一个 GRU（2400 个隐藏单元），它使用对比损失预测多达 3 个未来的句子嵌入以形成 c。我们使用 Adam 优化器，学习率为 2×10−4，在 8 个 GPU 上举行训练，每个 GPU 的批量大小为 64。我们发现更高级的句子编码器并没有显著提高效果，这大概是由于转移使命的简朴性（例如，在 MPQA 中，大多数数据点由一个或几个词组成），以及事实证明，词袋模型在许多 NLP 使命中通常体现良好 [48]（[48] Sida Wang and Christopher D. Manning. Baselines and bigrams: Simple, good sentiment and topic classification）。表 5 显示了评估使命的效果，我们将我们的模型与其他使用雷同数据集的模型举行了比力。我们的方法的性能与 skip-thought vectors 模型非常相似，但优势在于它不需要强大的 LSTM 作为词级解码器，因此训练速度要快得多。只管这是一个尺度的转移学习基准，但我们发现，在儿童书籍中学习到更好关系的模型并不肯定在目标使命（如影戏评论等）上体现更好。我们注意到，通过从差别的源使命举行转移学习，已经在这些目标数据集上发布了更好的效果 [49, 27]（[49] Han Zhao, Zhengdong Lu, and Pascal Poupart. Self-adaptive hierarchical sentence model. [27] Alec Radford, Rafal Jozefowicz, and Ilya Sutskever. Learning to generate reviews and discovering sentiment）。
3.4 强化学习
最后，我们在 DeepMind Lab [51]（[51] Charles Beattie, Joel Z Leibo, Denis Teplyashin, Tom Ward, Marcus Wainwright, Heinrich Küttler, Andrew Lefrancq, Simon Green, Víctor Valdés, Amir Sadik, et al. Deepmind lab）的五个三维环境中的强化学习使命上评估了所提出的无监督学习方法：rooms_watermaze、explore_goal_locations_small、seekavoid_arena_01、lasertag_three_opponents_small 和 rooms_keys_doors_puzzle。该设置与前三个有所差别。在这里，我们以尺度的批量 A2C [52]（[52] Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning）智能体作为基础模型，并在其上添加 CPC 作为辅助损失函数。我们没有使用回放缓冲区，因此预测必须适应策略活动的变化。所学到的表现编码了其未来观测的分布。 按照 [50]（[50] Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, and Koray Kavukcuoglu. Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures）中的雷同方法，我们对熵正则化权重、学习率和 RMSProp [53]（[53] Geoffrey Hinton, Nitish Srivastava, and Kevin Swersky. Neural networks for machine learninglecture 6a-overview of mini-batch gradient descent）的 epsilon 超参数举行了随机搜刮。A2C 的展开长度为 100 步，我们预测多达 30 步的未来以得出对比损失。基础智能体由一个卷积编码器组成，该编码器将每个输入帧映射到一个单一向量，随后是一个时间 LSTM。我们使用与基础智能体雷同的编码器，仅添加用于对比损失的线性预测映射，这带来了最小的开销，也展示了在为特定使命设计和调整的现有架构上实现我们方法的简朴性。有关其他超参数和实现细节，请参阅 [50]。
图 6 显示，在训练 10 亿帧后，对于 5 个游戏中的 4 个，使用对比损失的智能体性能显著提升。对于 lasertag_three_opponents_small，对比损失既没有帮助也没有损害。我们怀疑这是由于使命设计的缘故起因，该使命不需要影象，因此产生了一个纯粹的反应式策略。

4 结论
在本文中，我们提出了对比预测编码（CPC），这是一个用于提取紧凑潜伏表现以编码对未来观测预测的框架。CPC 结合了自回归建模和噪声对比估计，并借鉴了预测编码的直觉，以无监督的方式学习抽象表现。我们在多种差别的范畴（音频、图像、天然语言和强化学习）中测试了这些表现，并在用作独立特征时取得了强劲或最先进的性能。训练模型的简朴性和低盘算要求，以及在与主损失结合使用时在具有挑战性的强化学习范畴中取得的令人鼓舞的效果，是朝着适用于更多数据模态的通用无监督学习迈出的令人高兴的一步。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Representation Learning with Contrastive Predictive Coding

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块