作者：Kamil Kaczmarek
编译：ronghuaiyang
首发：AI公园公众号

导读

给大家介绍一下今年的ICLR上的最佳16篇深度学习论文。

上周，我很荣幸地参加了学习表现国际会议(ICLR)，这是一个致力于深度学习各方面研究的活动。最初，会议本应在埃塞俄比亚首Addis Ababa召开，但由于新型冠状病毒大流行，会议变成了虚拟会议。把活动搬到网上对组织者来说是一个挑战，但是我认为效果非常令人满意！

1300多名演讲者和5600名与会者证明，虚拟形式更容易为公众所接受，但与此同时，会议保持了互动和参与。从许多有趣的演讲中，我决定选择16个，这些演讲既有影响力又发人深省。以下是来自ICLR的最佳深度学习论文。

1. On Robustness of Neural Ordinary Differential Equations

2. Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity

3. Target-Embedding Autoencoders for Supervised Representation Learning

4. Understanding and Robustifying Differentiable Architecture Search

5. Comparing Rewinding and Fine-tuning in Neural Network Pruning

6. Neural Arithmetic Units

7.The Break-Even Point on Optimization Trajectories of Deep Neural Networks

8. Hoppity: Learning Graph Transformations To Detect And Fix Bugs In Programs

9. Selection via Proxy: Efficient Data Selection for Deep Learning

10. And the Bit Goes Down: Revisiting the Quantization of Neural Networks

11. A Signal Propagation Perspective for Pruning Neural Networks at Initialization

12. Deep Semi-Supervised Anomaly Detection

13. Multi-Scale Representation Learning for Spatial Feature Distributions using Grid Cells

14. Federated Learning with Matched Averaging

15. Chameleon: Adaptive Code Optimization for Expedited Deep Neural Network Compilation

16. Network Deconvolution

最佳深度学习论文

1. On Robustness of Neural Ordinary Differential Equations

深入研究了神经常微分方程或神经网络的鲁棒性。使用它作为构建更健壮的网络的基础。

论文：https://openreview.net/forum?...

ODENet的结构，神经ODE块作为一个保维非线性映射。

第一作者：Hanshu YAN

2. Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity

证明梯度裁剪可加速非光滑非凸函数的梯度下降。

论文：https://openreview.net/forum?...

代码：https://github.com/JingzhaoZh...

PTB数据集上AWD-LSTM (Merity et al.， 2018)训练轨迹上的对数尺度上的梯度范数vs局部梯度Lipschitz常数。颜色条表示在训练过程中迭代的次数。

第一作者：Jingzhao Zhang

3. Target-Embedding Autoencoders for Supervised Representation Learning

新的，通用目标嵌入自动编码器或者说TEA监督预测框架。作者给出了理论和经验的考虑。

论文：https://openreview.net/forum?...

(a)特征嵌入和(b)目标嵌入自动编码器。实线对应于(主要)预测任务，虚线为(辅助)重建任务。两者都涉及到共享组件。

第一作者：Daniel Jarrett

4. Understanding and Robustifying Differentiable Architecture Search

通过分析验证损失的海塞矩阵的特征值，研究了DARTS（可微结构搜索）的失效模式，并在此基础上提出了相应的对策。

论文：https://openreview.net/forum?...

代码：https://github.com/automl/Rob...

640 (1).png

在Space1到Space4上，DARTS发现的差的网格标准。对于所有的空间，DARTS选择的大多是无参数的操作(跳过连接)，甚至是有害的噪声操作。

第一作者: Arber Zela

5. Comparing Rewinding and Fine-tuning in Neural Network Pruning

在修剪神经网络时，不需要在修剪后进行微调，而是将权值或学习率策略倒回到它们在训练时的值，然后再从那里进行再训练，以达到更高的准确性。

论文：https://openreview.net/forum?...

代码：https://github.com/lottery-ti...

640 (2).png

通过一次修剪获得再训练时间的最佳可达到的精度。

![Alex Renda](The Best Deep Learning Papers from the ICLR 2020 Conference.assets/5-Alex-Renda.jpg)

第一作者：Alex Renda

6. Neural Arithmetic Units

神经网络虽然能够逼近复杂的函数，但在精确的算术运算方面却很差。这项任务对深度学习研究者来说是一个长期的挑战。在这里，我们介绍了新的神经加法单元(NAU)和神经乘法单元(NMU)，它们能够执行精确的加法/减法(NAU)和向量子集乘法(MNU)。

论文：https://openreview.net/forum?...

代码：https://github.com/AndreasMad...

NMU的可视化，其中权值(Wi,j)控制门控的值1(identity)或xi，然后显式地乘上每个中间结果以形成zj。

第一作者：Andreas Madsen

7. The Break-Even Point on Optimization Trajectories of Deep Neural Networks

在深度神经网络训练的早期阶段，存在一个决定整个优化轨迹性质的“均衡点”。

论文：https://openreview.net/forum?...

早期训练轨迹的可视化，CIFAR-10(之前训练精度达到65%)的一个简单的CNN模型优化使用SGD学习率η= 0.01(红色)和η= 0.001(蓝色)。训练轨迹上的每个模型(显示为一个点)通过使用UMAP将其测试预测嵌入到一个二维空间中来表示。背景颜色表示梯度K (λ1K, 左)的协方差归一化频谱和训练精度(右)。对于小的η，达到我们所说的收支平衡点后，对于同样的训练精度(右)，轨迹是引向一个地区，这个区域具有更大λ1K(左)的特点。

第一作者：Stanisław Jastrzębski

8. Hoppity: Learning Graph Transformations To Detect And Fix Bugs In Programs

一种基于学习的方法，用于检测和修复Javascript中的bug。

论文：https://openreview.net/forum?...

640 (3).png

演示现有方法的局限性的示例程序包括基于规则的静态分析器和基于神经的错误预测器。

第一作者：Elizabeth Dinella

9. Selection via Proxy: Efficient Data Selection for Deep Learning

通过使用一个更小的代理模型来执行数据选择，我们可以显著提高深度学习中数据选择的计算效率。

论文：https://openreview.net/forum?...

代码：https://github.com/stanford-f...

640 (4).png

SVP应用于主动学习(左)和核心集选择(右)。在主动学习中，我们遵循了相同的迭代过程，即训练和选择标记为传统方法的点，但是用计算成本更低的代理模型代替了目标模型。对于核心集的选择，我们学习了使用代理模型对数据进行特征表示，并使用它选择点来训练更大、更精确的模型。在这两种情况下，我们发现代理和目标模型具有较高的rank-order相关性，导致相似的选择和下游结果。

第一作者：Cody Coleman

10. And the Bit Goes Down: Revisiting the Quantization of Neural Networks

采用结构化量化技术对卷积神经网络进行压缩，实现更好的域内重构。

论文：https://openreview.net/forum?...

代码：https://drive.google.com/file...

图解我们的方法。我们近似一个二元分类器ϕ，通过量化权重把图像标记为狗或猫。标准方法：使用标准目标函数来量化 ϕstandard，(1)提升分类器ϕ，试图在整个输入空间上近似ϕ，因此对于域内的输入可能表现很差。我们的方法：用我们的目标函数量化ϕ(2)提升分类器ϕbactivations，使之对于域内输入表现良好。在输入空间的图像由ϕactivations正确分类，但ϕstandard不正确。

第一作者：Pierre Stock

11. A Signal Propagation Perspective for Pruning Neural Networks at Initialization

我们正式描述了初始化时有效剪枝的初始化条件，并分析了得到的剪枝网络的信号传播特性，提出了一种增强剪枝网络可训练性和剪枝效果的方法。

论文：https://openreview.net/forum?...

(左)layerwise稀疏模式c∈{0,1} 100×100获得剪枝水平为κ¯= {10 . .90}%的效果。这里，黑色(0)/白色(1)像素为修剪/保留参数，(右)各层参数的连接灵敏度(CS)所有网络初始化γ=1.0。与线性情况不同，tanh网络的稀疏模式在不同层上是不均匀的。当进行高等级剪枝的时候(例如，κ¯= 90%)，这成为关键，导致学习能力差，只有几个参数留在后面的层。这是由连接灵敏度图所解释的，图中显示，对于非线性网络参数，后一层的连接灵敏度低于前一层。

第一作者：Namhoon Lee

12. Deep Semi-Supervised Anomaly Detection

我们介绍了Deep SAD，一种用于一般性的半监督异常检测的深度方法，特别利用了异常的标记。

论文：https://openreview.net/forum?...

代码：https://github.com/lukasruff/...

半监督异常检测的需要：训练数据(如(a)所示)由(大部分正常)未标记数据(灰色)和少数标记正常样本(蓝色)和标注的异常样本(橙色)组成。图(b) - (f)显示了测试时各种学习模式的决策边界，以及出现的新异常(每个图的左下角)。我们的半监督AD方法利用了所有的训练数据：未标记的样本，标记的正常样本，以及标记的异常样本。这在单类别学习和分类之间取得了平衡。

第一作者：Lukas Ruffs

13. Multi-Scale Representation Learning for Spatial Feature Distributions using Grid Cells

我们提出了一个名为Space2vec的表示学习模型来编码位置的绝对位置和空间关系。

论文：https://openreview.net/forum?...

代码：https://github.com/gengchenma...

640 (5).png

具有非常不同特征的联合建模分布的挑战。(a)(b)拉斯维加斯的POI位置(红点)以及Space2Vec预测了女装(使用聚类分布)和教育(使用均匀分布)的条件似然。(b)中的黑色区域表明市中心区域的其他类型的POIs比教育多。(c)相对于wrap， Space2Vec具有最大和最小改进的POI类型的Ripley的K曲线(Mac Aodha et al.， 2019)。每条曲线表示以某一类型的点为中心的某一半径内某一类型点的点的个数(d)用POI密度重新规格化的Ripley’s K曲线，并以对数刻度表示。为了高效地实现多尺度表示，Space2Vec将64个尺度(波长从50米到40k米不等)的网格单元编码作为深度模型的第一层，并以无监督的方式与POI数据进行训练。

第一作者：Gengchen Mai

14. Federated Learning with Matched Averaging

使用分层匹配来实现联邦学习的高效交流。

论文：https://openreview.net/forum?...

代码：https://github.com/IBM/FedMA

640 (6).png

在MNIST上进行有限次数的LeNet联邦学习方法的比较，在CIFAR-10数据集上训练VGG-9，LSTM在莎士比亚数据集上训练:(a)同构数据(b)异构数据

第一作者：Hongyi Wang

15. Chameleon: Adaptive Code Optimization for Expedited Deep Neural Network Compilation

深度神经网络优化编译的增强学习和自适应采样。

论文：https://openreview.net/forum?...

640 (7).png

我们的模型编译工作流的概要，突出显示的是这项工作的范围。

第一作者：Byung Hoon Ahn

16. Network Deconvolution

为了更好地训练卷积网络，我们提出了一种类似于动物视觉系统的网络反卷积方法。

论文：https://openreview.net/forum?...

代码：https://github.com/yechengxi/...

640 (8).png

使用相关滤波器(例如高斯核)对这个真实世界的图像进行卷积，将相关性添加到生成的图像中，这使得目标识别更加困难。去除这种模糊的过程称为反卷积。但是，如果我们看到的真实世界的图像本身是某种未知的相关滤波器的结果，这使得识别更加困难呢？我们提出的网络反卷积操作可以去除底层图像特征之间的关联，使得神经网络能够更好地执行。