An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
会议时间:2022-12-11
会议地点:腾讯会议
关键词:
作者: Shaojie Bai , J. Zico Kolter ,Vladlen Koltun
期刊:Bioinformatics
年份:2022
论文原文: https://arxiv.org/abs/1803.01271相关代码:https://github.com/locuslab/TCN
主要内容
1问题 :
对于大多数深度学习从业者而言,序列建模就是循环网络的同义词。但是,最近的研究结果表明,在音频合成和机器翻译等任务上,卷积架构的表现优于循环网络。为此,作者针对该点提出:对于新的给定的序列建模任务,应该使用何种体系结构,这个问题应该进一步思考。在本篇文章中,作者在多个任务中进行了两者性能上的评估,结果表明,一个简单的卷积体系结构在不同范围的任务和数据集上优于规范的循环网络,比如LSTMs, 同时展现了更长的有效内存。 最后的结论是:序列建模和循环网络之间的共同关联应该重新被考虑,卷积网络应该被视为序列建模任务的自然起点。
2方法
实验内容概述
主要更进点
为了表示卷积网络,作者描述了一个通用的时间卷积网络体系结构(TCN),它适用于所有任务。该体系结构参考了最近的研究,但有意保持简单,并结合了现代卷积体系结构的一些最佳实践。它与LSTMs和GRUs等规范的循环体系结构进行了比较。
TCN 结构
AN EMPIRICAL EVALUATION OF GENERIC CONVOLUTIONAL AND RECURRENT NETWORKS FOR SEQUENCE MODELINGOT-29R-19R90 JI 92公(站)(站RESIDUAL BLOCK(K3,DD1)OUTPUTRESIDUAL BLOCK(K, D)D4DROPOUTCONVOLUTIONAL FILTERRELUIDENTITY MAP(OR 1X1 CONV)HIDDENWEIGHTNORMDILATED CCAUSAL CONV1X1 CONVDROPOUT(OPTIONAL)RELUHIDDENMANNNYWEIGHTNORMDDILATEDCAUSALCONV20 1 0 2T-1 ATINPUTCU-浙20 21 320T-20T-10(B)(A)(C)FIGURE 1.ARCHITECTURAL ELEELEMENTS IN AITS IN A TCN,(A)A DILATED CAUSAL CONVOLUTION WITH DILATION FACTORS D- 1,2,4 AND FILTE IZE I- 3. THRECEPTIVE FIELD IS ABLE IS AL AL VALURION IS ADDET SEQUENEE: IS ADDED RESIDUAL IXI CONVOLURIRE; DIFFERENT DINNENSIONS,(C) AN EXAMPLE OF RESIDUAL CONNECTION IN TCN. THE BLUE LINES IN THE RESIDUALINPUT AND OUTPUT HAVE DIFFECSDN@泡面加蛋97N LINES ARE IDENTITY MAPPINGS.FUNCTION,AND THE GREEN LI
其中,想要更改感受野,可以通过更改卷积核大小或者膨胀系数。当膨胀系数等于1时,与普通的卷积一样。在使用多层膨胀卷积时,每层的膨胀系数有所讲究,这这里作者采用的膨胀系数成指数形式(可以去看看这篇文章Understanding Convolution for Semantic Segmentation,文中对膨胀卷积的膨胀系数进行了讲解)。
膨胀卷积
泡面加蛋97CSDN@泡
转置卷积
HILIBLL:PADDING0,STRIDES1(CONV)PADDING-0,STRIDES-1(TRANSPOSED CONY),TCSDN@泡面加蛋97
3主要实验及结果
表1显示了结果的概要。请注意,在这些任务中,我们研究的通用的、规范的递归体系结构(例如,LSTM、GRU)并不是最先进的。有了这一警告,结果强烈表明,具有最小调优的通用TCN体系结构在广泛的序列建模任务上优于规范的递归体系结构,这些任务通常用于对递归体系结构本身的性能进行基准测试。我们现在更详细地分析这些结果。
TABLE L.EVELUATION OF TCNS AND RECUREHICCTURES ON SYNTHEIC STRESS POLYPHONIC MUST MUSTER- CHANGUAMODELING, AND WORD- LANSUAGERFORMS MODELING, THE GENERIC TCN ARCHITECTURE OUPERFORMS CANONICUL NEIVOSMEANS THAT LOWER IS BETTER.MODELSMODEL SIZE(¥SEQUENCE MODELING TASKTCNRNNGRULSTMSEQ.MNIST(ACCURACY70K87.299.021.596.2PERMUTED MNIST(ACCURACY)97.285.725.387.370KADDING PROBLEM T600 (LOSS)5.8E-570K0.1645.3E-50.17716KCOPY MEMORY T1000(LOSS)3.5E-50.02040.02020.01978.10300KMUSIC JSB CHORALES (LOSS)8.458.438.913.073.291MMUSIC NOTTINGHAM(LOSS)3.464.05WORD-LEVEL PTB (PERPLEXITY)78.93114.5088.6813M92.48WORD-LEVEL WIKI-103 (PERPLEXITY)48.445.19WORD-LEVEL LAMBADA(PERPLEXITY)1472541861279CHAR-LEVEL PTB(BPE)1.483M1.361.311.371.451.501.535MCHAR-LEVEL TEXT8(BPC)1.69
0.25TCN8X24,K8(70K)0.25TCN7X27,K-6(70K)LSTM(70K)LSTM,(70K)GRU(70K)GRU(70K)0.200.20AWD-LSTM(70K)AWD-LSTM(70K)TESTING LOSSTESTING LOSS0.150.150.100.10WHMIMI0.050.050.00 0.0040007000300050003000400020006000200010007000500010006000ITERATIONITERATION(B)T600(A)T200FIGURE 2.RESULTS ON THE ADDING PROBLEM FOR DIFFERENT SEQUENCELENGTHS T. TCNS OUTPERFORM RECURRENT AARCHITECTURES.
1.01.00.80.8TESTING ACCURACYTESTING ACCURACY0.60.60.40.4TCN8X25,K7(66K)TCN8X25,K7(66K)二二TCN 8X20,K66(41K)TCN 8X20,K6(41K)0.20.2LSTM(68K)LSTM(68K)GRU(68K)GRU(68K)0.06 1000 2000 30000.0%000400010002000300040005000500060007000800005000600070008000ITERATIONITERATIONP-MNISTSEQUENTIALMNISTFIGURE 3.RESULTS ON SEQUENTIALI MNIST AND P-MNIST.TCNS OUT-PERFORM RECURRENT ARCHITECTURES.
0.080.08TCN8X10,K8(13K)TCN 9X10,K6(10K)三GRU(16K)GRU(16K)0.070.07LSTM(16K)LSTM(16K)0.060.06EURNN(16K)EURNN(16K)TESTING LOSSTESTING LOSSGUESS 0 FOR ALLGUESS 0 FOR ALL0.050.050.040.040.030.030.020.020.010.010.000.00200020003000100010002500250015005005003000015000ITERATIONLTERATION(B)T1000(A)T500FIGURE 4.RESULT ON THE COPY MEMORY TASK FOR DIFFERENT SEQUENCELENGTHS T. TCNS OUTPERFORMRECURRENT ARCHITECTURES.
4讨论
TCN的优点
1、并行化处理:
与RNN不同之处在于TCN本质上是CNN的变体,卷积核之间可以并行运算,无需等待前面的时间步。
2、灵活的感受野大小:
TCN可以通过多种方式改变感受野,如:叠加更多的膨胀卷积层、使用更大的膨胀因子或者增加卷积核大小。
3、稳定的梯度:
与循环神经网络不同,TCN避免了梯度消失和梯度爆炸。
4、对训练的内存要求低:
在长序列输入的情况下,LSTM和GRU会使用较多内存来储存多个单元门的一些结果。而TCN中,卷积核是共享的,反向传播路径仅取决于网络深度。因此,在实践中,门控RNNs可能比TCN使用更多的乘法因子。
5、可变长度输入:
和RNNs以循环的方式对可变长度的输入进行建模一样,TCN可以通过滑动一维卷积核来接收任意长度的输入。这意味着,对于任意长度的序列数据,可以采用TCN作为RNNs的替换。
TCN的缺点
1、在测试阶段:
以生成预测为例,RNNs至于要当前xt和一个隐藏状态即可。而对于TCN,需要接收原始序列直到有效历史长度,因此在测试阶段可能需要更多的内存。
2、参数需要改变,当迁移至不同的域时
不同的领域可能对模型预测所需记录量有不同的要求。因此,当将一个模型从只需要很小的感受野,转到需要更大的感受野时,TCN可能会因为没有足够大的感受野而表现不佳。
5结论
我们提出了对通用卷积和递归架构在一套全面的序列建模任务中的经验性评估。为此,我们描述了一个简单的时间卷积网络(TCN)。
它结合了最佳实践,如稀释和剩余连接与自回归预测所需的因果卷积。实验结果表明,TCN模型的性能大大超过了LSTM和GRU等通用的递归架构。我们进一步研究了卷积和递归网络中的长程信息传播,并表明RNNs的 "无限记忆 "优势在实践中基本不存在。与具有相同容量的递归架构相比,TCN表现出更长的内存。
许多用于正则化和优化LSTM的先进方案已经被提出(Press & Wolf, 2016; Krueger et al, 2017; Merity et al, 2017; Campos et al, 2018)。这些方案大大推进了基于LSTM的架构在一些数据集上实现的准确性。TCN还没有从这种全社会对架构和算法阐述的一致投资中受益。我们认为这种投资是可取的,并期望它能在TCN的性能上产生与近年来LSTM性能的进步相称的进步。我们将发布我们项目的代码以鼓励这种探索。
递归网络在序列建模中享有的卓越地位可能在很大程度上是历史的遗留物。直到最近,在引入膨胀卷积和残差连接等架构元素之前,卷积架构确实比较弱。我们的结果表明,有了这些元素,一个简单的卷积架构在不同的序列建模任务中比LSTM等递归架构更有效。由于TCN相似的清晰度和简单性,我们得出结论,卷积网络应该被视为序列建模的一个自然起点和强大的工具包。
讨论过程
黄老师:出来的是序列,它序列的每一个点是向量还是值?
郑佩杰:可以是向量也可以是值,把向量看成是长度为1的值,如果是值,加一层Dense层,如果是向量,直接用一维卷积就可。
黄老师:这篇文章有什么借鉴意义?
郑佩杰:它由膨胀卷积的Resnet体系替换常规的CNN,TCN的效果还是不错的。
黄老师:它是字符变为整数,可以用Embedding吗?
郑佩杰:Embedding本身就是一个矩阵,数据量大,我的想法是用预训练过的Bert替换。
殷兆廷:RNN可变长度可以解释一下吗?
郑佩杰:RNN是通过time step的方式处理可变长度,它是一个位置一个位置进行输入,和总体的长度无关
总结
提出了一个TCN结构,在多个序列任务上进行了测试,结果表明卷积网络应该视为序列建模的自然起点和强大工具包。
存在问题
问题1... 论文稿子命名要统一规范,每一次会议记录、指导记录和实验记录都要完整记录
● 问题2...实验记录:把每次需要修改的代码文件名记录下来,方法:描述一下算的过程,大概的概要,并验证结果是否一样,特征选择:日期,具体一些实验结果要体现出来,要验证
相应解决方法及任务
任务:法一:调结构,调参数 法二:换数据(结果不要太高的)
AN EMPIRICAL EVALUATION OF GENERIC CONVOLUTIONAL AND RECURRENT NETWORKS FOR SEQUENCE MODELINGOT-29R-19R90 JI 92公(站)(站RESIDUAL BLOCK(K3,DD1)OUTPUTRESIDUAL BLOCK(K, D)D4DROPOUTCONVOLUTIONAL FILTERRELUIDENTITY MAP(OR 1X1 CONV)HIDDENWEIGHTNORMDILATED CCAUSAL CONV1X1 CONVDROPOUT(OPTIONAL)RELUHIDDENMANNNYWEIGHTNORMDDILATEDCAUSALCONV20 1 0 2T-1 ATINPUTCU-浙20 21 320T-20T-10(B)(A)(C)FIGURE 1.ARCHITECTURAL ELEELEMENTS IN AITS IN A TCN,(A)A DILATED CAUSAL CONVOLUTION WITH DILATION FACTORS D- 1,2,4 AND FILTE IZE I- 3. THRECEPTIVE FIELD IS ABLE IS AL AL VALURION IS ADDET SEQUENEE: IS ADDED RESIDUAL IXI CONVOLURIRE; DIFFERENT DINNENSIONS,(C) AN EXAMPLE OF RESIDUAL CONNECTION IN TCN. THE BLUE LINES IN THE RESIDUALINPUT AND OUTPUT HAVE DIFFECSDN@泡面加蛋97N LINES ARE IDENTITY MAPPINGS.FUNCTION,AND THE GREEN LI
(唐星宇)改进建议:加一个多头注意力机制