《The Energy and Carbon Footprintof Training End-to-End Speech Recognizers》论文-CFANZ编程社区

本文的作者是Titouan Parcollet , Mirco Ravanelli，LIA, Avignon Universite, France，University of Cambridge, United Kingdom ，Mila, Universit´e de Montr´eal, Canada（后面那个是e上面有个二声的调。）

这篇文章是讲模型和环境的关系，其中有碳足迹的概念：一个人在一年内，因衣食住行等活动所消耗的能源，最终转化为大气中二氧化碳(CO2)的量，用于衡量人类活动对于气候变化的影响。

研究动机

深度学习很火，但是也引起了环境问题。模型在训练和测试阶段，能量的耗费是不可以忽视的。提出了为了微小性能的提高而耗费双倍的碳足迹是否合适？本文拿ASR(automatic speech recognition)在碳的耗费量上做了实验。实验表明，提高一点点性能会产生巨大的碳排放量。

INTRODUCTION

除了人为因素外，深度学习的出现，模型的部署，数据量不断增大，硬件加速等等造成能量耗费，都是环境变坏的原因。下面这张图训练了模型，表明在不同的地域，同一种语言模型产生的二氧化碳排放量不一样，不同种语言在同一个地域排放量也不一样，甚至于训练模型比开车耗费的还要大。

怎么计算得到二氧化碳的排放量？

第一步，计算硬件和基础设备所耗费的总体能量；第二步，将上诉的能量按照不同的地理位置换算成二氧化碳的排放量。

训练期间，能量的耗费主要是GPU或者CPU以及冷却的数据中心产生的。产生能量使用率的公式：设备耗费的总体能量除以计算节点使用的能量。

训练时间d内能量的耗费：

括号里面的字母一个表示GPU的能量耗费，一个表示CPU 的能量耗费。

二氧化碳的转化率定义为每千瓦时的能量耗费所转化的二氧化碳的量。

整体二氧化碳的排放量：

实验数据和操作

通过训练ASR模型，看二氧化碳的耗费量。硬件的话，用的GPU：the Nvidia Tesla V100 32GB 、Nvidia RTX 2080 Ti。CPU：Two Intel Xeon Silver 4210R and two Intel Xeon E5- 2698 v4，两个cpu分别连接到对应的GPU上。用的转换率是法国和澳大利亚。

数据集：LibriSpeech 960小时作为训练集，验证集和测试集是官方的“dev-clean” and “test-clean”； CommonVoice 438小时，包含了真实的音频数据，官方的验证集和测试集作为评估。

实验结果：

实验结果表明，不同的GPU耗费的排放量不同，RTX比Tesla耗费高达2.5倍；不同地域排放的不一样，比如第一行的法国和澳大利亚的排放量差别很大；不同的数据集耗费也不一样，比如第一行的两个数据集的澳大利亚数据或者法国的数据。