本文的作者是Titouan Parcollet , Mirco Ravanelli,LIA, Avignon Universite, France,University of Cambridge, United Kingdom ,Mila, Universit´e de Montr´eal, Canada(后面那个是e上面有个二声的调。)
这篇文章是讲模型和环境的关系,其中有碳足迹的概念:一个人在一年内,因衣食住行等活动所消耗的能源,最终转化为大气中二氧化碳(CO2)的量,用 于衡量人类活动对于气候变化的影响。
研究动机
深度学习很火,但是也引起了环境问题。模型在训练和测试阶段,能量的耗费是不可以忽视的。提出了为了微小性能的提高而耗费双倍的碳足迹是否合适?本文拿ASR(automatic speech recognition)在碳的耗费量上做了实验。实验表明,提高一点点性能会产生巨大的碳排放量。
INTRODUCTION
除了人为因素外,深度学习的出现,模型的部署,数据量不断增大,硬件加速等等造成能量耗费,都是环境变坏的原因。下面这张图训练了模型,表明在不同的地域,同一种语言模型产生的二氧化碳排放量不一样,不同种语言在同一个地域排放量也不一样,甚至于训练模型比开车耗费的还要大。
怎么计算得到二氧化碳的排放量?
第一步,计算硬件和基础设备所耗费的总体能量;第二步,将上诉的能量按照不同的地理位置换算成二氧化碳的排放量。
训练期间,能量的耗费主要是GPU或者CPU以及冷却的数据中心产生的。产生能量使用率的公式:设备耗费的总体能量除以计算节点使用的能量。
训练时间d内能量的耗费:
括号里面的字母一个表示GPU的能量耗费,一个表示CPU 的能量耗费。
二氧化碳的转化率定义为每千瓦时的能量耗费所转化的二氧化碳的量。
整体二氧化碳的排放量:
实验数据和操作
通过训练ASR模型,看二氧化碳的耗费量。硬件的话,用的GPU:the Nvidia Tesla V100 32GB 、Nvidia RTX 2080 Ti。CPU:Two Intel Xeon Silver 4210R and two Intel Xeon E5- 2698 v4,两个cpu分别连接到对应的GPU上。用的转换率是法国和澳大利亚。
数据集:LibriSpeech 960小时作为训练集,验证集和测试集是官方的“dev-clean” and “test-clean”; CommonVoice 438小时,包含了真实的音频数据,官方的验证集和测试集作为评估。
实验结果:
实验结果表明,不同的GPU耗费的排放量不同,RTX比Tesla耗费高达2.5倍;不同地域排放的不一样,比如第一行的法国和澳大利亚的排放量差别很大;不同的数据集耗费也不一样,比如第一行的两个数据集的澳大利亚数据或者法国的数据。
地域因素:
下面这张图 表示花费二倍的二氧化碳排放提高微小的性能:
结论
做实验的同时,也要爱护环境。有时候是否不需要微小性能来换取二倍的环境的破坏。
生词
pervasive adoption 普遍采用
methane 甲烷 nitrous oxide 氧化亚氮
deployment 部署 uptake 吸收
concomitant 共存的,相伴的
concurrent 并行的
trade-off 权衡、平衡 transducer 传感器
datacenter 数据中心
compensate 补偿 offset 抵消
speech community 语言社区
is coupled with 与....结合