减少人工智能的碳足迹

麻省理工学院的研究人员开发了一种自动化的人工智能系统,用于训练和运行某些神经网络,这也减少了所涉及的碳排放量。

通过罗伯·马西森 2020年4月24日

人工智能已经成为某些伦理问题的焦点,但它也存在一些重大的可持续性问题。麻省理工学院的研究人员开发了一种自动化的人工智能系统,用于训练和运行某些神经网络。结果表明,通过在某些关键方面提高系统的计算效率,该系统可以减少所涉及的碳排放磅数——在某些情况下,可以减少到低三位数。

研究人员的系统,他们称之为一劳永逸的网络,训练一个大型神经网络,包括许多不同大小的预训练子网络,这些子网络可以根据不同的硬件平台进行定制,而无需重新训练。这大大减少了为新平台训练每个专用神经网络所需的能量,新平台可能包括数十亿个物联网(IoT)设备。使用该系统来训练计算机视觉模型,他们估计,与当今最先进的神经结构搜索方法相比,该过程所需的碳排放量约为1,300分之一,同时将推理时间缩短了1.5-2.6倍。

“我们的目标是更小、更环保的神经网络,”电子工程与计算机科学系助理教授宋涵(音)说。“到目前为止,寻找高效的神经网络架构已经产生了巨大的碳足迹。但通过这些新方法,我们将碳足迹减少了几个数量级。”

这项工作是在Satori上进行的,这是一个由IBM捐赠给麻省理工学院的高效计算集群,每秒可以执行2千万亿次计算。

创建一个“一劳永逸”的网络

研究人员在最近一项名为AutoML(自动机器学习)的人工智能进步的基础上建立了这个系统,它消除了人工网络设计。神经网络会自动搜索大量的设计空间,寻找适合特定硬件平台的网络架构。但是仍然存在训练效率问题:必须选择每个模型,然后根据其平台架构从头开始训练。

“我们如何有效地训练所有这些网络,以适应如此广泛的设备——从10美元的物联网设备到600美元的智能手机?考虑到物联网设备的多样性,神经架构搜索的计算成本将会激增。”

研究人员发明了一种AutoML系统,该系统只训练一个单一的,大型的“一次性”(OFA)网络,作为“母”网络,嵌套大量的子网络,这些子网络从母网络稀疏激活。OFA与所有子网共享其学习到的权重,这意味着它们基本上是经过预训练的。因此,每个子网可以在推理时独立运行,而无需重新训练。

该团队训练了一个通常用于图像处理任务的OFA卷积神经网络(CNN),该网络具有多种架构配置,包括不同数量的层和“神经元”,不同的滤波器尺寸和不同的输入图像分辨率。给定一个特定的平台,系统使用OFA作为搜索空间,根据与平台功率和速度限制相关的精度和延迟权衡来找到最佳子网。例如,对于物联网设备,系统将找到一个较小的子网。对于智能手机,它将选择更大的子网,但根据个人电池寿命和计算资源的不同,采用不同的结构。OFA解耦了模型训练和架构搜索,并将一次性训练成本分散到许多推理硬件平台和资源约束上。

这依赖于一种“渐进收缩”算法,该算法有效地训练OFA网络同时支持所有子网。它首先训练具有最大大小的完整网络,然后逐步缩小网络的大小以包括较小的子网。较小的子网在大子网的帮助下进行训练,共同成长。最后,支持所有不同大小的子网,允许基于平台功率和速度限制的快速专门化。它支持许多硬件设备,在添加新设备时零培训成本。

研究人员发现,总的来说,一个OFA可以包含超过10万亿亿(1后面跟着19个0)的架构设置,可能涵盖所有需要的平台。但是训练OFA并搜索它最终要比花几个小时训练每个平台的神经网络有效得多。此外,OFA不会损害准确性或推理效率。相反,它在移动设备上提供了最先进的ImageNet精度。研究人员表示,与最先进的行业领先的CNN模型相比,OFA的速度提高了1.5-2.6倍,而且精度更高。

“这是一项突破性的技术,”韩说。“如果我们想在消费设备上运行强大的人工智能,我们必须弄清楚如何缩小人工智能的尺寸。”

“这个模型非常紧凑。麻省理工学院- ibm沃森人工智能实验室的研究员、该论文的合著者庄干说:“我很高兴看到OFA能够继续推动边缘设备上高效深度学习的边界。”

“如果人工智能继续快速发展,我们需要减少其对环境的影响,”IBM研究员、麻省理工学院-IBM沃森人工智能实验室成员约翰·科恩(John Cohn)说。“开发使人工智能模型更小、更高效的方法的好处是,这些模型也可能表现得更好。”

麻省理工学院(MIT)

www.mit.edu

-副主编Chris Vavra编辑控制工程、CFE媒体与技术、cvavra@cfemedia.com


作者简介:作者,麻省理工学院新闻办公室