摘要:一项研究表明,培训大型语言模型(例如GPT系列)的一种浪费较低的方法是在相同的时间内完成的能量减少30%。...
密歇根大学的一项新研究显示,培训大型语言模型(例如GPT系列)的一种不那么浪费的方式,可以完成相同的时间,以减少30%的能量。
根据富国银行(Wells Fargo)对AI电力需求的预测,该方法可以节省足够的能源,以在2026年为美国的110万座房屋供电。这也可能使国际货币基金组织的预测咬住,即数据中心到2027年可能占世界碳排放量的1.2% - 以及该能源使用所带来的用水需求。
一些专家说,这些成本可能被环境福利所胜过。他们认为,通过确定优化供应链和网格,管理我们的能源需求并改善对气候变化的研究,AI可能是打击气候变化的“改变游戏规则”。尽管如此,这并不能为浪费能量辩解,而用于训练AI的某些功率对训练时间和模型准确性的影响为零。
“为什么没有意义的时候花一些东西?” U-M计算机科学与工程学副教授Mosharaf Chowdhury也表示,该研究的相应作者在第30届操作系统原理研讨会上发表。
“我们无法继续建立越来越大的数据中心,因为我们将没有能力运行它们。如果我们可以减少AI消耗的能量,我们可以减少AI的碳足迹和冷却要求,并允许更多计算适合我们当前的能量限制。”
当AI培训不平等地分配GPU时,将创建能量浪费,GPU是专门用于大型数据和图形应用程序的计算机处理器。尽管它为浪费打开了大门,但要分割工作对于处理庞大的数据集还是必要的。
U-M计算机科学和工程学的U-M博士学位,研究的第一作者Jae-Won Chung说:“今天的AI模型是如此之大,它们无法安装在单个计算机处理器中。” “需要将它们分为成千上万的处理器以进行培训,但是在所有处理器中,将模型划分为完全相等的模型实际上是不可能的。”
培训工作很难均匀分开,因为某些任务需要在同一处理器上分组在一起 - 例如,如何将图书系列的每一部要分组在有组织的架子上。根据任务的分组方式,有些处理器可能会遇到相当于英国百科全书的AI培训,而其他处理器则被分配为幻想三部曲。
由于当前的培训方法以最高速度运行每个处理器,因此负载更轻的处理器将在其他处理器面前完成计算。这不会加快训练的速度,直到每个处理器完成工作才能完成 - 但这是浪费的,因为更快的计算需要更多的能量。此外,诸如故障硬件或网络延迟之类的问题通过降低单个处理器的计算速度来造成能量浪费。
为了节省能源,研究人员开发了一种称为Perseus的软件工具,该工具标识了一条关键路径,或一系列的子任务将花费最长的时间完成。然后,Perseus放慢了不在关键路径上的处理器,以便他们大约在同一时间完成工作 - 消除了不必要的功率使用。
Chowdhury说:“降低AI的功率成本可能对公平的AI访问具有重要意义。” “如果一个国家没有足够的能力来运行大型模型,他们可能需要使用遥远的服务,或者被卡住较小,较少准确的模型。这一差距可以进一步使不同社区之间的差异持续下去。”
团队通过训练GPT-3,其他三个大型语言模型和一个计算机视觉模型测试了Perseus。
Perseus是作为宙斯的一部分可用的开源工具,该工具是测量和优化AI能源消耗的工具。
该研究由国家科学基金会,荷兰研究委员会(NWO)人才计划,VMware,Mozilla Foundation,Salesforce和Kwanjeong Educational Foundation资助。 Chameleon Cloud和CloudLab通过提供计算资源来支持研究。