人工智能的能源瓶颈?


无论是否支持人工智能(AI)的发展,我们都难以忽视一个重要的问题,那就是AI的能耗。有人担心AI发展过快对能源市场和环境、气候造成冲击;而有人担心能源产业进步太慢,最终成为制约AI发展的瓶颈。

根据预测,随着AI的发展和普及,AI在能耗中的占比还将逐年提升。AI研发企业也在能源供应方面进行了大笔投资,以期满足未来需求。

10月14日,谷歌公司宣布将购买核能初创公司Kairos Power建造的小型模块化反应堆生产的电力[1]。此前在9月20日,微软公司宣布与星座能源公司(Constellation Energy)达成协议,将重启三里岛核电站1号反应堆,并购买其未来20年内产出的电能[2]。

OpenAI首席执行官山姆·奥特曼(Sam Altman)更是早早出手,在今年年初就大举投资核聚变。但与此同时,新的趋势正在涌现。多位业界人士告诉我们,可以通过多种方式降低AI的能耗,让能源利用更加高效,包括软硬件技术的提升,以及宏观层面的建设布局优化。

更重要的是,AI进步的方向不一定是更大、更强,一些小而美的模型正在悄然登场。

01 AI能耗评估难题

关于AI的耗电量,一篇广为流传的报道称,ChatGPT 每日耗电量或超 50 万千瓦时,相当于1.7万个美国家庭的能耗[3]。还有研究估算,在最糟糕的场景下,未来谷歌AI的能耗将与像爱尔兰这样的国家相当[4]。

然而另一方面,也有观点认为媒体和大众选择性关注估算结论较为夸张的研究,并将对AI能耗的担忧视为社会对新技术惯有的反应[5]。尽管当前关于AI能耗的讨论大多基于估算数据,但我们仍然可以就此进行一些定性讨论。例如在算法层面,多位业界人士表示,就单次计算耗电量来说,AI在训练阶段比推理阶段能耗更高。

清华大学电子工程系主任、清华大学信息科学技术学院副院长汪玉团队测试了不同算力芯片的单卡推理功耗,他告诉我们:“推理阶段的功耗基本在300W-500W,国产卡在150W-300W;相比之下,训练阶段的功耗在400W-700W。未来推理功耗还有比较大的下降空间,同等算力有望降到100W以下。”

以开源大语言模型LLama3-405B为例,该模型有4050多亿参数,“使用近16000块英伟达H100 80GB版本GPU进行训练,耗时长达54天完成,加上配套设备总功耗接近20兆瓦,总能耗超过20000兆千瓦时”。

真实训练的能量消耗要高于理论计算的结论。汪玉表示,大模型训练时间长,GPU等硬件难以避免出现错误。在训练过程中需要不断进行检查点的保存,出错后中断训练并进行检查点的恢复,这些操作均会造成难以预测的额外能耗开销。“这个应该还是很可观的”,汪玉说。

他提到,在大规模集群训练中容错相关的能耗开销还是非常大,比如Llama 3-405B在为期54天的训练期间,共发生了466次任务中断(平均每3个小时发生一次中断),约78%的中断由硬件问题引起,容错和错误恢复的时间占比约10%,实际算力利用率只有38%左右。不过,从应用场景上看,用户推理请求的调用频率要高得多。

02 数据中心能耗超乎想象

讨论AI能耗问题的困难不仅在于信息不透明,还因为它的边界难以界定。具体而言,AI造成的能耗远远不仅来自于算法和芯片,还包括与之配套的基础设施,其中最重要的就是数据中心的能耗。

尽管数据中心不仅用于AI的运行,还运营加密货币等业务,但是伴随着AI的爆发,AI在数据中心业务中的位置越来越重要,数据中心的数量和规模也在快速增长。而无论是能耗的数量级,还是背后多样的影响因素,数据中心的能耗问题都要复杂许多。

数据中心的耗电量远远超过一般人的想象。国际能源署(IEA)发布的一份报告显示,2022年全球数据中心、比特币和AI消耗的电能占全球用电量的2%,达到460 TWh[6]。基于当前增长趋势,IEA估计到2026年,全球数据中心总能耗将达1000 TWh,增幅超过一倍。

据统计,目前全球拥有超过8000座数据中心,其中约33%位于美国,16%位于欧洲,接近10%位于中国[6]。中国社会科学院工业经济研究所助理研究员张瑾告诉我们:“全国数据中心的耗电量加起来,与其他30个省份(除去港澳台和西藏)一起排序,大概排在10多名左右,超过近一半的省份全年的电力消耗量。”

并且,数据中心的数量和体量还在增长。张瑾说:“在我的研究区间之内,数据中心的发展是爆炸式的,不管是行业预测,还是股票市场的投资,大家对它普遍抱有极大的热情。”IEA报告指出,在数据中心内部,冷却系统和服务器的能耗最高,各占数据中心能耗的40%。剩余20%的电能则用于能源供应系统、存储设备和通讯设备[6]。其中,随着数据中心规模扩大,芯片设备功率提高,冷却系统的能耗日益引起关注。

然而,降低数据中心电能消耗的设计同时会造成耗水量的上升,在另一个维度上对生态造成影响。国际标准化组织可持续金融科技工作组专家、中国环境科学学会碳达峰碳中和专委会委员陈钰什告诉我们,随着数据中心规模越来越大,使用传统冷却系统的耗电成本较高,因此,“大型数据中心逐步‘弃电用水’,通过冷水机或冷却塔来交换热量。这虽然可以大幅降低耗电量,但却又因蒸发等原因造成惊人的耗水量。”

微软发布的公开报告显示,微软在2022财年的耗水量为640万立方米,同比增加34%,这一趋势与AI的发展密切相关[7]。

加州大学河滨分校电气与计算机工程副教授任绍磊(Shaolei Ren)团队研究显示, GPT-3每响应10~50个请求,就要“喝掉”一瓶550 mL的水[8]。而陈钰什指出:“由于担心设备遇水发生腐蚀等破坏,数据中心多使用淡水,仅有一小部分为非饮用水或可再生水。2022年,谷歌全球各地的数据中心共耗水52.2亿加仑(约1,976立方米),其中四分之三以上均为淡水。这种用水结构进一步增加了AI行业对全球水生态系统的影响。”

对于新成立的数据中心,在设计上进行改进能够缓解这个问题。盛乐标指出,对于大规模数据中心,液冷技术比风冷技术更加划算,而且将冷却水密封在循环中可以减少淡水的消耗。

03 能源行业如何迎接挑战

从宏观角度上看,AI的环境影响不仅与耗电量有关,也与电能的来源密不可分。发展更加清洁低碳的能源,并且在基建层面进行规划,也有助于让AI更加环境友好。多位业界人士提到,数据中心应当靠近发电厂,以实现算电耦合,减少电能传输和存储过程中的损耗,这样的产业布局也有利于吸纳绿电。

“近几年,随东数西算战略推进,数据中心布局呈现出由中心向周边、由东部向西部的发展流动趋势”,汪玉告诉我们。他指出,目前新疆有丰富的绿电资源,如光伏、风电。李中阳也认为:“对中国而言,最大的优势是拥有坚强的电网和充足的能源供应能力,挑战是怎么样尽可能使用更多的新能源(发展人工智能)。”

然而,在东西部发展不均衡的背景下,在西部建设数据中心也面临着人才缺乏、维护困难的问题。“东数西算最大的问题,是东部的数据或计算需求到不了西部,”盛乐标指出。AI计算往往需要大量的数据,如果计算需求离数据中心太远,数据的传输成本就会非常高。因此,尽管贵州、内蒙等西部地区建设了不少数据中心,但它们的使用效率还远远比不上东部的超算中心。

AI的庞大需求也对绿电的稳定性提出了挑战。盛乐标指出,风电、水电和光伏容易受到季节影响,而核电作为稳定且环保的能源选项,是未来数据中心选址的一个趋势,所以未来的趋势可能是在核电站旁边建设数据中心。

就在2024年3月,美国亚马逊公司花6.5亿美元购买了一座建在核电站旁边的数据中心,该核电站可提供960兆瓦的电力。长远来看,可控核聚变技术的突破或许是支撑AI大规模发展的关键。

04 节能减排,AI是助力还是阻碍?

在气候议题越发紧迫的当下,AI的发展与节能减排目标之间的矛盾显得越发尖锐。有学者担忧,从短期看来,AI增长造成的硬件需求增加必然会增加能耗和碳排放。“数字产业化和产业数字化,现阶段在整个经济系统的碳排放中占比,实际上非常高。尤其是,人们天然认为新技术产业是符合绿色、低碳要求的,但其实它们的能耗一点也不低,生命周期排放也是相当高的。”

张瑾告诉我们。她指出,总体上,学界目前认识到,数字化转型与碳排放之间呈现出倒U型关系。在数字化发展初期,大量的基础设施建设、落后的配套设施及人才,使得数字化节能减排的效应会被建设初期产生碳排放增加效应抵消;随着基础设施逐步完善,数字化的技术效率效应显现,可以大幅提升能源效率和减排效果。

“但最近我们的研究发现,(数字化转型与碳排放之间)或许是N型关系,即随着数字化发展深度和广度持续推进,数据要素和算力成为驱动经济增长的关键要素时,其对电力的需求会呈现飞跃式的增加,届时会进步一增加能耗和排放。”

也有观点认为,AI能够成为人类应对气候变化的得力助手,并且这方面的一些应用已经落地。“人工智能可以提供创新的方式来监测、分析和减少我们对环境的影响。”陈钰什告诉我们。他举例说,西门子中国上海智能制造中心的AI数字化能源管理系统实现了覆盖整个制造流程的预测性维护,在提高能源效率的同时避免了非计划停机带来的额外消耗,单位产品能耗降低24%;人工智能驱动的华为云盘古大模型、谷歌Flood Hub服务提供了更先进的气象预报,能够帮助人们应对灾难天气。除此之外,AI还可以用于电网调度、废弃物管理等领域。

然而,量化评估AI在不同技术发展阶段对环境各个方面的影响十分复杂。郑州大学管理学院讲师李国昊指出:“现在使用经济计量方法得出的结论是人工智能发展能够减少排放,但这个结论其实是存在疑问的,因为很难把AI影响碳排放的复杂机理说清楚,也很难将影响路径中其他干扰因素剔除掉。因此,还要建立更精细的系统模型,来测算它的真实影响。”

除此之外,还可能存在反弹效应——成本降低会带来技术的普及,使总能耗提升。例如,当家用汽车的发动机燃油效率提高后,驾车出行的成本降低了,人们就更倾向于驾车出行,造成总能耗增加。李国昊认为,人工智能也可能遵循同样的发展路径:随着人工智能效率提高、成本降低,其部署量和总能耗也会提高。不过,在人工智能高歌猛进的当下,讨论其环境影响有时又显得不合时宜。李国昊表示:“关注 AI的能耗本身,就像在经济发展初期去关注环境问题,本身就是不讨好的事情。”上海金司南金融研究院产品创新中心主任尹茂华评论,从可持续发展的角度来看,AI能耗问题“不是短期的热度,它是生产力和生产关系根本性变革的新工业革命”。她认为,中美的人工智能技术之间还有几代的差距,伴随大模型的商业应用落地,能源的占用和挤压正在发生,但芯片技术迭代也在同步降低能耗。人工智能引领的变革,将如何影响能源结构,需要持续关注。