Meta转向火热的AI赛道,芯片、产品化和配套追赶是难题
【导读】Meta面临着一个棘手问题:尽管对AI研究斥巨资,但产品转化进展缓慢,直到ChatGPT火了之后才开始注重。Meta之前对生成式AI需要的GPU这种更贵的芯片部署不够,而是靠CPU。当发现不可行之后,Meta转而采购数十亿美元的英伟达GPU,但这时候已经被微软和谷歌等巨头甩开。目前,Meta计划开发一款新型芯片,能像GPU一样训练AI模型并执行推理,计划在2025年左右完成。此外,相关负责人还表示,Meta在AI开发的工具和流程方面都明显需要改进。
Meta的内部邮件显示,2022年夏季末,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)曾召集他的主要助手,对Meta的计算能力进行了5个小时的分析讨论,重点是Meta开展先进人工智能(AI)工作的能力。
根据内部邮件、公司公告,以及相关知情人士的透露,Meta面临着一个棘手的问题:尽管在AI研究方面进行了大规模投资,但关于如何在主营业务中引入对AI友好的软硬件系统,Meta进展缓慢。在Meta越来越依赖AI去支撑进一步增长的情况下,这影响了该公司推动全面创新的节奏。
这封来自Meta新任基础设施负责人桑托什·贾纳尔汉(Santosh Janardhan)的邮件显示:“在针对AI的开发方面,我们在工具、工作流和流程方面明显落后,需要在这方面进行大笔投资。”这封邮件于9月份发布在Meta的内网,近期首次被曝光。
邮件中还表示,支撑AI工作需要Meta“从根本上改变硬件基础设施设计、软件系统,以及提供稳定平台的方法”。
在一年多时间里,Meta正在开展一个庞大的项目,补足其AI基础设施的短板。尽管Meta公开承认在AI的硬件发展上有些落后,但这方面的细节,包括算力压力、管理层更迭和一个被放弃的AI芯片项目,此前从未被报道过。
对于这封邮件和相关的重组举措,Meta发言人乔恩·卡维尔(Jon Carvill)表示,“凭借在AI研究和工程开发方面深厚的专业知识,Meta在构建和部署最先进的大规模基础设施方面已经得到了证明”。
他表示:“随着我们为应用和消费产品提供新的AI体验,我们很有信心能继续拓展基础设施能力,以满足短期和长期的需求。”
但对Meta放弃AI芯片项目的消息,他拒绝回应。
根据Meta披露的信息,此次重组导致该公司的资本支出每季度增加了约40亿美元,几乎比2021年翻一番,并导致4个地点数据中心的建设计划分别暂停或取消。
Meta还正面临财务压力。自去年11月以来,Meta启动了自千禧年代互联网破灭之后未曾有过的大规模裁员。
另一方面,微软支持的OpenAI于去年11月30日发布了ChatGPT,这一AI聊天机器人迅速成为有史以来用户数增长最快的消费级应用,并引发了科技巨头之间的AI军备竞赛。大型科技公司纷纷推出自己的生成式AI产品。这种AI除了可以识别数据中的模式之外,还能根据输入信息以类似人工的方式生成文字和视觉内容。
多名消息人士称,生成式AI消耗了大量算力,导致Meta更加迫切地需要扩大计算基础设施。
1
曾对烧钱的项目投入不够
消息人士称,问题的一大关键在于Meta很迟才开始在AI工作中引入GPU芯片。GPU非常适合AI计算,可以并行执行大量任务,大幅减少处理海量数据的耗时。当然,价格也更贵,市场份额的80%都在英伟达手里。
所以,Meta很大程度上是靠CPU来承担AI计算任务。CPU是计算机行业的主力芯片,在过去几十年中遍布全球的数据中心,但不太适合处理AI计算任务。
根据两名消息人士的说法,Meta还使用自主设计的订制芯片来进行AI推理。然而到2021年,事实证明,采用CPU和订制芯片在AI领域比GPU速度更慢、效率更低。此外,与Meta采用的芯片相比,GPU在运行不同类型的AI模型时也更具灵活性。
Meta拒绝对其AI芯片的性能置评。
消息人士表示,随着扎克伯格推动Meta转向元宇宙,算力压力影响了Meta部署AI以应对竞争威胁的能力,例如社交媒体对手TikTok的崛起,以及苹果主导的广告隐私政策调整。
这些挫折也引起了Meta前董事会成员彼得·蒂尔(Peter Thiel)的注意。他于2022年初从Meta董事会辞职,但没有做出任何解释。
知情人士称,在他辞职前的一次董事会会议上,蒂尔对Meta高管们表示,他们对Meta的核心社交媒体业务太自满,而且对元宇宙太走火入魔。
2
转而选择GPU,但已落后
一名消息人士称,2022年,在取消了订制推理芯片的大规模部署计划后,Meta高管们转而开始采购价值数十亿美元的英伟达GPU。到这时,Meta已经明显落后于谷歌等竞争对手。谷歌早在2015年就开始部署订制版本的GPU,即TPU。
2022年春季,Meta高管还着手重组Meta的AI部门,任命了两名新的工程负责人,包括9月份邮件的作者贾纳尔汉。根据领英平台上的资料以及知情人士的说法,在长达数月的动荡期内,十几名管理者从Meta离职。MetaAI基础设施的管理团队几乎被彻底更换。
接下来,Meta开始重新规划数据中心基础设施,以适应即将部署的GPU芯片。相比于CPU,GPU的耗电量和发热量都更大,并且需要通过专门设计的网络连接大量芯片,形成集群。
根据贾纳尔汉的邮件以及消息人士提供的信息,这些设施需要24到32倍的网络容量,以及新的水冷系统来管理芯片集群的散热,因此相关设施需要“完全重新设计”。
随着工作的推进,Meta制定了内部计划,着手开发一种新的自主芯片。这种芯片可以像GPU一样训练AI模型并执行推理,目前计划在2025年左右完成。
Meta发言人卡维尔表示,一些数据中心建设项目目前处于暂停状态并将过渡到新设计,这些项目将于今年晚些时候重新启动。他拒绝就Meta内部的芯片项目置评。
3
产品落地进展缓慢
在扩大GPU算力的过程中,Meta目前几乎没有任何新的产品技术可以展示。相比较之下,微软和谷歌等公司正在推动生成式AI产品的公开商用(必应聊天、Bard等)。
今年2月,Meta首席财务官Susan Li承认目前没有将太多算力投入到生成式AI。她表示,“我们所有的AI能力基本上都给了广告、信息流和短视频Reels”。
根据消息人士的说法,直到去年11月ChatGPT推出后,Meta才开始重视生成式AI产品。他们表示, Facebook的AI实验室FAIR虽然从2021年末就开始发布相关技术的原型,但并没有把研究转化为产品。
随着投资者兴趣的提升,情况正在改变。2月,扎克伯格宣布成立一支顶级生成式AI团队,将“大幅推动”公司在该领域的工作。
Meta首席技术官Andrew Bosworth本月也表示,生成式AI是目前他和扎克伯格花时间最多的领域,预计将在今年发布一款相关产品。
两名熟悉新团队的人士表示,该团队的工作处于早期阶段,重点是构建基础模型作为核心,未来可以针对不同产品需求进行调整。
Meta发言人卡维尔表示,一年多来,Meta的许多团队都在开发生成式AI产品。他证实,在ChatGPT到来后的几个月里,这方面工作已经提速。
- 0000
- 0000
- 0000
- 0000
- 0000