搜索
ZOMI酱:从艺术生到大模型训练专家
作者:苏霍伊 2024-04-10

技术阿甘在不停奔跑。


作者|苏霍伊

编辑|王博


一月的西伯利亚,寒风如刀。


ZOMI酱站在贝加尔湖的冰洞边缘,深吸一口冷冽的空气,让勇气充满胸腔,然后,潜入了这片古老水域。


冰冷的湖水包裹着心跳与呼吸声,水下的寂静与寒冷让人仿佛置身异世,阳光透过冰层,将湖水染成了一片梦幻的蓝色——那是贝加尔湖独有的色彩。


“感觉像灵魂出窍。”ZOMI酱对「甲子光年」说,“就像我的人生,每次做选择都像是冰潜,而每次冰潜都是一次蜕变。”

ZOMI酱(右一)在贝加尔湖,图片来源:受访者提供

在代码与艺术的交汇点,这里住着ZOMI酱。ZOMI酱从4岁开始学习美术,是一位艺术生,高考时阴差阳错地调剂进入了计算机专业。现在的他是昇腾大模型训练专家,同时也是一位哔哩哔哩(B站)AI 科普视频UP主,他起了一个颇为“二次元”的名字——ZOMI酱。“叫这个名字是因为和真名谐音,虽然听起来有些二次元,哈哈。”他解释道。


Sora发布后仅三天,他就根据Sora背后的32篇论文,制作了《全网最详细:SORA视频生成大模型原理剖析》视频,引发了行业热议。这个视频的发布时间是2月20日凌晨3点42分。有网友在视频下方留言:“你不睡觉吗?”


“晚上加班后回家,然后开始备课、做视频。”ZOMI酱回答的每一个字都写着“卷”。

ZOMI酱的B站首页,图片来源:B站

ZOMI酱似乎总是在跨界的矛盾中寻找着平衡,又在平衡中获得蜕变,用他自己的话讲,就是“既来之、则安之嘛”。


从AI芯片、AI编译器、AI框架到大模型等等,他的视频包罗AI万象,因为他对AI系统的知识解读专业、风趣,PPT设计与视频动效又颇有美感,有粉丝称他是“AI小教父”。对于这样的夸赞,ZOMI酱说:“完全不敢接话。调侃也好,玩笑也罢,大家能从ZOMI酱的视频中有所收获就好。”


35岁的ZOMI酱有着很强的“少年感”,但他其实是一位“AI老兵”。


研一时,他便一头扎进了AI领域。在一家智能手机厂商工作期间,ZOMI酱曾尝试推动终端AI情景感知项目,但并没有得到公司的支持。甚至因为他对项目的坚持,他在年终评价中被评为最差的“D级”。


对于那段经历,ZOMI酱的形容是“怀疑人生”。有些讽刺的是,几年前他坚持却未被接受的想法,如今成为了这家智能手机厂商的重要战略方向。


“有时观念过于超前也会备受打击。”ZOMI酱说。


消沉几个月后,ZOMI酱重新找到了方向。2019年6月,他加入了华为,主要负责开发AI推理引擎。当时相关技术还是“新潮玩意”,国内除了飞桨PaddlePaddle 外,几乎没有别的AI框架。做完推理引擎后,他就投入到了AI框架MindSpore的研发中。


“以前主要研究算法,到华为后就转向做AI Infra(人工智能基础设施)的相关工作了。这五六年里,基本上对AI Infra整个领域摸了个遍。”ZOMI 酱感叹,“一路走来也是起起伏伏的。现在也想明白了,我只管向前走,但行好事,莫问前程。


这份心境,就像他在贝加尔湖乘船破冰时——随着浓雾消散,水道逐渐开阔,湖岸也愈发遥远,烦恼便如同手机信号般,一格格消失了。


1.“我不卖课”


甲子光年:说吧,为什么要当AI科普视频UP主?是不是工作不饱和?


ZOMI酱:哈哈,工作不饱和是不可能的。我有时工作很晚,以前会刷刷短视频,后来觉得“很罪恶”,就想做点什么,说白了,是想不停地“卷”自己。


我自己的工作与AI Infra相关,就拟了大纲,开始一期一期做。硬核科技内容的冷启动是相当困难的,毕竟受众面不大。做视频也是自我提升的一个过程,没想到意外收获了大家的喜欢。


我一直分享AI Infra相关的知识,从AI框架、AI编译器到大模型等系列。这些都是出于我对技术的热情,偶尔涉及热点也不是刻意追求的。

ZOMI酱科普视频大纲,来源:受访者

甲子光年:大模型专家和UP主,这两个角色你如何平衡?


ZOMI酱:我不觉得自己是一名专业UP主,只是偶尔分享一些技术内容。我也不认为自己有所谓的粉丝圈,大多数关注我的人只是为了获取知识,并非因为我这个人。对于成为UP主这件事,就像喝水一样,没有太多特别的感觉。


至于如何平衡两个角色,我尽量保持工作和个人爱好的分离,确保大部分时间都花在工作上,工作时候就专心工作。虽然有时很累,但我会坚持做技术分享,我希望能将AI System知识带给需要的人,也欢迎大家参与到这个开源项目中。


甲子光年:做AI科普,有收获吗?


ZOMI酱:有,我结识了很多对AI感兴趣的朋友。最初我分享的内容较为“硬核”,发现大多关注我的是因为需要学习相关知识的大学生。比如,当我分享关于AI编译器的内容时,恰好吸引了很多学生正在上《编译原理》课程,我的视频就成了他们的“课外辅导资料”。


Sora出现后,我制作了关于它的详细原理剖析视频,这让很多科技圈外的朋友知道了ZOMI酱,也激励了我坚持做分享。


甲子光年:你背后有团队吗?想过卖课吗?


ZOMI酱:只有我一个人。制作时间取决于我对主题的熟悉程度。如果不熟悉,可能需要一两周的时间来翻阅相关文献和资料,然后将这些信息整理成脚本,录制和剪辑视频通常需要几个小时;如果很熟悉,我准备PPT和制作视频只需要一个周末的时间。


当时李一舟很火,有人也邀请我一起卖课,但我更想实现长久的事业目标,而不仅仅是短期财务收益,所以我不会卖课的。


2.“数据问题是国内视频生成领域面对的一座‘大山’”


甲子光年:Sora发布时,你在做什么?


ZOMI酱:那时候还在过年,我一早上醒来,发现朋友圈都在讨论Sora。说它不仅能生成一分钟的长视频,且效果逼真惊人。特别是那个室内冲浪的视频,展示了一个完全无法想象的场景,蛮震撼我的。


甲子光年:当时我们咨询了一些行业专家,他们最初都没有太讲明白Sora背后的技术原理。你是如何快速做出Sora视频原理剖析视频的?


ZOMI酱:我觉得我做得不算快的。只是当时发现,怎么网上都没有人去做相关的技术解读?OpenAI官网没公布太多技术细节,我主要对着官方公布的信息和文献,对32篇论文进行了详细分析,再把Sora使用的技术路线梳理出来。


甲子光年:为什么你预测Sora的参数量大约是10B级别,而不是更高?


ZOMI酱:我的理解相对直接。Sora是基于视觉大模型的视频生成模型。如果我们简化模型,忽略时间维度,其实就回到了图像大模型,像ViT(Vision Transformer)那样。


目前效果卓越的图像模型参数量大多不超过10B,通常在3B到5B范围内。加上时间维度后,模型的参数量确实会上升,但根据Scaling Law(规模法则),这种增长不会呈现指数级。


鉴于处理极大模型的实际可行性以及GPT模型的进化趋势,我预测Sora的参数量会逐步增长,即先从2B/3B,然后5B/10B,而不是突然大幅度跳跃。


甲子光年:对比Sora和ChatGPT这两大现象级产品,哪个的出现给你带来得震撼更大?


ZOMI酱:还是ChatGPT给我带来的冲击更大些。不仅因为它在技术上的突破,它还让整个行业开始正眼看待大模型。ChatGPT的发布,让我们力推的布式并行计算不再是空中楼阁,行业风向和产品设计都跟着改变了。


虽然Sora确实证明了GPT坚持的Scaling Law技术路线是可靠的,对于AI处理语言、图片到视频都大有帮助。但说起来,它还没达到像ChatGPT那样让人都为之兴奋的程度。


甲子光年:你认为Sora距离C端和B端落地还有多远?


ZOMI酱:我和谷歌的工程师朋友讨论过这个问题,对于C端,我们认为Sora距离开放其实不远,可能在3到5个月内就能看到。目前生成速度慢,消耗的计算资源多,从商业角度讲这都是不可持续的。解决这些问题后,Sora再向普通用户开放应该很快。但如果要达到广泛的商业应用,解决更根本的技术挑战,可能还需要更长时间。而对于B端,尤其是像影视这样的专业领域,可能需要更长时间。


甲子光年:Sora的推出对你的团队在技术研究方向上有什么影响?


ZOMI酱:Sora的推出确实影响了我们的研究方向。我们开始更深入地探讨多模态大模型与传统大语言模型的区别和联系。不仅是技术层面的转变,对研究方法和产品目标也重新思考了,让我们更加关注于如何提高AI集群算力和效率,服务于更广泛的应用场景。


甲子光年:Sora的框架是DiT(Diffusion + Transformer),深度学习领域的Diffusion Model雏形来自Sohl-Dickstein等人的论文,Transformer模型则来自谷歌团队的论文。那么,OpenAI在Sora项目中的原创性贡献有哪些?


ZOMI酱:OpenAI在Sora项目中的主要原创性贡献主要有两点。一是它们对Scaling Law的坚持;二是视频压缩技术。特别是视频压缩技术,它解决了将长视频转换为易于处理的Spacetime Patch,对未来视频处理和内容创作的AI技术有着正向影响。


甲子光年:Sora的出现后,Runway、Pika等创业公司怎么办?


ZOMI酱:Sora的出现迫使他们更快地创新,同时也考验着他们的适应能力和技术实力。这种进展促使初创企业必须加速自己的技术进程,寻找与大公司如OpenAI竞争的策略。


甲子光年:你认为,谁最有可能做出中国版的Sora?


ZOMI酱:这个很难说,但中国做出自己的Sora版本只是时间问题。影响成功的关键因素包括拥有顶尖人才、足够的数据和强大的算力


我们不乏人才,但在数据积累方面仍有不足。数据孤岛问题和高质量中文数据集的缺乏是主要挑战。此外算力的有效利用和算力基础设施的建设也是至关重要的。谁能在这三方面领先,谁就最有可能成功。


数据问题是国内视频生成领域面对的一座“大山”。数据的质量和可用性直接影响算法的训练效果和进展速度。很多团队在数据来源上讳莫如深,缺乏开源的高质量数据集对于发展AI技术。


甲子光年:DiT技术路线的发展路径清晰吗?


ZOMI酱:目前这条路线还有很多不清晰的地方。业界有尝试复制或重新创造类似Sora的模型,但还有很多细节未被解决。


比如如何有效地将原始视频通过VAE编码器压缩,或者如何选择最合适的路径处理视频Patch,目前还没有统一的方案。DiT模型结构虽然重要,但如何在diffusion过程中加速采样,还有许多问题需要探索。


甲子光年:Sora和Gemini能否被看作是物理世界的模拟器?它们的可行性有多大?


ZOMI酱:要论证这些项目能否作为物理世界的模拟器,首先需要明确物理模拟器的定义。目前我们所谈论的物理引擎更多的是基于直观物理学的模拟,而非严格的科学计算。至于AI模型,如Gemini、V-JEPA或Sora,它们更多地是从数据中学习规律进行生成,而不是从底层物理原理出发。所以这些模型目前更接近于基于数据规律的生成器,而不是真正的物理世界模拟器。


甲子光年:如果让你定义“物理世界模拟器”,你会怎么定义?


ZOMI酱:基于我在强化学习领域的研究,我认为物理世界模拟器的定义应该与谷歌Gemini方向相似,遵循强化学习的框架。在这种框架中,必须有一个环境和一个或多个Agents,其中Agents与环境不断交互,环境根据 Agents行为给出反馈Rewards,模型再基于这些反馈做出下一步行动 Actions。


真正的物理世界模拟器应该能够模拟这种复杂的交互过程,反映出我们在真实世界中每一项活动的因果关系及其可能产生的不同结果。它更像是一个复杂的交互系统,而不仅仅是生成物理世界现象的工具。


就像增程式汽车在汽车完全电动化的道路上是过渡方案一样,Sora可能不是实现完全精确物理世界模拟的最终答案,但它代表了迈进这一目标的一个重要步骤。虽然这个比喻不完全准确,但也能说明Sora所处的位置:一个阶段性的创新,能让我们逐渐感受到领域的变化,即使这种变化不是一步到位的。


甲子光年:有人说,Sora的出现是“GPT-3时刻”,你同意吗?


ZOMI酱:我觉得是从GPT-2走向GPT-3的转折点吧。虽然它没像GPT-4或ChatGPT那样,但Sora确实向我们证明了,从 GPT-1到GPT-3 的Scaling Law是行得通的。不光对文本,对图片、视频等多模态内容也有效,但我觉得Sora还没到彻底颠覆行业的地步。


甲子光年:国内团队追赶 ChatGPT 和 Sora,哪个难度更大?


ZOMI酱:追赶ChatGPT的难度更大。尽管有人声称能在短时间内追上ChatGPT或Sora,事实上从ChatGPT发布以来,我们看到国内外企业都有尝试,但GPT-4的效果并非一日就能追赶上的。相比之下,人们对视频内容的容错率相对较高,追赶起来可能相对容易一些。NLP领域有明确的评价标准,而视频内容的评价更主观。


3.“面对质疑,最好的回应是用技术和产品说话”


甲子光年:不少人把Scaling Law奉为圭臬,你是怎么理解的?


ZOMI酱:我们常认为,Scaling Law的意思是模型越大,效果就越好,其实不然。以ChatGPT的发展为例,从GPT-2到GPT-3,模型从几十亿到千亿参数的增长确实带来了效能的飞跃,但也遇到了所谓的“Grokkinng现象”。


核心问题在于,当模型的大小增长到一定程度,如果没有足够的数据去匹配模型参数增长,模型内部的参数或许就没法得到有效学习。就像谷歌的PaLM模型和GPT-3的对比,PaLM有5400亿参数,GPT-3有1750亿参数,但并不是参数越多效果就绝对越好。所以Scaling Law不仅仅是增大模型规模,更多的是要数据、算力和模型三者之间的匹配。


甲子光年:有些问题,不仅仅是堆算力就能解决的。


ZOMI酱:对,AI基础设施关键在于提升整个计算集群的利用率和稳定性。即便你有澎湃算力,如果利用率不高,算力也都白费了。而且大模型训练过程中会遇到的一个挑战是训练的中断,只要有其中一张卡坏了、有一个节点出了问题或者网络拥塞,可能会导致整个业务的中断。所以算力的稳定性不仅仅是拥有强大的计算资源,还包括了整个AI平台的稳定性和高效利用率。


网络拓扑、软件驱动及对硬件模块的监控和预警也是确保稳定性的关键环节。每一层都需要确保自己的稳定性和可维护性,从硬件到软件,再到算法层面。


甲子光年:维持这种稳定性的挑战有多大?


ZOMI酱:挑战其实蛮大的,涉及到从机房建设、网络布局,到硬件和软件的每个层面。比如网络拥塞、器件温度控制都可能引起训练过程的中断。实际上每个部分都需要有精确的控制和监测,从而预防和快速响应可能的问题。


甲子光年:不同厂商在维持集群算力稳定方面的方法有什么差别吗?


ZOMI酱:英伟达和华为在这方面的具体做法没有太多公开资料,但可以肯定每个厂商都有自己的策略和考虑。基本上大家的目标都是提高集群算力利用率和确保训练过程的稳定性,只是具体到技术细节和运维策略会有所不同。每家厂商都会根据自己的技术栈和产品特性来调整和优化。


甲子光年:如何测算大模型训练所需的算力?


ZOMI酱:有具体测算公式。它最初由英伟达在Megatron-LM的文章中提出,后经过实践调整。我之前也在B站分享了一个关于大模型训练和推理的算力与内存消耗的视频。这些测算可以帮助我们决定训练多大的模型,需要多大的算力和集群规模。但是,即便算出了所需算力,也不能简单等同于能训练出与OpenAI相似的高质量模型。


甲子光年:AI模型,特别是多模态模型,对算力的要求有多高?


ZOMI酱:视频生成模型对算力的需求确实在增加,但不至于需要到万卡级别的AI集群。文生视频可能需要专用的解码器或更多的CPU参与处理,尤其是涉及到视频和图像编解码。同时视频生成还可能依赖大语言模型来增强生成内容的丰富性和准确性,这又可能进一步增加对算力的需求。


总之,算力需求的增加不仅仅体现在GPU/NPU上,CPU和专用处理器的作用也变得更加重要。

英伟达最新发布的GB200 Superchip就集成了2个Blackwell GPU与1个Grace CPU,图片来源:英伟达GTC

甲子光年:国内的算力资源紧张问题如何解决?


ZOMI酱:主要还是要从算力层面着手。国产算力,尤其是华为,为解决算力紧张问题提供了重要支持。可以从模型层面探索更高效的算法以减少算力需求,但提升和优化本身才是解决这一矛盾的关键。

昇腾AI全流程,图片来源:昇腾

甲子光年:你怎么看美国对华芯片出口限制?


ZOMI酱:从个人角度,我认为这反而是利好消息,因为这种情况可以促使国内加速发展自主算力和芯片技术。当然也有担忧,但这种竞争和限制实际上为国内技术积累和AI芯片厂商提供了发展的机会和窗口,让我们有更多机会研究和深入技术,而不是完全依赖进口算力解决方案。


甲子光年:当前国产算力是否迎来了春天?


ZOMI酱:我认为国产算力的春天正在到来的路上。


甲子光年:对于质疑国产算力的声音,你有什么想对他们说的吗?


ZOMI酱:什么都不说。面对质疑,最好的回应是用技术和产品说话。通过实际应用和性能展示,让市场和用户判断国产芯片的实力。


甲子光年:当前工作中,你主要关注哪些方向?


ZOMI酱:我的工作主要聚焦于大模型分析、集群线性度和利用率的提升。涉及分布式算法优化,确保集群的高效运作,以支持大规模模型的训练和运算需求。通过提升集群的算力利用率和软硬件协同能力,我们正在努力发挥国产算力平台的最大潜能。


甲子光年:你预计2024年人工智能大模型领域还将发生什么?


ZOMI酱:感觉2024年会有两个显著趋势:一是多模态的成熟与拓展,二是关于AGI和世界模型的持续讨论和争议。多模态的进展将不限于视听媒体,还将涵盖更多新型的模态组合;而AGI和世界模型的概念将引发新的研究和论文,这些探讨将进一步推动技术前沿的发展。


另外,还有观点认为我们将逐渐接近实现所谓的GPT Zero,即利用人工智能训练人工智能的阶段。这种自我迭代的能力如果实现,代表我们在人工智能领域向更加自动化和自主化的方向飞跃,所以这也是值得密切关注的一个重要趋势。


4.“我是技术阿甘”


甲子光年:关于大模型,朱啸虎近期的一篇访谈引发了广泛关注。他不看好中国大模型公司,理由是这些公司缺乏应用场景和数据。作为一线的大模型训练专家,你怎么看这种观点呢?


ZOMI酱:我认为在大模型这个议题上存在两个主要观点:技术派和市场派。朱啸虎的看法可能更偏向市场派,而我是技术派,也就是更倾向于萨姆·奥尔特曼(Sam Altman)的派别。


开发和研究大模型是必要的,因为核心技术的掌握至关重要。虽然目前国内企业还未能完全匹配国外顶尖大模型的性能,但如果我们不投入研发,就永远赶不上。这跟20年前的联想和华为的情况有些相似,坚持技术研发的公司最终能够积累宝贵的技术资产和市场竞争力。


甲子光年:可能短期,市场派会觉得说这东西没有效益,觉得做这些无用。但是技术派都是长期主义。


ZOMI酱:是的。


甲子光年:你从小是学美术的,搞技术是你的本意吗?


ZOMI酱:是一次阴差阳错,考虑艺术不好找工作,因此考大学时选择调剂到计算机专业。那时候计算机专业不温不火,最火的专业是土木工程。后来我觉得计算机也很有意思,一路读到博士,还做了一些自动化方面的研究。


甲子光年:你说你想不停地“卷”自己,为什么?


ZOMI酱:一旦停下来,我就会觉得焦虑。


甲子光年:是因为技术发展太快了吗?


ZOMI酱:倒也不是,更多还是对技术或者对人生有追求吧。说实话,我对自己未来的目标还没有很清晰,躺着玩手机是永远想不清楚这个问题的。


我很喜欢《阿甘正传》,看了不下十遍。电影中,当珍妮离开阿甘的时候,阿甘不知道怎么办,他就一直跑。后来跟随他的人越来越多了,直到他找到自己想做的事情了,他就停止了奔跑,去做自己想做的事了。


我也是这样的,我觉得自己是技术阿甘。我一直在奔跑的路上,会学习到不同的技术,看到不同的风景,认识不同的人。这不,也认识了「甲子光年」。

图片来源:电影《阿甘正传》

甲子光年:奔跑的路上很辛苦,有什么释放压力的方式吗?


ZOMI酱:我喜欢去看山看海,喜欢徒步、冲浪、浮潜。今年元旦,我还去了一趟贝加尔湖,体验了冰潜。跳入水中,不断下潜,感觉自己似乎没办法呼吸的那一瞬间,自己就像重生了。


甲子光年:如果用三个词来形容自己,你会用什么?


ZOMI酱:这有点像面试了,哈哈。我觉得三个词多了,说两个吧:第一个是少年,第二个是谦卑。少年是永远对技术和相关事物保持一个非常乐观和好奇的心态,谦卑是永远地对自己所在的领域、知识保持着一个虚心学习的态度,这就是我。


(封面图来源:受访者提供)


  • 1866
  • 0
  • 0
  • 0
评论
登录甲子光年
其他登录方式
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
找回密码
获取验证码
注册甲子光年
获取验证码
注册即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
绑定手机号
获取验证码
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
完善资料
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
微信登录
扫描二维码 | 授权登录甲子光年