推荐文章更多

推荐报告更多

2025 AI产品用户需求调研报告系列1：AI产品的用户类型细分与画像分析

人工智能 · 数字化 · 人工智能

2025-06-30

英伟达想再赢一次｜甲子光年

作者：范文婧

编辑：赵健 2023-03-22

无论生成式AI谁是弄潮儿，英伟达都是最大赢家。

作者｜范文婧赵健

上个月，英伟达创始人兼CEO黄仁勋在演讲中兴奋地谈论ChatGPT带来的变化，感叹这是“人工智能的iPhone时刻”。

而在昨晚英伟达的年度活动GTC（GPU Technology Conoference）演讲中，黄仁勋又把“AI的iPhone时刻”这句话重复了三遍。

英伟达与AI的关系不可谓不密切。2012年，Alex koshevsky、Elias suskaver和Jeff Hinton的研究团队，在英伟达Geforce GTX 580上使用1400万张图片训练了AlexNet计算机视觉模型，可处理262千万亿次浮点运算。经过训练的模型以压倒性优势赢得了ImageNET挑战赛，并触发了深度学习的大爆炸。

十年之后，相同的戏码再次上演。OpenAI凭借10000片英伟达GPU芯片来训练GPT-3大语言模型，需要进行323 x 10^21次浮点运算，比AlexNet多出一百万倍，然后创造出了震惊世界，也震惊了黄仁勋自己的ChatGPT。

在ChatGPT以及生成式AI的热潮下，英伟达的股价节节攀升，今年以来涨幅超过80%，市值接近6500亿美元，一举超过特斯拉。

英伟达也把AI当做一次二次腾飞的机遇。2023年初各大科技公司财报发布，英伟达提及AI 75次，超过谷歌、微软、Meta。本周为期四天的GTC活动包含了650多场会议，由众多研究者、开发者和行业领袖参与，其中仅生成式AI的主题会议就超过70场。

黄仁勋曾热切地表示：“AI 正迎来有史以来最辉煌的时刻。新的 AI 技术和迅速蔓延的应用正在改变科学和各行各业，并为成千上万的新公司开辟新的疆域。这将是我们迄今为止最重要的一次 GTC。”

英伟达确实没有让观众失望，在不到80分钟的演讲中，黄仁勋发布了四款AI推理芯片，包括针对生成式AI图像处理、大模型处理的芯片；发布了三个大模型云服务，分别适用于文本、图像和生物研究；发布了超级计算机，以及针对场景优化的应用100个、更新功能的工业元宇宙Omniverse。

作为一家以GPU为核心的公司，英伟达不满足于只提供算力，早已布局AI的各个领域。十年之前的深度学习浪潮让英伟达赢了第一次，十年之后的生成式AI浪潮，英伟达还会继续赢第二次吗？

1.100个场景的算力加速

生成式AI时代更加需要英伟达GPU的算力。黄仁勋首先展示了英伟达加速计算能力的更新。

除了底层的芯片，英伟达早在2006年就推出了CUDA生态，以帮助用户通过简单编程来使用GPU。针对不同的应用、场景，英伟达会做相应的适配和优化，也即“加速库”。

现有的300个加速库和400个AI模型覆盖了量子计算、数据处理、机器学习等广泛的领域，已经有数千款应用被优化。

而这次的GTC上，英伟达又更新了100个场景。

这些场景包括，在CAE软件中完成流体力学（CFD）的计算、助力量子计算研究平台（cuQuantm）、优化数据库中的搜索（Spark-Rapids）、优化捡取与配送难题PDP（配送多个地点最短路程计算）等，并且已经在客户实际体验中获得了验证。

除此之外，英伟达原有多个推理SDK也有更新，包括在推理时针对指定GPU进行优化的TensorRT、用于数据中心深度学习框架加速的Triton，以及用于机器视觉的CV-CUDA、用于视频处理的VPF等。

英伟达的100个加速库场景（部分）

值得一提的是，一直不掺和芯片制造的英伟达，这次通过一个特别的方式“参与”了一下。

芯片制造对精度的要求极高，一些产品的精度甚至是细菌的千分之一，与人类DNA链的尺寸相似。“光刻”是芯片制造最重要的环节之一，它指的是通过光学技术在晶圆上成像，以达到设计及性能预期。目前，它的精度已经可以达到3纳米，也即“3纳米制程”。

这样的光刻技术也需要大量的计算，而且是芯片设计和生产中消耗计算量最大的部分，每年需要百亿的CPU工作小时，芯片制造商每年的投资预计2000亿美元。

英伟达本次与台积电、ASML、Synopsys合作，推出计算光刻库——cuLitho。这个由芯片制造、光刻机、EDA和算力四个领域Top1企业合作的产品，已经筹备了整整四年，将光刻计算加速了40倍，从原来处理完一个掩膜版的2周缩短到了8小时。

台积电将在6月开始验证cuLitho。

2. AI超级计算机与DGX Cloud云服务

英伟达的加速计算始于其AI超级计算机DGX，这是大语言模型背后的动力引擎。

2016年，全球首款DGX由黄仁勋亲手交付给OpenAI，此后《财富》100强企业中有一半都安装了DGX，DGX成为AI研究的必备工具。

DGX配有8个H100 GPU模组。H100设计了一个专用的模块来支持transformer架构——ChatGPT的底层架构。这在GPU领域是开创性的。

H100在去年GTC发布，是目前地表最强GPU。8个H100协同工作，通过NVLINK Switch彼此相连，组成了一个巨型GPU，实现全面无阻塞通信；计算结构是AI超级计算机最重要的系统之一，400Gbps超低延迟的英伟达Quantum-2 InfiniBand具有网络内的计算功能，可将成百上千个DGX节点连接为一台AI超级计算机。

黄仁勋激动地表示：“NVIDIA DGX H100是全球客户构建AI基础设施的蓝图，已经全面投入生产。”

微软宣布Azure将向其H100 AI超级计算机开放私人预览版，AWS、Google Cloud、Oracle等云厂商，戴尔、联想等服务器厂商也将很快开放服务。

DGX最初用作AI研究，但现在正在扩展到更多的应用场景，黄仁勋将其称为“现代AI工厂”。

为了让客户更轻松、更快地享受英伟达AI服务，英伟达通过与微软Azure、谷歌GCP、甲骨文OCI合作，推出英伟达的AI云服务（NVIDIA DGX Cloud），为客户提供端到端的AI服务。

甲骨文将成为英伟达AI云的首个云合作伙伴。英伟达宣布有50家早期企业客户，覆盖消费互联网和软件、医疗保健、媒体和娱乐、金融服务。

3.英伟达大模型，AI行业的代工厂

黄仁勋表示，ChatGPT、Stable Diffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知，并两次提到这是“AI的iPhone时刻”，ChatGPT也是世界上增长最快的应用程序。

如今，每个人都是程序员，而生成式AI就是新的计算平台。就像过去的PC、互联网、移动设备和云一样，生成AI将重塑几乎所有行业。

黄仁勋表示，这个行业需要一个像台积电一样的“AI代工厂”来自定义大模型，而英伟达要扮演这个角色。

今天，英伟达宣布成立“NVIDIA AI Foundations（英伟达AI基础大模型）”，这是一项云服务，面向需要构建、改进和操作自定义大型语言模型和生成AI的客户，这些模型和生成AI使用其专有数据和特定领域的任务进行训练。

英伟达AI大模型包含“语言、视觉和生物学”三大模型。

Nvidia Nemo是“本文-本文”的语言生成模型，模型参数有80亿、430亿、与5300亿三种类型。从创建专有模型到运营，英伟达的AI专家将给予全程的指导合作。利用Nemo，企业可以快速生成大模型，用来总结财务文件、创建特定品牌或根据写作风格撰写电子邮件。

Picasso是一个视觉语言模型，用于构建和部署点生成AI驱动的图像、视频和3D应用程序。借助在Nvidia dgx云上运行的Nvidia Picasso服务，企业可以简化构建自定义生成AI应用程序所需的培训、优化和推理。黄仁勋宣布，gettyimages、Shutterstock将采用英伟达Picasso服务，Adobe将与英伟达共同打造新一代的生成式AI模型。

第三个大模型Bionemo的领域是生物学。药物研发是一个2万亿美元的产业，其中有2500亿美元投入了研发，而Bionemo包含可用于蛋白质结构预测、蛋白质生成、蛋白质性质预测、分子生成、分子对接等各个流程的模型，帮助研究人员使用其专有数据创建、微调和服务自定义模型，来节省药物研发宝贵的时间与资金。

在数百家新的AI制药初创公司之中，英伟达已经积累了至少7家公司，作为Bionemo大模型的早期用户。

黄仁勋总结道，英伟达大模型是一个“云服务和代工厂”，用于构建自定义语言模型与生成式AI。

4.四款芯片配置、一体化架构的推理平台，性能提升10倍

自十年前Alexnet以来，深度学习开辟了巨大的新市场——自动驾驶、机器人技术、智能音箱等，并重塑了人们购物、消费新闻和享受音乐的方式。而这只是冰山一角。

随着生成式AI掀起新的机遇浪潮，AI正处于转折点，使得推理工作负载呈指数级增长。AI现在可以生成各种数据，包括语音、文本、图像、视频和3D图形、蛋白质到化学物质。

设计一个云数据中心来处理生成式AI是一个巨大的挑战。一方面，理想情况下最好使用一种加速器，因为这使得数据中心具有弹性，能够处理不可预测的流量高峰和低谷；但另一方面，没有一个加速器能以最优的方式处理算法、模型、数据类型和大小的多样性。

而今天，英伟达发布了新的“兼具加速功能和弹性”的推理平台——四种配置、一个体系架构、一个软件栈。

英伟达一口气推出了四款新的芯片，第一款为AI视频芯片 L4。L4是一款针对视频的云推理芯片，功能主要集中于视频解码和转码、频内容审核、视频通话等，例如在视频通话过程中的背景替换、重新打光、增加眼神交流、语音转录和实时语言翻译等。

性能方面，在AI视频领域，一台配备 8个L4的服务器可以取代 100 多台双插槽 CPU 服务器。目前，谷歌云平台已成为首批使用英伟达 AI 云技术的企业之一。

同样是图像领域，推理芯片L40主要用于Omniverse、图形渲染和生成式AI，包括文本到图像和文本到视频等。L40的主要应用场景对标的是在2018年推出、至今仍是推理芯片主流的T4。根据英伟达的介绍，L40 的性能是 T4 的 10 倍，这让L40在处理上述任务时都更加高效。

通过L40，AI编辑软件Runway让用户可以轻松地通过几个笔触就从视频中删除一个对象，或者改变视频的背景或前景。相信目前流行的AI图片生成平台Midjourney、Stable Diffusion、DALL-E等都可以通过L40创造更多的可能性。

可以看到，虽然同为针对图像的AI推理芯片，L4关于云端的视频场景，而L40则更通用，可以实现所有与图像相关的场景优化。

针对如ChatGPT等大模型，英伟达推出了针对大模型的芯片——H100 NVL。

大模型对内存和计算方面的需求较高，也需要很高容量的横向扩展能力。目前，能够处理拥有1750 亿参数的 GPT-3 等大型语言模型的只有A100，而GPT-4等参数量更大的模型则需要更多A100的堆叠。性能方面，一台8卡的H100 NVL的速度是目前标配8卡A100服务器的10倍。这不仅意味着速度的提升，也将降低大模型公司在算力方面的成本。

最后，AI计算离不开大数据，针对海量数据的存储、查询与推理，英伟达推出了存算一体超级芯片Grace-Hopper。它由Grace CPU和Hopper GPU连接而成，拥有一个900GB/秒的高速接口。

目前，CPU会存储和查询巨型数据库，然后把结果传输到GPU里进行推理，这需要花费一定的时间。相较于CPU和GPU之间传统的通过PCIE连接，在Grace中查询嵌入并传输到Hopper的速度快了七倍。Grace Hopper 可以用来处理大型数据集，比如适用于推荐系统和大型语言模型的 AI 数据库。

5.“工业元宇宙”Omniverse

本届GTC的最后一个环节，是英伟达的“工业元宇宙”Omniverse。

Omniverse是一个工业数字化平台，最早在2019年推出，旨在搭建数字化和物理世界之间的桥梁，它让各个行业在投入实际生产之前先以数字化方式设计、建造、运营和优化物理产品和工厂。

Omniverse的用途之一是建立虚拟工厂，在那里所有的机器都是数字化的。

黄仁勋介绍道，半导体行业正在投资5000亿美元建造84个新晶圆厂，2030年汽车制造商将建造300家工厂来生产2亿辆电动汽车，电池制造商正在建造100多家特大型工厂，物流行业在全球数十亿平方英尺的仓库之间辗转运输货物。

虚拟工厂可以为全球工厂节省数十亿美元，亚马逊机器人是英伟达omniverse的代表客户之一。本次GTC，omniverse在几十个领域迎来了更新。

目前，已经有近30万创作者和设计师下载了omniverse。它不是一个工具，而是一个USD网络和共享数据库，也是一种与各行各业使用的设计工具相连的基础结构，可以连接、合成和模拟使用行业领先工具创建的3D资产。

Omniverse的发展壮大依赖于开放的生态系统。Omniverse目前已经连接到Bentley Systems LumentRT、西门子、NX、罗克韦尔、Unity等，汽车行业中沃尔沃、通用、梅德赛斯-奔驰、捷豹路虎、宝马、路特斯、丰田、Lucid等汽车制造商也在使用Omniverse开展工作。其中，宝马汽车基于Omniverse在匈牙利建造了第一座数字孪生工厂，将在2025年开业。

今天，英伟达还宣布了专门为运行Omniverse而设计的系统。第一款是由英伟达Ada RTX GPU和英特尔最新CPU驱动的新一代工作站，将从三月份开始在Boxx、戴尔、惠普和联想上市；第二个是针对Omniverse优化的新型Nvidia ovx服务器，将由戴尔、惠普、Quantn、技嘉、联想和SuperMicro提供。

最后，英伟达还推出Omniverse Cloud的云服务，支持即时、安全地访问托管的Omniverse Cloud API。英伟达正在与微软合作，将Omniverse云服务引入全球各个行业。同时，英伟达正在将Omniverse云连接到Microsoft 365生产力套件，包括Teams、OneDrive、SharePoint和Azure IoT数字孪生服务。

今年的GTC时长只有80分钟，比去年的140分钟短了近一半，但重要程度却完全不逊色。

从三款大模型到四款AI推理芯片，以及优化的100个应用场景、更新功能的工业元宇宙Omniverse，这些产品里，哪个让你最激动？

3018
0
0
0

0/140 提交