
AI算力的VMware时刻:趋动科技与“软件定义GPU”的十年长跑。
作者|王艺
编辑|栗子
OpenAI把大模型推向大众市场之后,AI产业的叙事迅速从“能不能做”切换到了“值不值得做”。模型能力还在攀升,企业部署AI应用的热情也在持续高涨:客服、营销、研发、办公、数据分析,几乎每一个数字化场景都在被重新改写。
但热潮的另一面同样明显——应用越多、调用越频繁、账单越厚,越来越多企业开始发现,真正卡住AI落地速度的,不只是模型效果,还有成本结构。
表面上看,贵的是Token;再往下拆,贵的是算力;再往深处看,贵的其实是“没有被有效组织起来的算力”。
从CPU虚拟化催生云计算时代,到GPU虚拟化开启智算新纪元,算力产业的每一次跃迁,本质上都是“软件重新定义硬件”的故事。趋动科技押注的,正是这样一个历史性的结构转折点:当AI从实验室走向千行百业,决定其最终普及速度的,不是谁家的模型更聪明,而是谁能把算力的成本降到足够低、供给做到足够稳。淘金热中最确定的赢家,从来不是挖到最大金块的人,而是那个把铲子卖给所有玩家的人。
在AI产业从“能用”迈向“用得起”的关键转折中,趋动科技正试图成为那把不可或缺的铲子。
1.算力的终局,由软件定义
过去很长一段时间,行业对“算力贵”的理解,更多停留在供给侧:高端GPU太少、芯片太贵、智算中心建设投入太大。但在趋动科技创始人王鲲看来,随着国产GPU持续进步、各地智算中心密集上马,问题已经不只是“有没有卡”,而是“这些卡有没有被真正用起来”。当AI进入应用时代,决定成本曲线的,不再只是名义上的装机量,而是能够被稳定调用的有效算力规模。
一组数据足以说明问题。AWS曾公开提到过GPU利用率大约在10%—30%;而趋动科技接触到的国内很多客户GPU利用率低于15%,甚至还有不少低于10%。这意味着,今天AI产业里大量最昂贵的基础设施,并没有持续转化成对应的生产力。
一台华为910C服务器约200万元,一台英伟达B300服务器近期价格也涨到了近600万元;如果算力利用率只有10%,那意味着90%的昂贵资产,长期处于“买了、装了、分了,但没真正高效使用”的状态。可以说,今天的AI产业缺的并不只是算力,更是那些“会流动的算力”。
而这,正是趋动科技想解决的问题。
要理解趋动科技在做的事,需要先理解一个更底层的逻辑。
人类使用算力的方式,最终只有两种:要么直接通过硬件使用算力,要么通过一层软件来使用硬件的算力。前者是“硬件定义算力”,后者是“软件定义算力”。两者的区别,不只在于技术路径,而在于“算力能否被高效复用”。
如果用户直接操作硬件,用户和硬件之间就存在绑定关系:一张卡分给一个人、一个团队、一个业务,即便大部分时间没在用,这张卡也很难被别人拿去复用。
而如果用户不是直接操作物理硬件,而是通过一层软件来使用硬件,那么软件就可以在用户无感知的情况下,对底层硬件进行切分、调度、复用和池化。于是,原本“独占”的算力,才有可能变成“共享”的算力。
“直接使用硬件,意味着用户和硬件之间有绑定关系,”王鲲解释道。“就像酒店的长包房,你在那租六个月901房间,哪怕你三天两头不来,这个房间也是锁着的,酒店少卖了钱。但如果这个901不是一个物理的901,是一个虚拟的901呢?你只要来住,我随便找一间空房,说它是901,你也觉得它是901——这不就成了吗?”
这就是虚拟化的逻辑本质——把硬件从“独占”变成“共享”,把资源从“静态绑定”变成“动态调度”。
这个逻辑并不新鲜。二十多年前,VMware用完全相同的思路对CPU做了虚拟化——一台物理服务器变成多台虚拟服务器,把企业数据中心的CPU利用率从10%拉到了60%到70%。这一技术直接催生了云计算时代,VMware也因此成长为市值近700亿美元的基础设施巨头,最终被博通以610亿美元收购。
今天,同样的故事正在GPU领域重演。趋动科技正试图在不改变用户体验的前提下,把“独占GPU”变成“共享算力池”。
在趋动科技的方案里,用户感知到的仍然像是一张“自己的卡”,但后台真正运行的已经不是固定的物理GPU,而是一个可统一调度的资源池。用户不用时,这张“虚拟卡”并不占用真实资源;用户真正发起任务时,系统才会在池子里为其即时分配可用算力——换句话说,趋动科技试图把GPU从一个必须被提前买断、长期绑定的硬件资产,变成像票据一样可以被动态领取、即时兑付的资源单元。
这种逻辑听起来像云计算,但做起来比云计算早期的CPU虚拟化更难。
云计算的本质是共享经济。共享经济的前提是多租户对资源的复用,复用的前提是所有硬件都要能被“软件定义”。趋动科技认为,GPU不能继续以硬件独占的粗放方式来使用,而是需要通过软件,进行精细化的管理和使用。
英伟达自2006年推出CUDA生态以来,在全球高性能计算领域建立了一个从硬件到软件、从开发到部署的完整技术闭环,形成了极高的迁移成本和生态壁垒,拥有高达95%的市占率(2025年Q4数据),这导致AI应用的开发高度依赖英伟达CUDA生态,很多AI应用的本质是“CUDA应用”。

2024Q1-2025Q4美国和中国各大厂拥有的AI芯片 ,图源:Epoch AI
趋动科技要做的,实际上是去模拟并兼容整套CUDA生态,让用户在尽量无感的前提下,继续像调用原生GPU那样调用底层算力。他们把自己类比为“GPU时代的VMware”——“VMware为什么那么强?因为它既做了软件定义CPU,也做了软件定义存储、软件定义网络,是一个全套的方案。”王鲲说,“我们认为,未来的AI智算中心也一定需要这种软件定义化。除非你不希望提高利用率,不希望降低成本——只要你有这个需求,就一定要走多租户复用、共享经济的路子。”
2.算力“超卖”的真正门槛
GPU虚拟化并不是新话题,但大多数方案解决的,其实只是“切分”问题,而不是“池化”问题。
GPU虚拟化技术大致可以分成三层:硬件层、内核层和运行时层。硬件层的代表如NVIDIA MIG,优点是性能损失小,但只能固定比例切分,也只支持部分高端GPU;内核层的代表如vGPU、qGPU、cGPU,虽然更进一步,但本质上仍然更多站在“单张卡”的角度处理问题。它们可以切分,但很难把整个数据中心里分散的GPU真正组织成一个统一资源池,更难做到跨服务器、跨节点调用GPU、动态分配、自动释放与超分超售GPU。

CUDA软件栈架构,图源:中国计算机学会
趋动科技认为,真正有价值的,不是“把一张卡切成几份”,而是“让整个数据中心都变成一个池子”。因为只有池子足够大、调用边界不被单台服务器限制,GPU算力才能被“超卖”,资源的复用才能真正发生。
王鲲本硕博都毕业于中国科学技术大学,先后在IBM,微软和戴尔EMC工作多年,担任过戴尔EMC中国研究院院长。2007年他在IBM开始做CPU虚拟化;2012年开始做FPGA虚拟化,是全球最早做FPGA虚拟化的团队之一。2016年,AlphaGo击败李世石,王鲲判断AI即将爆发,开始带领团队着手研究手英伟达GPU的虚拟化。2018年底,王鲲和两位同样是博士出身的搭档决定自己出来创业。
做GPU的虚拟化,是一项耗时漫长、且需要花费巨大心血的过程。2019-2022年,王鲲带着两位搭档从头开始写代码,花了三年多的时间,支持了英伟达CUDA生态中的全部接口——累计超过30000个API,覆盖了CUDA从9.0到13.1的每一个版本。“GPU虚拟化软件相当于GPU的操作系统,”王鲲强调,“站在用户角度,它只有能用和不能用两个状态。就算你支持了27000个API、覆盖了英伟达CUDA生态的90%,但只要用户用到了一个你没支持的接口,这个软件对用户来说就是不可用,依然是零分。因此,这个软件的开发工作量巨大。同时,开发人员需要具备GPU体系结构,操作系统,网络优化等多方面的能力,开发门槛极高。”
同时,为了保证产品质量,趋动科技建立了超过600万条的测试用例库。每次发版之前,600万条测试用例必须全部通过。据称全球顶级的企业数据库软件Oracle的测试用例大约是2000万条,这意味着趋动科技已经达到了Oracle的三分之一的规模。
这种极致的工程投入换来的回报是极致的稳定性。趋动科技的产品2022年初开始至今,在重要客户的生产系统中已经7×24小时地稳定运行了超过4年时间。同时,采用趋动方案的客户GPU利用率平均提升了约4倍——有的客户提升了3倍,有的甚至达到了10倍。这意味着,原来需要买100台服务器的企业,现在只需要25台。以一台B300服务器600万元计算,75台服务器的采购差额就是4.5亿元。而趋动的软件售价通常只相当于客户节省金额的五分之一甚至更少。
一位银行客户的案例尤为典型:2026年初,这家银行在采购新一批GPU硬件时,直接在立项第一天就把趋动的软件纳入了规划。“这说明市场的认知已经在转变,”王鲲说,“这个客户第一天就想明白了,未来可能要买很多硬件,因此算力的利用率一定要提高。”
截至目前,趋动科技已经服务了超过200家头部客户,覆盖互联网、金融、电信运营商、自动驾驶、能源、科研机构和高校等多个领域。
3.三大核心技术,解决算力调度难题
趋动科技之所以能在成立短短几年内获得200多家客户的认可,要得益于其三项核心技术能力——远程调用、显存复用和模型快速切换。
远程调用:超卖的基石
在王鲲看来,算力的浪费有两种——空间维度的浪费和时间维度的浪费。空间维度的浪费,就像一间大会议室只坐了两个人,剩余座位空着;时间维度的浪费,就像会议室白天开会、晚上空着。
解决空间维度浪费的方法是“打隔间”——把一张大GPU切分成几份给不同用户用;解决时间维度浪费的方法是“超卖”——10间会议室卖给30个团队,根据使用情况动态调度。
时间维度浪费的本质原因是潮汐效应。未来AI的应用更多会是推理类的,而推理和用户日常的工作、学习和生活等紧密相关,因此潮汐效应不可避免。
目前,GPU虚拟化领域的大部分其他玩家还停留在“打隔间”阶段,包括基于开源项目HAMi的方案、英伟达自己的MIG和vGPU方案等,这能解决“空间维度的浪费”,但对"时间维度的浪费"束手无策。
“打隔间相对更容易,只需要解决隔离性。而且大模型时代很多时候因为模型规模很大,是不需要打隔间切分GPU的。”王鲲说,“但是GPU超卖的难度非常高。这是因为GPU超卖不但需要模拟出使用体验和物理GPU一样的虚拟GPU给到每个用户,还要保证超卖失败率非常低。”
真正的“超卖”需要的是远程调用能力:让用户的应用可以跨网络、跨服务器调用任意一张GPU,而用户对此完全无感知。
王鲲给「甲子光年」算了一笔账:一台服务器通常只有8张GPU,如果超卖只能在一台服务器的范围内进行,8张卡被同时占用的概率很高,超卖失败的风险太大;但如果一个数据中心有8000张GPU,只要整个数据中心还有闲置的卡,超卖就不会失败。这相当于通过远程调用的能力把GPU超卖从一台服务器扩展到整个数据中心,池子里卡越多,超卖失败的概率就越低。
但这件事做起来极其困难。英伟达的CUDA应用每秒钟会调用超过100万次CUDA API。每一次远程调用都意味着要把计算请求和数据发到另一台机器、等它算完、再把结果拿回来。趋动科技的第一个版本,远程调用的性能损失高达97%——几乎不可用。
“我们踩了无数的坑,”王鲲坦言,“没有什么silver bullet(立竿见影的解决办法),也没有一个单点突破就一片坦途的时刻。30000个CUDA API的行为各不相同,团队需要逐一分析每个API的行为模式,比如哪些操作可以合并批量发送、哪些结果可以乱序返回而不影响正确性、哪些必须严格同步等。这是一个纯粹依赖科学研究和工匠精神的过程,没有捷径,也没有取巧的可能。这也使我们坚信,任何后来者想要复刻趋动的技术,都需要把趋动过去踩过的坑全踩一遍。”
经过十年的打磨,趋动科技将远程调用的性能损失降到了不到3%。在微秒级延迟的网络条件下,性能损失可以控制在个位数百分比。即使跨城域网络,延迟升至毫秒级,也能正常工作。
显存复用:一张卡跑多个模型的秘密
在大模型推理场景里,真正稀缺的往往不是计算单元,而是显存。不同业务团队可能都在跑相同的模型,但传统模式下,它们会在GPU的显存里重复加载完全相同的权重数据。
趋动科技试图用一种接近存储“去重”的思路来解决这个问题:既然相同模型中大量权重数据是只读且重复的,就没有必要反复占用显存。趋动科技利用其虚拟化层对GPU显存访问的全局可见性,自动识别和消除重复数据。通过这项技术,一张原本只能跑一个模型的卡,现在可以同时跑两个、三个甚至更多相同模型的实例——显存占用大幅降低,而GPU算力的利用率相应倍增。

显存复用技术原理,图源:方正证券
模型快速切换:时间维度的效率极限
如果说显存复用解决的是“空间维度浪费”的问题,那么模型快速切换解决的就是“时间维度浪费”的问题。
如果两个用户跑的是不同的模型,去重就失效了。这时候解决算力浪费的唯一方式,就是模型之间的快速切换——A用户不用的时候,快速把它的模型“存盘”(将显存状态保存到CPU内存),立刻把B用户的模型“调盘”(从CPU内存恢复到显存),让同一张GPU在不同模型之间快速轮转。
表面看,这是调度问题;本质上,它考验的是整套软件对GPU资源、任务状态和用户体验的联合掌控能力。 也正因为如此,趋动科技更愿意把自己定义成“操作系统型软件”,而不只是某种加速器或管理插件。
趋动科技可以在用户任务不中断的前提下,将任务从一张GPU无缝切换到另一张GPU。整个过程对用户透明,用户的操作感知变化不大。王鲲打了一个比方:“就像你在高速公路上换了一条车道,但方向盘、仪表盘、油门刹车的感觉完全一样。”
综合来看,远程调用解决了“超卖基础设施”的问题,显存复用解决了“空间维度效率极限”的问题,模型快速切换解决了“时间维度效率极限”的问题——这三项技术共同构成了趋动科技的技术护城河。
趋动科技对数十家客户做的一项统计客户未来三年 GPU 保有量的调研结果显示,这些客户当前共有4万多张GPU卡,其中的9千多张卡正在运行趋动的软件。三年后,这些客户预计共有超过11万张GPU卡。这意味着,即便只考虑这些客户,趋动科技的软件都有至少10倍以上的增长空间。
4.AI芯片的“安卓操作系统”
任何基础设施型公司的商业想象力,最终都取决于它是不是一个“不可绕过的关键节点”。
一旦AI进入大规模应用期,算力就不再只是一次性的采购,而会变成持续流动、持续结算、持续优化的生产要素。谁能掌握资源调度权,谁就有机会在巨大的算力流量中拿到那一小段、却极有含金量的“通行费”。
趋动科技的OrionX,就是这样一个“调度算力资源”的产品。它通过创建一个虚拟化的GPU资源池,将物理GPU与AI应用解耦。在这个资源池中,OrionX可以根据任务的需求动态地分配和回收GPU资源。这种动态分配不仅包括算力,还包括显存和其他相关资源。OrionX还支持通过TCP/IP或RDMA网络实现远程GPU访问,这意味着GPU资源可以在数据中心的任何位置被调用,就像本地资源一样。

软件定义AI算力架构图,图源:趋动科技
在控制层面,OrionX不仅涵盖了配置、监控、告警、升级等基础运维管理功能,还引入了一系列高级特性,包括但不限于调度策略、热迁移、算力的弹性扩缩容、任务队列管理、优先级设置以及资源抢占机制。这些高级特性的集成为OrionX在企业级数据中心的部署和运维提供了坚实的基础,确保了系统的高效运行和灵活管理。
除了OrionX这一软件解决方案,趋动科技还通过自有算力出租、合作售卖、池化算力服务等多种形式参与算力租赁。在当下算力租赁市场竞争激烈、平均毛利率只有2%-3%的红海中,趋动科技的算力租赁业务可以做到20%甚至更高的毛利率,这也意味着他们摆脱了纯“搬箱子”的模式,真正让算力变成了可自由流通的“生产要素”。
可以说,趋动科技做的是一门“算力抽税”的生意——通过帮用户提高生产效率的方式提高生产率,进而从中抽成。“AI算力产业是一个万亿级的市场,即便趋动科技只提升20~30%的算力效率,从中抽2%-3%的成,利润都是非常可观的。”王鲲说。
更重要的是,趋动科技卖的不只是“省钱”,还有“确定性”。当企业把AI从试验场搬进生产系统,它们关心的不仅是利用率能提高多少,还关心系统是否稳定、是否安全、是否能兼容异构芯片、是否支持私有化部署、是否能长期在线运转。王鲲表示,趋动科技除了支持全系列英伟达GPU,还支持当前主流的国产GPU,并且已经在金融、运营商,能源电力等对稳定性和安全性要求极高的重要客户的生产系统上稳定运行了数年时间。
对于金融、运营商、能源电力这类客户来说,趋动科技提供的不只是一套“更便宜的卡”,更是一套让AI基础设施真正可运营、可扩展、可长期依赖的软件底座。“趋动科技产品的本质是英伟达和国产GPU的操作系统,更长远的目标是做AI芯片的安卓操作系统。”王鲲说。
这也是王鲲给趋动科技设定的位置:不去做淘金者,而去做“卖铲人”。
「甲子光年」认为,如果说模型公司在定义智能的上限,应用公司在扩张智能的边界,那么趋动科技正在解决的,是AI产业里那个更底层、也更容易被忽视的问题——如何把一堆昂贵但低效的GPU,变成真正可调度、可复用、可规模化供给的“有效算力”。
根据公开信息,趋动科技自2019年成立以来已完成多轮融资,累计融资金额近1亿美元,包括国开装备基金、沙特阿美旗下多元化风投基金Prosperity7 Ventures、元禾重元、招银国际、顺为、高瓴、嘉御、戈壁、讯飞和涌铧在内的多家国内外顶级VC参与投资。
今年三月发布的《中华人民共和国国民经济和社会发展第十五个五年规划纲要》中明确提出:“适度超前建设新型基础设施 ...... 深入推进东数西算工程,构建多层次算力设施体系和全国一体化算力网 ...... 建设算力监测调度平台,制定完善算力资源池化,并网,监测,运营,调度等标准规范。”

可以看到,算力资源池化已经被写入十五五规划,而趋动科技也正在参与算力资源池化国家标准的制定工作。
我们也期待趋动科技这个“卖铲人”,挖掘出更多物美价廉的“有效算力”,助力中国AI行业的发展。
(封面图来源:AI生成)