
从斯坦福到Meta再到Pokee AI,一个强化学习信仰者在非共识中的长期下注。
作者|苏霍伊
编辑|王博
在强化学习(Reinforcement Learning,简称RL)的世界里,每一个智能体(Agent)都遵循同一条冷静而残酷的准则:在不确定的环境中,最大化长期的期望回报。
朱哲清的目标亦如此。
过去十年,他几乎把全部精力押在一个重要但并不太讨巧的问题上:如何让机器更聪明地学习。从斯坦福大学博士到Meta AI应用强化学习团队负责人,再到创立Pokee AI,朱哲清的每次选择,都是缓慢而坚定的策略更新——不追逐短期回报,只向着“第一性原理”逼近。
这个过程可以概括为四个字:逆势押注。
当大模型以预训练和参数规模卷走几乎全部行业注意力时,朱哲清选择继续留在强化学习这条更冷、更慢、也更难被证明正确的路上。这条路并不缺高光时刻:AlphaGo曾让强化学习站上舞台中央;但更多时候,它面对的是长期被忽视的低谷:仿真环境的天花板、真实世界不可承受的试错成本,以及一次次“这条路行不通”的质疑。
朱哲清很清楚,强化学习的真正瓶颈,除了算法本身,更在于环境。
真实世界太慢、太贵,也太不可控。一次策略试错,可能带来业务指标波动、真实用户流失甚至系统级事故。这也令强化学习长期被困在尴尬的两级:一端是游戏和模拟器这样“过于干净”的世界,另一端则是工业系统中被层层约束、难以探索的局部优化。强化学习不缺方法,缺的是既足够复杂、又允许反复失败的练兵场。它需要足够复杂,包含人类语言、知识、工具调用和长程依赖;同时又很安全,让agent能在里面失败成百上千次而不用付出现实代价。
直到InstructGPT出现。
这是OpenAI在2022年提出的一种大模型后训练范式,它首次用“人类语言反馈(RLHF)”构造了一个近似真实世界的环境,为强化学习提供了可规模化和验证的奖励机制(Verifiable Reward)。
只是让业界真正接受强化学习,仍需时间。
2024年10月,朱哲清离开Meta创办Pokee AI。他希望用强化学习,构建具备“卓越推理、规划与工具调用能力的新一代AI Agent”。当时许多投资人都认为这条路不“make sense”。在Scaling Law(规模定律)横扫一切的时期,去做极其不稳定、昂贵且难以控的RL Agent,听起来像是技术派的“天方夜谭” 。
但事情的改变也在悄然发生。
2025年3月,强化学习领域的奠基者之一理查德·萨顿(Richard Sutton)获得图灵奖。这是计算机科学最高荣誉第一次如此明确地授予一位强化学习代表人物。对外界而言,这是一项个人成就,但在强化学习研究者看来,它更像一次迟到的正名。
另一条来自工程实践的证据开始浮现。今年年初,以DeepSeek-R1为代表的一批新一代推理模型,在公开技术报告和训练策略中,反复强调了强化学习在“复杂推理”“长程规划”中的关键作用。强化学习不再试图取代大模型,而是开始与大模型形成一种结构性的互补关系。
2025年7月,Pokee AI完成1200万美元的种子轮融资。“几乎之前拒绝我的投资人都找回来了。”朱哲清告诉「甲子光年」。
他说这句话时并没有带情绪,而是十分冷静,毕竟这种“非共识”的处境,朱哲清已经自处了十年 。他也始终像他所研究的强化学习一样:在充满噪音的环境中,执拗地寻找着通往AGI的最优路径。

Pokee AI创始人、Meta应用强化学习部门前负责人朱哲清,图片来源:2025甲子引力年终盛典
1.“Agent应像婴儿一样学习”
监督学习(Supervised Learning)更像是“照着答案学”的机制:每次输入,都配有明确的正确答案。而强化学习是主动学习,它在与环境的交互中,通过奖惩机制逐步形成决策。
“理查德·萨顿(Richard Sutton)的观点是,婴儿不存在真正意义上的“模仿学习”,实际上更接近目标驱动的探索过程:他们为了抓到玩具环境中不断尝试各种动作,期间跌倒了带来负反馈,抓到了带来正反馈。”朱哲清说。萨顿是加拿大计算机科学家,也是强化学习的奠基者之一,他在2025年获得了图灵奖。
强化学习开始走进大众视野是在2016年,AlphaGo击败了韩国职业九段棋手李世石,也击中了当时还是大二学生的朱哲清。

AlphaGo VS 李世石,图片来源:谷歌直播截图
他意识到,只学人类棋谱(监督学习)是“不可能达到AlphaGo的智能高度的”。“一定得去和世界主动交互,通过探索和奖惩,才能学到那些人类没见过的、超越人类能力的AI知识”。这种判断下,朱哲清也确定了科研方向,即使当时强化学习因为部署成本高、收益不确定一直被视为“科研玩具”。
虽有心理准备,但现实的“冷水”还是给了这个热忱青年超乎想象的“一棒”。
2017年7月,提前完成本科学业的朱哲清加入了Facebook(现称Meta)。三年后,公司的应用强化学习组正处于“中道崩殂”的边缘。这个横跨各部门、拥有20人规模的组,接了将近30个项目,因为几乎没有什么落地,业务数据各个方面都“很糟糕”。人才流失,经费被持续削减。当朱哲清主动请缨接手这个组时,已是一个只剩3个组员、Director几乎要将其彻底砍掉的存在 。
“如果那个组发展得好,也轮不到我去带。” 话虽这么说,但朱哲清还是以一种实战派的清醒接受了这个“救火队员”般的角色。他很清楚,在一个极致看重营收数据(Revenue)和用户影响力的商业巨头,强化学习不能再躲在学术论文后面谈理想,它必须用利润说话 。
朱哲清接手后的第一件事,就是做“减法”。他砍掉绝大多数虚无缥缈的项目,将全部精力锁死在两三个核心落地点上。
同时他也主导招聘了不少从微软研究院和大学出来科研人员,“他们的学术背景很扎实。”朱哲清说。但为了争取一次A/B测试,这群研究员不得不花精力帮产品组干那些最基础的、工程化的代码杂活,甚至把别人的活也干了,“模型才得以真正落地”。
在被“边缘化”的处境中,他和团队主导了生产级强化学习平台Pearl。此前Meta庞大的广告系统预算调控依赖于传统的PID控制器(比例-积分-微分控制),这套算法虽稳定且可预测,但其在极其复杂的动态博弈环境中的灵活性却差强人意。
为了破局,朱哲清没有选择激进地全盘替换,转而引入了类似Meta Policy(元策略)的框架。即保留可解释性强的控制器结构,但将其中的关键参数(Multiplier)交由强化学习训练。“我们不希望看到模型决策的改变给用户预算带来震荡,这在商业上是灾难性的。”他解释道。通过“受控结构”内的参数学习,强化学习展示出不错的泛化能力。新模型先在模拟环境中完成验证,随后在真实环境测试中带来转化指标的明显提升。
这场“翻身仗”打得漂亮。
朱哲清用硬性业务指标,为强化学习在赢得了一张入场券 。他形容在Meta内部推广强化学习更像是在做一单“企业级销售”:先拿下一个关键客户,才能打开局面。广告预算正是这样一个场景,在保证支出平衡的前提下,强化学习的转化效果优于原先的PID方法。有了这个业绩,其他大客户就全跟上来了。他半开玩笑地对「甲子光年」说:“至少其他部门愿意听我讲强化学习到底能干什么了。”
在Meta组里取得商业提升的同时,朱哲清在斯坦福大学的博士生涯却进入了“自我修正期” 。他发现自己在产业“把事情做成”的能力,并不等于已经搭成思维框架:很多系统之所以有效,是因为假设还未被真正“戳破”。
在博士阶段,朱哲清反复思考强化学习的底层前提:Big World Hypothesis(大世界假设) 。萨顿曾提出一个重要判断:真实世界是开放且不可穷举的。任何仅依赖静态数据进行训练的学习方法,都不可避免地面临结构性的能力上限。
与此同时,ChatGPT的出现让这种矛盾更加尖锐。一个不可回避的事实就摆在强化学习研究人员的面前:如果一个模型仅靠预训练就能覆盖绝大多数经验分布,那强化学习一直强调的探索和在线交互,还有没有意义?
朱哲清从Meta的广告业务中观察到:即使这类系统拥有近乎无限的真实数据,但当他们试图用这些数据训练模型去做三步、四步以上的长链条预测(Multi-step prediction)时,结果往往是灾难性的:一旦推荐系统的策略发生微调,预训练模型仅凭静态数据对未来路径的判断就会完全失效。
“无论数据集多牛、规模多大,人类总能通过不同的拆解和重组,构建出偏离原始分布的新组合(Compositional Structure)。”朱哲清说,“举例而言,即使模型见过句子A和句子B,但当你把A的前半段和B的后半段拼在一起,这种新结构带来的反馈是‘背诵数据’的模型无法预判的。”
他的逻辑也因此实现了自洽。大模型的尽头比更多参数更重要的是“适应能力”(Adaptability)。“目前的语言模型只是在单向输出,缺乏与环境交互反馈的过程,想在模型“吃不进去”的偏离分布数据面前做对决策,核心路径就是强化学习。”
2.“ 99%的MCP接口只赚了吆喝”
这也是朱哲清创立Pokee AI的底层逻辑。
2024年下半年,AI创业潮正值喧嚣。当时的主流观点是:只要模型足够大,推理能力会自动解决,不需要专门的工具调用模型。这一共识让他做“RL Agent”的想法显得格格不入。
由于算力资源有限,朱哲清在融资初期只能拿出一个用自己的NVIDIA RTX 4090显卡跑出来的模型Demo。Demo虽有初步调用工具的能力,但当时Scaling Law风头正劲,因此投资方的质疑也来得很直接:如果模型足够大,“纯靠scaling law让它自己学”就做到像人一样直接打开电脑上的谷歌地图、读取画面并完成导航这类的任务。为什么还需要另一套专门做工具调用的强化学习架构?
对此朱哲清的回应始终明确。他的理解是与其不断扩大模型去承载越来越多的信息,不如通过工具调用主动缩减模型需要理解和处理的复杂度。其在效率和可控性上都是一条更现实的路径,跳出了对模型规模无限增长的“迷信”。
这种“非共识”直到2025年年初DeepSeek发布后才被认可。
在市场情绪重新转向之后,投资人们再次找上了朱哲清。但他的反应很淡定。相比“如何把强化学习用得更好”,他开始把更多精力放在另一个问题上:Agent的整体架构是否还需要沿用过去的拆分方式。
朱哲清开始在Pokee AI内部推行一体化模型(Integrated Model),“我们内部在做实验时发现,一体化的模型其实效果更好。让我开始质疑行业内盛行的RAG(检索增强生成)路径。”
他认为,RAG这种将长文本切割、向量化再检索的范式,本质上是对模型长上下文能力不足的“临时性妥协”。具体体现在当信息被切碎并转化成Embedding(嵌入向量)时,会产生大约20%到 30%的信息损耗(Information Loss)。
随着模型长上下文能力的爆发,Agent不再需要通过“数据切割”来规避记忆限制。“如果上下文窗口已经足够长,能一次性放下这些内容,为什么还要先把它们切碎?” 相比于RAG带来的不可逆损耗,朱哲清更倾向于让Agent直接在完整上下文中进行推理和决策。
但从判断到落地,从架构选择到真正把系统跑起来,路径并不平坦。他开玩笑说,在Pokee AI的创业过程中,自己踩过的坑比获得的融资还要多。
最典型的一个坑就是关于MCP(Model Context Protocol) 。MCP是一种面向大模型和Agent的上下文与工具接入协议,由Anthropic在2024年提出。简单来说,MCP就像是为AI打造的 “USB接口”。

MCP图解,图片来源:modelcontextprotocol.io
Pokee AI团队也一度对MCP寄予厚望。
“虽然MCP协议现在看似火热,号称建立了统一标准且连接了无数工具,但在真实落地中,开源社区里99%的MCP工具都是不可用的。”朱哲清回忆道,“很多可能就是为了赚一波吆喝,放个接口出来,之后就没人维护了。”
在他看来,问题不在MCP本身,是整个工具生态的底层假设出了偏差。当前大多数工具是为人而非为AI设计的,这种错位让模型调用工具时频繁出现幻觉。
现有API中充斥着大量对模型“不友好”的ID,如User ID、Transaction ID等。这些标识在系统层面是有效的,但对模型而言并不携带语义信息,只是一串无法理解的符号。模型在调用工具时,只能依靠“瞎猜”。这种由于语义断裂造成的执行失效,也让朱哲清察觉到目前Agent难以落地的根源在于缺乏AI原生工具(AI Native Tools),“我们正在试图用一套完全为人类设计的‘旧时代工具’,去喂养一个需要结构化语义输入的‘新时代 AI’。”
他更倾向于对现有工具进行二次封装,将其转化为对模型更友好的形式,并结合强化学习,让Agent在任务过程中进行端到端的规划,“Pokee AI要做的是让AI在具体任务中,自己探索出最优的工具组合。”
在朱哲清的设想中,未来的Agent无需依赖用户手动输入账号密码、登录各类网站,它将作为一种携带用户“数字指纹”的身份代理,在协议层完成交互。
3.“架构是架构,算法是算法”
这种对工具生态“翻修”的做法,让朱哲清在2024年的喧嚣中略显孤独。
直到今年的RLC (Reinforcement Learning Conference,强化学习会议)期间,他又见到了理查德·萨顿。

阿尔伯塔大学计算机科学系教授、图灵奖得主理查德·萨顿(Richard Sutton) 图片来源:Richard Sutton个人网站
“萨顿是最不信LLM和现在这套AI路径的人。”朱哲清笑着回忆。在萨顿看来,现在的Transformer架构和自回归(Auto-regressive)训练方式充满了缺陷,因为它们无法进行真正的“长期持续学习(Continual Learning)”。
当全行业都在为强化学习拯救了大模型而欢呼时,身为“开山人”的萨顿却认为,这种把强化学习当作预训练模型“补丁”的做法,从一开始就结束了智能的本质。他甚至认为“预训练(Pre-training)就不存在该”,智能应该在“与环境的博弈中实时诞生”。
朱哲清则选择了一条更“弹性”的路线:他保留Transformer的基础架构,因为预训练模型提供了人类行文的基础“模板”;但这层“皮肤”之下的“骨架”——决策与环境适应的能力,则在后训练(Post-training)阶段通过强化学习逐步构建。“架构是架构,算法是算法。”他这样区分两者的角色。
这也为什么Pokee AI走的是“混合路线(Hybrid Path)”。朱哲清不打算从零训练一个没有常识的强化学习模型,他要做的,是在大模型的框架内,引入强化学习引擎,让Agent具备在未知工具、未知工作流中“边做边学”的能力。
这很符合朱哲清的职业惯性,他似乎总是在走一条“难而正确”的路。这种执拗甚至延伸到了他的管理风格中,在Meta招人时,朱哲清会专门问应聘者一个问题:“你对强化学习路径有无法动摇的信仰吗?” 因为他知道,走这条路需要“能在黑暗中走很远的人”,途中会遇到无数次的A/B Test失败和推倒重来,“没有信仰是撑不下去” 。
在朱哲清眼中,Pokee AI不只是一家追求商业成功的公司,更是用来验证他“智能终极理想”的实验室。
“如果哪天有人告诉我强化学习不是通向AGI的那条路,”他停顿了一下,“我对人类是如何进化到现在的都会产生巨大的怀疑。”
与「甲子光年」的对话结束后,朱哲清又回到了他的代码和模型中。他依然是那个17岁时就开始思考“智能本质”的少年,在一个充满了“暴力美学”和算力竞赛的时代里,坚持着关于奖惩、探索与进化的信念。
(封面图来源:AI生成)