登录甲子光年
其他登录方式
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
找回密码
获取验证码
注册甲子光年
获取验证码
注册即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
绑定手机号
获取验证码
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
完善资料
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
微信登录
扫描二维码 | 授权登录甲子光年
北电数智:探索算力服务“最优解”
作者:田思奇 2024-06-04

“AI基础设施、AI核心产业加速和AI创新平台服务”带来算力普惠与科技繁荣。


作者|田思奇

编辑|王博


科技领域有两大著名的经验规律,一个是为人熟知的摩尔定律(Moore's Law),另一个是相对冷门但十分重要的安迪比尔定律(Andy and Bill’s Law)。


这条定律源于一句名言“Andy gives, Bill takes away”。 其中“安迪”指的是英特尔前CEO安迪·格鲁夫(Andy Grove),而“比尔”则指微软前CEO比尔·盖茨(Bill Gates)。安迪比尔定律指的是:提高的硬件性能很快又会被软件消耗掉。正是因为这个特性,科技进步带来的优质供给会被需求持续吸收,形成供需相互促进的双螺旋循环,而非恶性的过剩。


在AI时代,这条定律同样有效。


这从全国各地智算中心的建设热潮就能看出。据不完全统计,目前全国正在建设或提出建设智算中心的城市已经超过30个,建设总数超过100个,投资规模超百亿元。IDC预测,2021年到2026年,中国智能算力规模年复合增长率为52.3%,远高于同期预测的基础算力的增长率。


不过,算力作为逻辑资源,与水电等标准化资源相比更加复杂,也具备更多维度。技术的发展催生了丰富的计算场景,不同的行业、应用场景更对算力提出了不同的需求。


作为全国科技创新的引领者,北京市在近期推出《北京市算力基础设施建设实施方案(2024-2027年)》(以下简称“实施方案”)。实施方案显示,北京市要重点建设海淀、朝阳、亦庄、京西(石景山、门头沟)等E级智能算力高地,致力于改变智算建设“小、散”的局面,着重满足快速增长的大模型训练算力需求和推理算力需求。到2025年,北京市智算供给规模将达到45EFLOPS(1EFLOPS等于1000PFLOPS)。


其中一处E级智能算力高地就位于朝阳区酒仙桥。这里曾是“共和国电子工业的摇篮”,在互联网时代成为了“数据中心聚集地”,如今这里还要加上一个新的标签——“智能算力”。


年初,位于酒仙桥的北京数字经济算力中心项目基础设施建设正式启动施工,该项目采用市场化模式建设,将实现2000PFLOPS以上的智能算力供给。而规划设计并建设运营这一市级公共算力中心的是一家年轻的国企——北京电控旗下的北京电子数智科技有限责任公司(以下简称“北电数智”)。


尽管北电数智是在这轮智算中心建设热潮中成立的,但是还“未满周岁”的北电数智在热潮中格外理性。


“我们要打造‘AI工厂’,”北电数智董事长荆磊表示,“我们要售卖我们的能力,而不是简单的算力。”


普华永道报告指出,到2030年,人工智能有望为全球经济贡献约16万亿美元,相当于中国2022年的全年GDP规模。中美两国虽有望成为此轮AI驱动的技术变革的最大受益者,但也步入了技术博弈加剧、政策环境多变的竞技场。


发令枪已响,热潮中的非理性因素如同竞技场中的声浪在不断翻涌,粗犷的算力使用、冗余的算力部署、低效的算力调配等问题逐渐显现。


甲子光年智库认为,AIGC产业落地的算力选择,更应该强调最优解,而非最大解。在实现AIGC的技术落地过程中,模型的参数量及涌现结果固然重要,但模型在运行过程中所需的算力成本、能耗成本、运营成本等是否能匹配AIGC技术提供的效果及价值突破更为重要。


“建设AI算力基础设施,要准确地看到未来的产业趋势,以及是否准备好核心技术,这是非常关键的事情。”荆磊说,北电数智正在探索形成一套算力服务“最优解”。


这不仅是一场技术的竞赛,更是一场智慧与决心的较量。


1.从“算力仓库”到“AI工厂”


“大模型的计算主要分为训练和推理两个步骤,它们对于算力的侧重点不太一样。模型训练侧重整体吞吐 (throughput),需要大规模,高扩展性,低能耗的分布式计算集群;而推理侧重延迟 (latency),在算力方面需要强大的计算芯片,高速的内存访问技术。这种算力的需求在深度学习和大模型流行之后的近年来呈指数级增长,对于硬件厂商和电力供应厂商是巨大的挑战。”


这是大模型初创公司零一万物资深算法专家李谋在近期一场活动上发言,真实体现了模型层公司对算力的需求。


随着AI技术的迅猛发展,智能算力需求呈指数级增长,例如大模型的训练和推理,可能涉及数以万计的GPU。而开发和运维这些大模型的成本,动辄达到数百万元甚至上亿元,这对AI领域广大的中小型创新企业来说,是一道难以逾越的高墙。


这不仅仅是“价格是否便宜”的问题,还涉及算力供给结构、算力调度能力、智算资源供给、智算生态发展等多个方面。


然而传统的算力基础设施多以IDC方式运营,与AI企业当前的实际需求相去甚远;现有的一些智算中心在功能与定位上也较为原始,有些智算中心只是“招商引资的工具”,实际算力使用率和商业情况却无从知晓,有些智算中心前期只注重算力规模,到了后期的应用过程甚至出现了“半卖半送”的情况。


甲子光年智库认为,算力资源的维度不仅包括算力规模大小,要考虑算力部署及运营过程中可以利用的程度。算力是工程化结果,是从芯片到资源服务的多层次构造,需要算力服务方自身在自身专业能力及经验案例上的实际Know-How作为基础。


算力中心平台化与服务化的转型趋势,是推动行业前行的关键。


“智算中心肯定不是一个卡或者芯片堆叠的‘算力仓库’,那如何去超越?我觉得从硬件层面,到软件层面,甚至到场域的层面,都要有重新的打法和定义。”北电数智战略与市场负责人杨震告诉「甲子光年」。

北电数智战略与市场负责人杨震,图片来源:「甲子光年」拍摄

杨震认为,从以CPU为中心的数据存储型IDC,到以GPU为主导、强调实时计算能力的智算中心的转变,不仅意味着硬件的升级,更是从硬件架构到应用场景的全面革新。


以英伟达在今年3月GTC大会上最新发布的Blackwell B系列芯片为例,技术创新不仅体现在单一芯片性能的提升,更在于它是能衍生出GPU、AI超级芯片、服务器、大型计算集群、云服务等多套解决方案的综合平台。这为中国智算中心的平台化建设提供了契机,促进了芯片混合部署与快速迭代验证的可能。


而服务化的理念意味着数据中心超越了简单的硬件堆砌,旨在实现软硬件的深度融合与服务导向模式的转变,构建包含芯片、网络、存储、模型优化等全链条的服务体系。


北电数智通过构建混元异构算力服务,把不同类型的国内外GPU汇聚在一起,形成一个巨大的虚拟GPU,充分发挥不同国产芯片擅长的功能,实现国产多芯集群的精细化运营,能够应对不同类型的算力任务,确保每一个企业需求都能够匹配到最适合的计算资源,让算力更“好用”、更“高效”。


在这样的转型之后,数据中心将化身为“AI工厂”,北电数智的旗舰项目——北京数字经济算力中心就是业内最新的代表作。


在地理位置选择上,北电数智非常注重速度与效率的平衡。如北京数字经济算力中心设立在寸土寸金的酒仙桥地区,这是因为考虑到大型城市的即时计算需求——像自动驾驶、城市管理等业务,都要求算力中心不仅拥有强大算力,还需要快速响应。


“不可能说现场的传感器捕捉到什么东西,我再把信号传到遥远的西北去,计算完了再给我反馈回来,然后我再现场做出反应,那一切都晚了。”北电数智相关负责人说。

北京数字经济算力中心展示大厅效果图,图片来源:北电数智

同时,北电数智亦致力于科技的绿色可持续发展,北京数字经济算力中心的PUE值(能源消耗比例)低至1.146,大幅领先于北京市实施方案中规定的1.25标准。北电数智介绍,这得益于复合的制冷解决方案,液冷与风冷的融合部署,空调系统采用间接蒸发制冷和多练热管等节能系统,余热回收等措施、电源系统的高效模块化电源,光伏发电系统等措施的全面应用。


北电数智深知,AIDC建设是一个涉及多维度的系统工程,需要稳健推进,从基础设施的精心布局到技术的深厚积累,每一步都是为了更好地服务于行业。预计至2024年年底,北京数字经济算力中心将完成建设。整体投产后,将逐步累计实现2000PFLOPS智能算力供给,为推动行业进步和生态共赢注入新的活力。


在这一转型过程中,北电数智致力于实现算力普惠,帮助人工智能创业企业降低成本。北电数智产业生态负责人表示:“我们智算中心的产品趋势和服务理念就是帮助这些中长尾的客户发展,相信这些中长尾的客户中可能就有下一个字节跳动或者美团。”


而在降低算力成本层面,北电数智采取了一个巧妙的做法。


2.高效能AI云,让算力管理精细化


在人工智能领域,国产芯片正面临一场信任与应用的双重挑战。


许多AI企业对国产芯片的效能持怀疑态度,更倾向于采用如英伟达这样的国际知名品牌提供的成熟解决方案,但成本居高不下;同时这种偏好限制了国产芯片的广泛应用,也阻碍了它们的技术迭代与市场拓展,形成不利的循环。


芯片的生命力源自实践的土壤。唯有被广泛应用,才能在实践中发现问题,不断反馈,持续迭代。北电数智深刻意识到,能否让国产芯片赢得市场的青睐,让用户在实际应用中见证其价值,是决定其未来的胜负手。

北电数智机房展示效果图,图片来源:北电数智

北电数智正通过创新AI云平台——先进计算迭代验证平台,探索一条破局之路。该平台通过高效的适配技术和解耦策略,将主流大模型与专项芯片无缝融合,运用先进的算法加速技术,激发混元芯片的潜能,通过混合推送和训练策略,提供量身定制的运维服务,精准对接不同企业的算力诉求。用户仅需享受服务,无需在意背后的复杂协作。


同时,北电数智关注到当前算力使用的粗放模式,提出通过精细化管理减少算力冗余,如同电力的分时计费一样,合理调度白天与夜间的算力分配,提高资源利用效率,让算力的使用更加贴近需求,成本效益最大化。


杨震告诉「甲子光年」:“我们要做真正的按需使用,像电一样,消耗了电我才计费,没供电的时候就不计费。”他还指出,使用不同品牌的GPU会造成价差,但他认为不应该为算力产自哪块芯片来给出额外的价格,只要能满足任务量或指标即可。


“不同的芯片的成本不一样,我们做成混元算力池以后,就比直接使用英伟达或其他比较贵的卡成本降低很多。” 杨震透露,“按我们已经开放的场景来计算,相对于现有按时租赁的算力价格,我们按token自动计费,综合成本可获得极大幅度的降低。”


在每个芯片厂商都有机会被使用和购买,每个芯片都能发挥其特定优势的前提下,北电数智还在对芯片进行深入的场景结合评测,即“以评促用”策略,总结出适合场景的“芯片+软件”最佳组合,既能提高企业开发人工智能的效率,也能让企业算清楚国产芯片的投入价值,推动国产芯片从好用到好看。


由于北电数智是第三方智算中心,所以具备中立性,能够保证测评结果的公正性和权威性。


目前国内在做类似平台的企业较少,能够完成大集群协同作战的更是屈指可数。杨震表示,北电数智在头部企业中的优势在于已有更多规模化的实践经验。


由此可见,北电数智的AI云,不仅会是一个技术平台,更是人工智能生态成长的肥沃土壤。通过其AI云平台及一系列创新策略,北电数智将在技术上寻求突破,更在商业与生态建设上布局深远,力求构建既高效又经济的算力应用环境,助力AI产业全链条实现质的飞跃


3.可信数据空间,破解数据孤岛难题


在数字时代的大背景下,数据孤岛现象成为制约人工智能技术发展的重要障碍。严格的数据安全法规,有效保障了信息安全,但也对获取高质量开源数据构成限制。


北电数智调研发现,国内数据生态构成较为复杂,主要分为三类:首先是政府管理的社会运行数据;其次是能源、制造等核心产业大型国企积累的专有数据;第三是互联网企业所掌握的庞大用户数据集。这三者如同各自为营的信息烟囱,彼此间缺乏有效的互通。


在国际环境日趋复杂的今天,企业对数据安全和独立性的考量愈发严格,进一步限制了数据的流动。


“数据挖掘价值的四大痛点是‘供不出、流不动、用不好,风险大’。” 杨震总结道。


然而,数据是驱动大模型智能涌现的源泉,也是本轮AI浪潮的核心动力。为此,北电数智将打造可信数据空间,为北京数字经济体系增添一项重大基础设施,旨在确保数据在安全可控的前提下实现高效共享与流通,服务于各行各业。


杨震表示,实现这一目标的关键在于解决数据的可信度、可控性、可用性和审计能力,以及加密保护等技术难题。比如构建中的可信数据空间会采用“数据沙箱”的理念,使得数据在不离开企业的情况下实现利用;同时通过加密计算保证数据处理过程中的安全;依托链上存证确保数据使用的可追溯性和透明度。


此外,可信数据空间的设计中考虑到了数据使用的特定限制,数据的每一次“旅行”都受到严密的监控,确保数据使用权的转让而非所有权变更,并对使用频次、目的进行监控。超范围使用或达到限定次数后,数据将采取自毁或锁定等保护措施,在重新协商使用条件及费用后方可继续使用。


技术创新永无止境。北电数智向「甲子光年」透露,以促进数据“安全共享、可信流通”为例,在数据可信流通、数据治理和资产化、数据安全、数据基础、数据维护等方面有十几项重大挑战,涉及联邦学习、同态加密、硬件加密机、零信任访问控制等先进技术。部分技术早已实现0-1的突破,目前的关键在平衡效果和成本;另外一部分技术则需要从原来较小的适用行业、场景,部分重构到更广泛的应用场景,


目前,北电数智正在首席科学顾问窦德景的带领下,结合密码学、硬件专家、隐私计算专家等持续研究。


值得注意的是,在全球科研合作的广阔舞台上,多方数据协同的需求日益迫切。杨震告诉「甲子光年」,北电数智也正在筹备相关技术,以应对全球数据协同中的复杂挑战,如隐私计算和数据互操作性,推动数据的协同效应和价值最大化。


作为国企,北电数智以其可信主体的身份,为数据安全存储与合规使用提供了坚实基础,从而驱动模型优化与应用场景的丰富拓展,并成为整个产业的加速器与孵化器。


数据将不再是孤立的岛屿,而是汇聚成浩渺的海洋,滋养着智能时代的每一个角落。


4.算力+实验室:携手共筑AI未来


对于怀抱梦想的中小AI企业,它们在算力和数据之外更渴望获得全面的服务与支持。新一代AI创业者虽怀揣着无限潜力,却往往在商业运作、项目管理上经验不足,同样亟需经验丰富的企业的扶持与指导。


针对这方面的需求,北电数智正在打造“算力+实验室”模式,并计划构建集科技研发与人文交流于一体的算力科技公园。这一创新平台不仅提供了舒适的办公室和实验室,更为AI创业者搭建了交流的闭门会、论坛与展示的路演空间。据悉,该公园的基础设施预计将于2024年底完工。

北京数字经济算力中心效果图,图片来源:北电数智

在这里,年轻高知的创新者、商业化征途上的大模型巨头、致力于国产芯片的厂商,都可以基于技术共享、产业协作乃至客户资源的互联互通,获得快速成长的强劲动力。

AGI实验室效果图,图片来源:北电数智

除了在数据中心里提供路演空间和办公场所,杨震还表示,北电数智计划通过算力投资或者真正的资金投资孵化企业。


对于赛道的偏好,杨震强调,“国家需要、北京需要”是北京电控自上世纪50年代起传承下来的第一原则。作为集团旗下企业,北电数智也由此选择了政务,医疗,交通,教育等具备大量高度敏感数据的领域快速入局,利用可信数据空间把数据有效释放出来,把场景开放出来。


作为国企,北电数智接触这些有高敏数据的赛道有一些天然的优势。但北电数智仍然把重心放在搭配相应的技术提供完善服务上,比如隐私计算、联邦计算、区块链、网络安全技术等。


此外,杨震表示,北京电控和旗下大部分企业都是硬核制造业,所以也会重点关注智慧制造工业。另外临近的798地区在文化艺术方面有不错的积累,北电数智也会有相应的优先考量。到目前为止,北电数智的合作伙伴已有近千家,未来将通过精细的适配工作和商业场景的深度挖掘,力求打通技术与市场的壁垒,确保创新成果能迅速转化为实际应用,并最终导向多方共赢的局面。


5.开放中立的AI基础设施建设者


北电数智的基因来自北京电控。


在北京电控的丰富历史长河中,“科技引领,创新驱动”一直是其坚守的核心理念,这一精神也贯穿于其不断演进的产业布局中。从新中国首枚真空管、第一块集成电路的制造,到在全球显示领域和集成电路装备领域的领先地位,北京电控始终站在技术革新的前沿,因此所属部分重点企业被誉为“共和国电子工业的摇篮”。


北京电控与酒仙桥渊源颇深,也见证了酒仙桥的历史变迁。在北电数智主导的生态合作中,如今的酒仙桥正在“艺术”之外,涂抹上浓厚的科技色彩。

科技公园广场效果图,图片来源:北电数智

随着21世纪第三个十年的竞争加剧,北电数智的诞生有其必然性。它背负着北京电控的深厚底蕴与创新精神,以“双愿景”为指引:一方面专注于原创性、颠覆性、引领性科技创新的人工智能科技企业;另一方面打造国企新质生产力典范。


在这一过程中,北电数智深知科技底色的重要性,致力于掌握产业规律和组织“心法”:在AI领域,只有不断创新、不断探索,才能立于不败之地。


新质生产力的塑造,意味着传统产业的焕新、新兴产业的飞跃,对未来的深度布局以及生产关系的和谐调整。面对时代的快节奏,在坚持艰苦奋斗的同时,北电数智整借力混合所有制,灵活调整策略,构建适配行业特性的管理体系与激励机制,以汇聚顶尖人才,加速产业飞跃。


不过,这注定是“难而正确”的选择。不确定性及其催生的噪音,是AI行业最大的挑战,也是成长的催化剂。


杨震对「甲子光年」强调,为了应对挑战,北电数智将和行业共同采取一系列措施。首先要不断学习、快速跟上整个行业和科技发展的步伐;其次,公司强调开放的心态,与国企、民企和私企共同承担风险、分享成果;最后,北电数智将致力于赋能行业和生态。


“AI基础设施、AI核心产业加速和AI创新平台服务”是北电数智的三大核心业务,而这些业务都指向了一个更为宏大的目标——“建设数字中国”。


甲子光年智库认为,在L1的AI生产时代,AI意味着第二生产力,关键是降本增效,推动数字化转型,本质是效率、成本问题;在L2的AI原生时代,AI意味着第二语言,新的交互形式与内容载体;在L3的AI创生时代,AI意味着人类之外的第二主体,推动端上智能、软硬结合、世界模型落地;在L4的AI文明时代,AI意味着第二文明体系。


在科幻小说《三体》里,罗辑在一块肃穆的方碑上看到了一句话——“给岁月以文明,而不是给文明以岁月”。如果跳出人类中心的视角,把AI看作未来的第二文明体系的话,北电数智要做的就是——“给岁月以文明,也给文明以岁月”。


(封面图来源:北电数智)


  • 30875
  • 2689
  • 310
  • 0
评论