登录甲子光年
其他登录方式
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
找回密码
获取验证码
注册甲子光年
获取验证码
注册即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
绑定手机号
获取验证码
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
完善资料
登录即表示你已阅读并同意
《甲子光年用户注册协议隐私政策
微信登录
扫描二维码 | 授权登录甲子光年
从一所“年轻”大学走出的国际顶会获奖团队
作者:Meiding He 2024-09-30

美国当地时间6月19日,2024年IEEE国际计算机视觉与模式识别会议(CVPR,计算机视觉领域国际顶会)的最佳学生论文奖项揭晓。


CVPR的最佳论文和最佳学生论文一直被视作AI技术风向标,诞生了ResNet、Mask R-CNN和DenseNet等诸多开创性科研成果。


想让论文被接收并非易事,CVPR 2024共收到11532篇论文投稿,相比2023年的9155篇增加了25%,论文数量达到了历史新高,录取率却从去年的25.8%小幅下降到了23.6%, 仅2719篇被接收,竞争愈发激烈。


想要获奖就更难上加难,能够获奖的论文仅有10篇,其中最佳学生论文只有2篇。


《Mip-Splatting: Alias-free 3D Gaussian Splatting(利用多层级的高斯泼溅方法来实现高清三维重建和自由视角渲染)》就是今年的2篇最佳学生论文之一,论文的前三位作者依次为余泽浩、陈安沛和黄彬彬。


他们都有一个共同的经历:现在或曾经就读于同一所高校——上海科技大学(以下简称“上科大”或“ShanghaiTech”)。


余泽浩是上科大2021届硕士,现于德国图宾根大学攻读博士学位;黄彬彬为2023级在读博士;共同通讯作者陈安沛是2022届博士,现为德国图宾根大学博士后。


最佳学生论文《Mip-Splatting: Alias-free 3D Gaussian Splatting》颁奖现场,图片来源:CVPR


上科大并不是一所公众熟知的大学,其成立于2013年9月30日,是一所“年轻”的大学,也是一所“双一流”建设高校。


「甲子光年」在CVPR现场关注到上科大后,很快又在其他的国际顶会上见到了来自这所大学的团队。


今年7月末,在计算机图形与交互技术领域的顶会SIGGRAPH 2024上,《CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets(CLAY:一个用于创建高质量的3D资产的可控制的大规模生成式模型)》《DressCode: Autoregressively Sewing and Generating Garments From Text Guidance(DressCode:一种基于文本指导自动缝制和生成服装的自回归方法)》获得了最佳论文荣誉提名奖项。


这两篇论文的主创团队同样来自上科大。


如果再加上在设计自动化国际会议DAC(ACM/IEEE Design and Automation Conference,集成电路设计四大顶会之一)获得最佳论文提名的《LLM-HD: Layout Language Model for Hotspot Detection with GDS Semantic Encoding(利用大语言模型对芯片版图进行编码及光刻热点检测)》,今年上科大在与AI相关的国际顶会上,已经拿下四个奖项,已然可以比肩国内计算机领域的头部高校。


而这些成绩的取得,都与一位归国学者和他的团队有关。


1.从UDel、CUHK、HKUST到ShanghaiTech


“我不同意CLAY的方案!”上海科技大学教授虞晶怡与他带的博士生张龙文、张启煊已经“吵”了一个小时,“这个3D生成项目为什么工业界不能做?你们的方案为何可以PK过大厂?”


张龙文和张启煊也被问住了,他们确实没想过CLAY在工业界的不可替代性。


CLAY是他们推出的全新的3D原生Diffusion Transformer生成式大模型。只需输入文字或平面图,CLAY在一分钟内就将想象力转化为逼真的高质量3D模型。在见导师虞晶怡前,他们觉得研究已经构想得“万无一失”了,但还是被导师戳中了“要害”。


于是张龙文和团队又开始了新一轮的“查缺补漏”。“其实在看到CLAY的初步结果时,我已经在暗自惊叹了,但我必须再‘逼’他们一把,我相信他们能做得更好。”回忆起当时的讨论,虞晶怡对「甲子光年」说出了他的“秘密”。


通过CLAY生成的3D模型,动图来源:受访者


导师给的“压力”后来起了作用。从结果来看,CLAY项目团队研究出了超过工业界现有成果的方案。


上科大信息科学与技术学院助理教授、CLAY课题负责人之一的许岚表示,团队当时面对的“角逐”压力也不小。“许多国内外学术机构和大型研究团队也在进行这项工作,包括OpenAI等。如果以纯理性的眼光来看,许多人可能会质疑我们的资源是否足够支持这项工作,甚至认为上科大凭什么能做成这件事。”


“其实恰恰相反,我们在两年前就对生成式人工智能有了预先的判断,在3D光场的积累也颇为深厚。”他确信,CLAY项目所承载的技术能显著拔高游戏、电影等数字娱乐产业。“我觉得学生们非常纯粹,他们无所畏惧。初衷也很简单,就是想做出最好的3D生成技术。”许岚说。


再后来,CLAY团队在SIGGRAPH 2024大会上拿到了最佳论文荣誉提名。在大会的Real-Time Live环节,张启煊代表团队演示了基于CLAY的3D生成解决方案。现在的CLAY模型拥有15亿参数,是规模最大且品质最优的3D原生生成式大模型之一,其性能明显优于包括Meta、OpenAI和Adobe等大厂的同类产品。



之前在学生面前“有些严厉”的虞晶怡在面对「甲子光年」时,也对CLAY团队称赞有加。


虞晶怡本科便师从数学家、美国国家科学院院士、加州理工学院应用数学系Charles Lee Powell教授侯一钊;2005年获麻省理工学院(MIT)工程与计算机科学(EECS)博士学位,专注于计算机视觉和成像领域的探索;2021年入选IEEE Fellow。


博士毕业后,他加入了美国特拉华大学(UDel)开始了教授生涯。“当时一心想做学术。本科毕业时我放弃了加入谷歌,博士毕业时又没选择去英伟达,几年后它们都成了各自领域的巨头企业。这都是命运使然,看来相比于工业界,我还是和学校更有缘分。”他笑着调侃道。


而他最初选择回国加入上科大的原因,源自一个朴素的想法——创业,“上科大从无到有,就是一次伟大的创业。”


虞晶怡在信息与技术学院2024级的毕业典礼上致辞,图片来源:上海科技大学官网


相比于传统高校,“创业中”的上科大的教师们都相对年轻,和学生沟通没代沟,耿浩、许岚就是其中的代表。


2021年,耿浩在香港中文大学(CUHK)获得计算机科学与工程博士学位后,便加入上科大担任助理教授。问及加入上科大的原因,他告诉「甲子光年」:“学校对新入职的教师,尤其是青年教师,充满了尊重与信任。在科研启动上的大力支持,也是我选择上科大的一个很重要的因素。”


许岚亦是如此。2020年,在香港科技大学(HKUST)电子与计算机工程获博士学位后,他便来到了上科大,“我觉得最吸引人的是学校较新,没有太多历史负担,实验室设备先进,提供给年轻人较大的施展空间,这对年轻人的成长非常有利。”


“同行看到获奖论文名单时都很吃惊。”许岚告诉「甲子光年」,通常能摘得奖项的都来自拥有几十年乃至百年历史的世界顶级学府的学生,中国学生能够获奖更是小概率事件。


对于获奖背后的原因,虞晶怡分析:“从投稿情况来看,像是研究的成果,但其实它是教育的成果。”上科大的秘诀在于,不仅要培养好博士、硕士,更重要的培养好本科生。


如果没有那次“吵架”,也就没有现在CLAY。而让「甲子光年」意外的是,从未有过大模型训练经验的张龙文、张启煊等人开发出这款模型,只用了不到一年。


几位资历尚浅的年轻学生是如何做到的?



2.快速迭代,活用教参


自建立以来,上科大的目标就设定为建立一所小规模、高水平、国际化的研究型、创新型大学


“对于像AI这些日新月异的领域,我们采取了快速迭代教参而非教材的策略。”虞晶怡介绍,教育模式在AI时代经历了显著的变化。


传统上的教育依赖于固定教材,教师主要在课堂上讲授这些长期不变的内容。然而,AI领域的知识更新速度极快,传统的教材很快就会过时,一本花费一年编写的教材,可能在完成时已有50%到80%的内容落后于最新的研究成果。


而教参则融合了各种与时俱进的教学资料,这些资料由教师和学生提供,这使得每学期的课程内容能够迅速迭代和更新。


很多大学的教育模式通常是教师授课,学生回去完成作业。但在上科大很强调学生的自学能力,尤其是在信息科学和AI领域。课堂上教师会引入新方法,但具体的实践和深入理解,如源代码的阅读和修改,则需要学生自行探索。


上科大多学科人工现实工作室(MARS),图片来源:「甲子光年」拍摄


这里的学术自由气氛也很浓厚,主要体现在学校鼓励学科交叉与跨界合作


与其他大多数计算机科学与工程学院不同,上科大信息科学与技术学院不设具体系别,只设研究中心。固化的学科划分限制了科学创新与合作,而当前的科技挑战迫切需要跨学科的紧密合作


这就需要提出有价值的问题:比如,大模型能应用在集成电路设计、制造领域吗?


普林斯顿大学电气与计算机工程系兼统计与机器学习中心教授王梦迪近期成立的AI for Accelerating Invention(人工智能加速发明)中心的预期产出成果之一,就是“人工智能驱动的芯片、计算硬件、架构和系统设计”。


AI for Accelerating Invention预期产出成果,图片来源:AI for Accelerating Invention


上科大的学生邬一闻、陈禹阳等人也给出了他们的答案。


今年6月28日,在美国旧金山召开的第61届设计自动化国际会议(ACM/IEEE Design and Automation Conference,DAC)正式公布了最佳论文等奖项。上海科技大学、张江实验室共同发表的《LLM-HD: Layout Language Model for Hotspot Detection with GDS Semantic Encoding(利用大语言模型对芯片版图进行编码及光刻热点检测)》获得了DAC 2024最佳论文提名。


上科大信息科学与技术学院2023级博士研究生邬一闻和2022级硕士研究生陈禹阳作为论文共同第一作者在大会上向来自学界、业界的电子设计自动化(EDA)领域国际顶尖研究机构和学者进行了汇报。耿浩为该论文的通讯作者,上海科技大学为第一完成单位,张江实验室为合作单位。合作者还包括信息科学与技术学院汪婧雅教授、吴涛教授和何旭明教授。


获奖团队合影,图片来源:受访者


而获得DAC 2024最佳论文提名的这个项目,源自耿浩去年端午节归家途中偶然的灵光一闪。


“当我走到中科路地铁站,在闸机前准备刷码时,我突然想到当前课题中模型的输入是否过于僵化,非得局限于图像?业界与成熟商业软件似乎并未设定此等硬性条件,学界这么做可能也只是在延续一个‘传统’。这份突如其来的灵感让我激动不已,连忙记录下来。”耿浩回忆着。


在集成电路设计制造领域,计算光刻以及光学邻近效应校正(OPC,Optical Proximity Correction)技术的不断发展和创新对于提高芯片制造良率、降低周转时间和成本至关重要。为提升OPC任务效率,减少OPC在版图缺陷(又称热点)层面修正产生的工作量,该篇论文开展了基于无损多层级版图语意编码和版图语言模型的热点检测研究。


论文中,团队提出了全新的“语言模型+高性能GPU”的版图热点检测范式。


版图语言模型与传统模型版图光刻热点检测流程对比图,图片来源:受访者


“这个项目的动机是探索语言模型的表达能力。在计算光刻研究中,我们发现版图不仅可以用图像表示,也可以用描述性语言表达。于是我们用描述性语句表征版图,输入语言模型进行热点检测,提出了利用语言模型解决热点检测的新思路。”邬一闻解释道。


陈禹阳则透露了论文背后的故事:“我们定期与计算机视觉和半导体领域的资深教授交流,深入讨论项目中遇到的问题,从而确保顺利推进项目。”


“可能在积累经验上我们还有所欠缺,但我们一直在探索新的学生培养方式。我们目前不见得已处于‘开花结果’的阶段,就还在过程中。”许岚认为,“另一方面,与传统高校相比,我们可能能提供给学生更多的发展空间和人均资源。上科大的办学理念是小而精,不单单追求规模的扩大,而是注重质量和科研的定位。”


“学校在算力、数据资源、先进科研设备等方面为学生提供了全力支持。仅仅NVIDIA A800这样的先进GPU,上科大的算力平台就有256张。”耿浩笑称,“师生们常戏言‘就没打过这么富裕的仗’。”



3.从本科就开始搞科研


本科科研实践制度也是上科大科教融合的一大特色。


耿浩向「甲子光年」介绍了教学中的“两个结合”:通识教育与专业教育结合,理论与实践相结合。上科大每位学生都要学习物理、化学、生物、人文、经济这样的通识课程,同时很多专业课程有着丰富的课程项目设计。


“做project”几乎是每个上科大学生的口头禅。可以说在上科大,科研无处不在。


特别是在信息科学与技术学院,学生都早早投入实验工作中。目前约80%的本科生在一到三年级期间开始参与科研活动。到了本科后期,学生还可以选修研究生课程,大约10%的学生在本科期间就取得了科研成果。


“很多教授课题组都有本科生的身影,本科生发顶刊顶会、创立高科技公司、融资路演都不算是多么新鲜的事。”耿浩说。


许岚认为,本科生从某种程度上更能专注研究本身


“因为他们更无所畏惧。”他解释道,“随着年龄的增长,我们有时反而会顾虑更多。但对本科生而言来说,研究路径都是全新的,他们接近问题时像一张未被书写的白纸,不会因为怀疑技术或方法的可行性而踟蹰不前。”


在SIGGRAPH 2024获得了最佳论文荣誉提名奖项的DressCode就是由本科生主导产出的研究成果,第一作者何开是上科大在读大四学生。


DressCode是基于文字描述的自回归服装板片生成大模型——它应用友好,用户只需输入一段文字,即可生成真实穿戴状态下的衣物模型,并直接给出所有裁片等工艺参数,让裁缝能够精准制作一模一样的成衣。


DressCode展示了一种专为3D服装设计的生成式AI框架,来源:受访者


由于传统通用生成方法产生的网格或神经场与实际数字服装生产流程不兼容,其直接应用于服装领域的效果并不理想。


为了解决这些问题,影眸科技与上海科技大学的研发团队提出了文本驱动的3D服装生成框架DressCode。DressCode就像一位精通语言的巧手裁缝,利用自然语言,集成了用于缝纫图案生成的SewingGPT,并通过经过微调的扩散模型来合成PBR纹理,最终呈现出一款交互友好的服装生成、补全和编辑应用。


值得一提的是,影眸科技是上科大硕士毕业生吴迪、曾初啸与张启煊、张龙文于2021年创建的一家开拓3D生成技术的科创企业,已获得红杉资本、奇绩创坛等的投资。


“2020年我的高中老师告诉我,上科大的科研氛围浓厚。的确,大学四年我获得了超乎想象的科研与出国交流机会。”何开说。


从大一开始,何开就进入实验室上手搞科研,并自行选择了感兴趣的研究课题。本科二年级时,与师兄张龙文、张启煊的交流成为了何开学术道路的转折点,何开确定了自己对大模型相关研究和应用的兴趣。


“我大二时加入了课题组,大三就在顶会发表了自己的第一篇学术论文。”张启煊介绍,“我们的合作很沉浸式,一边玩一边科研一边创业。与何开合作的DressCode最早的灵感也是在洛杉矶参加SIGGRAPH时,和老师去爬山的路途中交流出来的,我们发现市场上没有能满足生产线需求的3D服装生成模型。回到学校后,再花了半年时间完成、落地。”


“要创新就要给予学生、老师足够的学术自由”。上科大招聘教师特别注重其学术水平,看潜力,不看他们头上的帽子和光环,教授都是一些正在“爬坡”的年轻人。超过80%的常任教授有五年以上海外经历,40岁以下的占了66.4%,其师生比一直维持在1:6左右。


在与「甲子光年」交谈中,张启煊无比庆幸自己高考填志愿时的选择:“我来上科大读本科时它才刚刚迎来了第一届本科毕业生。参加过校园开放日后,毫不夸张地讲,我一下爱上了这里的科研氛围。诚然,当时新学校有很多不确定性,但也意味着无限的可能性,这恰恰是那时的我所想要的。”


“不仅是学生,老师也如此。在面试中,许多学者选择加入上科大是因为不确定性提供了广阔的成长空间,但也有人因为不确定性没有来到这里。它是吸引人的因素,也可能是令人犹豫的理由。”许岚说道。


4.创新的引路人



教师不仅是知识的传递者,更是创新的引路人。


2022年,随着AI大模型相关技术快速发展,上科大的相关研究也进入了“快车道”。


上海科技大学多学科人工现实工作室(MARS)巨型球状的穹顶光场,来源:「甲子光年」拍摄


在Sora发布前,CLAY团队就已经意识到,通过Diffusion Transformer架构实现3D原生大模型或许是当前的“最佳”方案,但当时业内并不看好这一路径。


主要原因在于3D数据的高维度和复杂性使得模型难以有效处理。3D数据通常是稀疏且不规则的,如点云和体素等表示方式,大大增加了模型设计和计算的挑战。传统的3D网络架构如卷积在处理高维度数据时,计算成本和内存消耗都非常高,导致训练效率低下。更重要的是,早期缺乏成功的案例和成熟的方法,也让业界对其可行性持保留态度。


“开疆扩土”总是最难的。


认准这条路后,他们便向老师们寻求帮助。当时,虞晶怡也提出了相同的疑问:“你们确定这样行得通?”但在听完学生们的想法后,他二话不说地就加入了团队的“保障工作”中,“虞老师永远把我们学生的事情放在第一位。”张龙文说道,“时常半夜他还在与我们电话讨论问题。”


后面Sora的发布,CLAY团队发现自己的竟然想法与OpenAI的设定不谋而合。这份与国际顶级技术团队的“不期而同”让张龙文激动不已:“感谢老师们当时坚定支持我们。”目前,CLAY已经积累了大量海内外客户,尤其备受游戏行业的青睐。


“我们也是从学生时代过来的。曾经我的老师也是这样‘挺’我的,我希望将这份信任、支持传递下去。我未必是最好的导师,我所做的更多是把大家聚在一起思想碰撞,对原创的想法给予足够的资源。”虞晶怡笃定地说:“让学生们没有后顾之忧地去拼去闯。”


上科大校园,来源:「甲子光年」拍摄


今天是上科大成立11周年。


它是教育改革的产物,也是上海市教育综合改革试验的关键试点单位,有着较高的办学自主权。11年前参加上科大筹建的第一批员工不到20人,今天全职教职工达到1000多人。


而正是许多像虞晶怡、耿浩、许岚这样的老师,与学生们共同创立了国内最“年轻”又特殊的小规模大学,小而精、体制活、与国家战略和区域发展深度融合也成为了这所创新型、研究型大学的鲜明标志。


这11年很长,长到从无到有;又很短,短到只是一个开篇。


而这开篇,已经写下了浓墨重彩的一笔。


  • 1370
  • 0
  • 0
  • 0
评论