Updated on
April 8, 2026
香港科技大学与腾讯混元3D团队提出 QuadGPT,这是首个端到端直接生成四边形网格的自回归框架。不同于以往"先生成三角形再转换"的两阶段方案,QuadGPT 在序列表示层面统一了三角形与四边形,并引入拓扑感知的强化学习微调策略(tDPO),使生成结果具备干净的边缘流。该工作已被 ICLR 2026 接收,论文已公开。
论文第一作者刘建为香港科技大学博士生,研究方向涵盖3D生成、自回归模型与强化学习。通讯作者为香港科技大学计算机科学及工程系讲座教授郭嵩,以及腾讯混元3D团队郭春超。

做过游戏或影视3D资产的人都知道,管线上真正用的网格几乎都是四边形主导的。原因并不复杂:四边形网格的细分曲面更平滑,骨骼绑定后变形更自然,UV 展开也更省心。尤其是角色和有机体建模,没有干净的四边形拓扑(edge flow),后续的动画和渲染环节都会出问题。
然而,现有的 AI 3D 生成方法在这件事上一直不尽如人意。
目前主流的自回归网格生成模型,如 MeshAnything、BPT、DeepMesh、FastMesh,清一色只能输出三角形网格。想要四边形,只能靠后处理将三角形两两合并。但这种启发式的合并方式经常破坏原有的边缘流,生成的四边形拓扑质量与手工建模相比仍有明显差距。
另一条路是 QuadriFlow 这类基于交叉场引导的传统四边形重网格化方法。它们的确能直接产出四边形,但对输入质量非常敏感,遇到复杂拓扑或尖锐特征就容易失败,面对 AI 生成的稠密网格更是力不从心。
也就是说,从"AI 生成了一个3D形状"到"这个形状能拿去做游戏",中间一直缺一座靠谱的桥梁。

QuadGPT 的出发点很直接:既然后处理转换总会丢失拓扑信息,那不如让模型从一开始就原生输出四边形。
思路虽然简洁,实际操作却有几个绑不过去的技术难点。
混合拓扑怎么处理? 实际的艺术家网格虽以四边形为主,但总会夹杂少量三角形。QuadGPT 为此设计了一种统一的 12-token 定长块:四边形面有 4 个顶点共 12 个坐标 token,三角形面只有 9 个,前面补 3 个 padding token 凑齐。模型看到 padding 即可判别当前面为三角形,无需额外的类型标记。坐标采用 1024 级量化,顶点按 (x,y,z)排序,确保同一网格始终映射到唯一的序列表示。
序列太长怎么办? 一个上万面的网格,token 序列动辄几万。QuadGPT 采用 Hourglass Transformer,共 11 亿参数、24 层、三阶段层次结构。序列先被压缩 3 倍再压缩 4 倍,到瓶颈层仅剩原长的 1/12,全局信息在此交互,局部细节交由外层处理。输入条件为一组带法线的点云,经 Michelangelo 编码器压缩为全局嵌入后,通过交叉注意力持续注入解码过程。
四边形比三角形难学得多。 预测一个四边形面相当于同时预测两个相关的三角形,直接从零开始训练很难收敛。QuadGPT 的解决方案是课程学习:先用三角形预训练模型的权重做初始化,再通过一个四边形主导度参数r,将训练分布从纯三角形逐步退火到四边形主导,先学走路,再学跑步。

预训练阶段使用的交叉熵损失是逐 token 优化的,无法约束全局的拓扑结构,例如边缘环路(Quad Ring)是否连贯、生成过程中是否出现断裂。而这些恰恰是决定网格能否上管线的关键指标。
为此,QuadGPT 在预训练之后引入了一个强化学习微调阶段,称为 tDPO(truncated DPO)。
具体做法是:针对同一输入生成多个候选网格,通过拓扑奖励函数进行打分(奖励长且连续的边缘环路,惩罚生成中的断裂),再将优劣样本配对,执行 DPO 优化。
这里的"truncated"针对的是一个工程瓶颈:高精度网格的序列过长,完整计算 DPO 开销难以承受。tDPO 的策略是在序列的随机位置截取固定长度的窗口(36,864 token),在截断片段上构建偏好对。虽然每次仅优化局部,但经过多轮迭代,全局的拓扑质量能够得到系统性提升。
四边形网格数据本身就稀缺。团队从 Objaverse、Objaverse-XL、ShapeNetV2、3D-FUTURE 以及部分授权的专业资产中收集了大量模型。数据量仍然不够的部分,团队自行开发了一套基于整数线性规划(ILP)的三角形转四边形工具,将"该溶解哪些边"建模为优化问题,在保持流形结构的前提下尽可能多地合成高质量四边形。
随后经过三轮筛选:规则检查(剔除畸形面、坏拓扑)、断裂检测(一种"试焊"算法,检测网格是否存在隐藏的开缝)、视觉质量评估(基于 10 万手动标注样本训练的分类器,剔除边缘流质量差的模型)。最终保留了 130 万个面数在 500~20,000 之间的高质量模型。
评估覆盖两类场景:艺术家手工设计的网格(分布内),以及 Hunyuan3D 生成的稠密网格(分布外)。对比方法包括 MeshAnythingV2、BPT、DeepMesh、FastMesh(均为三角形模型后接转换),以及 QuadriFlow(传统场引导方法)。
从定量指标来看,QuadGPT 在两个场景下均取得了最优的综合表现。在艺术家网格上,CD 为 0.043、HD 为 0.095、四边形比例达 78%、专家用户评分 4.8/5;在稠密网格上,CD 为 0.057、HD 为 0.147、四边形比例 80%、用户评分 4.9/5。

更具说服力的是一组控制变量实验:团队训练了 TriGPT,它与 QuadGPT 采用完全一致的架构、数据和 tDPO 策略,唯一区别在于它先生成三角形再做转换。TriGPT+RL 的几何指标(CD/HD)甚至略优于 QuadGPT,但拓扑质量上差距显著,用户偏好评分仅为 QuadGPT 的 1/2.6。这表明"先三角形后转换"的路线在全局拓扑连贯性上存在天花板。

消融实验同样值得关注:标准 DPO 在复杂网格上泛化能力有限,tDPO 带来了明显改善,完整版 tDPO-Pro 则进一步拉开差距。课程学习的作用同样关键,若跳过三角形预训练直接训练四边形,模型基本无法收敛

与 QuadriFlow 的对比则更为直观:后者在复杂拓扑和尖锐特征上频繁失败,部分样例甚至直接崩溃、无法输出结果。而 QuadGPT 在所有测试样例上均能稳定输出。

生成的四边形网格可以直接投入使用:边缘环路干净,UV 展开顺畅;四边形结构天然适合细分曲面和骨骼变形,角色动画与有机体建模均可顺利衔接

QuadGPT 的核心贡献在于:将"AI 生成三角形网格再后处理转四边形"这条间接路径拉直,让自回归模型直接输出管线可用的四边形网格。统一序列化解决了混合拓扑的表示问题,Hourglass Transformer 解决了长序列的计算效率问题,tDPO 则补上了全局拓扑优化这块短板。对于 3D 内容的自动化生产流程而言,这是一个具有实际意义的推进。
更多方法细节与实验分析请见原论文。
[1] Hao, Z., Romero, D. W., Lin, T.-Y., Liu, M.-Y. Meshtron: High-fidelity, artist-like 3D mesh generation at scale. arXiv preprint arXiv:2412.09548 (2024).
[2] Liu, J., Xu, J., Guo, S., Li, J., Yu, J., Weng, H., Lei, B., Yang, X., Chen, Z., Zhu, F. et al. Mesh-RFT: Enhancing mesh generation via fine-grained reinforcement fine-tuning. NeurIPS (2025).
[3] Huang, J., Zhou, Y., Niessner, M. et al. QuadriFlow: A scalable and robust method for quadrangulation. Computer Graphics Forum (2018).
使用体验:
公众号宣传:
https://mp.weixin.qq.com/s/QRxLAZZ0JcSJQpOMbAkpqw