大原子模型的“巴别塔”:深度解析 DPA-3 与 MACE 的多任务/多头机制异同

大原子模型的“巴别塔”:深度解析 DPA-3 与 MACE 的多任务/多头机制异同 在构建 大原子模型(Large Atomistic Models, LAMs) 的征途中,研究人员面临着一个被称为“巴别塔”的终极难题:数据不兼容。 现有的开源数据集(如 Materials Project, OC20, SPICE)虽然庞大,但它们在生成时采用了不同的量子力学近似方法(如 PBE, B3LYP, \(\omega\)B97M 等不同的 DFT 泛函)。如果把这些数据直接混在一起训练,模型就会因为标签的系统性偏差而“精神分裂”。 为了解决这个问题,剑桥大学的 MACE 团队和深势科技的 DPA-3 团队分别给出了自己的答案。虽然两者的目的都是实现多任务学习(Multi-task Learning)和跨领域知识迁移(Cross-learning),但它们在底层架构设计上却有着本质的区别。 本文将深入剖析这两种机制的数学原理、架构差异以及各自的优劣势。 1. MACE 的解法:多头回放微调 (Multi-Head Replay) MACE 团队在构建统一基础力场时,采用的是经典的 “一干多枝”策略,即多头读出机制(Multi-Head Readout)。 1.1 数学表达 在 MACE 中,模型被分为两部分:共享的骨干网络(Backbone)和独立的数据集读出头(Readout Head)。对于属于特定数据集(Head)的原子 \(i\),其能量预测公式为: $$ E_i^{(\text{head})} = \sum_s \mathcal{R}^{(\text{head}, s)}(\mathbf{h}_i^{(s)}) + E_{0, z_i}^{(\text{head})} $$ \(\mathbf{h}_i^{(s)}\):骨干网络提取的、与数据集无关的共享节点特征。 \(\mathcal{R}^{(\text{head}, s)}\):专属于该数据集的独立读出网络(通常是一个浅层 MLP)。 \(E_{0, z_i}^{(\text{head})}\):该精度下特定元素的参考孤立原子能量。 1.2 核心思想 MACE 的逻辑是:底层的物理几何规律(如键长、键角、多体相互作用)是普适的,因此用一个强大的 Backbone 来学习;而不同 DFT 泛函带来的能量绝对值差异,则交给最后一层的不同 Head 来分别拟合。 为了防止在微调新 Head 时忘记旧知识,MACE 引入了回放机制(Replay Buffer),在训练时按比例混入预训练数据。 ...

March 6, 2026 · 弥弥

文献深度解读:迎接大原子模型时代——基于线图序列的图神经网络 DPA3

文献深度解读:迎接大原子模型时代——基于线图序列的图神经网络 DPA3 文献信息: 标题: A Graph Neural Network for the Era of Large Atomistic Models 作者: Duo Zhang, Anyang Peng, Chun Cai, …, Linfeng Zhang, Han Wang (AI for Science Institute, DP Technology, 北京大学等) 预印本: arXiv:2506.01686v2 核心贡献: 提出了 DPA3 架构,基于线图序列(Line Graph Series, LiGS)设计。该模型严格遵循 Scaling Law(缩放定律),通过引入“数据集编码(Dataset Encoding)”解决了多精度数据集混合训练的难题,在 LAMBench 等多个基准测试中展现出 SOTA 的零样本(Zero-shot)泛化能力。 1. 引言:从“专用力场”到“大原子模型 (LAMs)” 在过去十年中,机器学习原子间势函数(MLIPs)极大地加速了分子动力学模拟。然而,传统的 MLIPs 往往是“专模专用”的——研究一个新系统,就需要重新生成 DFT(密度泛函理论)数据并重新训练模型。 随着数据量的爆发,领域内的目标正在发生转移:能否像 ChatGPT 一样,训练一个“大原子模型(Large Atomistic Models, LAMs)”? 这样一个基础模型应该能够开箱即用地处理各种原子系统,或者只需极少量数据微调即可。 要实现 LAM,面临三大挑战: Scaling Law(缩放定律): 模型架构必须能够随着参数量、数据量和算力的增加,稳定地提升泛化能力。 数据兼容性: 现有的开源数据集(如 Materials Project, SPICE, OC20)使用了不同的 DFT 泛函(如 PBE, B3LYP, \(\omega\)B97M)。如何把这些“标准不一”的数据放在一起训练? 物理约束: 模型必须是平滑的、保守的(能量守恒),并且满足平移、旋转和置换不变性。 DPA3 的诞生,正是为了系统性地解决这三大挑战。 ...

March 4, 2026 · 弥弥