DPA3 | Bohrium

大原子模型的“巴别塔”：深度解析 DPA-3 与 MACE 的多任务/多头机制异同在构建大原子模型（Large Atomistic Models, LAMs）的征途中，研究人员面临着一个被称为“巴别塔”的终极难题：数据不兼容。现有的开源数据集（如 Materials Project, OC20, SPICE）虽然庞大，但它们在生成时采用了不同的量子力学近似方法（如 PBE, B3LYP, $\omega$B97M 等不同的 DFT 泛函）。如果把这些数据直接混在一起训练，模型就会因为标签的系统性偏差而“精神分裂”。为了解决这个问题，剑桥大学的 MACE 团队和深势科技的 DPA-3 团队分别给出了自己的答案。虽然两者的目的都是实现多任务学习（Multi-task Learning）和跨领域知识迁移（Cross-learning），但它们在底层架构设计上却有着本质的区别。本文将深入剖析这两种机制的数学原理、架构差异以及各自的优劣势。 1. MACE 的解法：多头回放微调 (Multi-Head Replay) MACE 团队在构建统一基础力场时，采用的是经典的 “一干多枝”策略，即多头读出机制（Multi-Head Readout）。 1.1 数学表达在 MACE 中，模型被分为两部分：共享的骨干网络（Backbone）和独立的数据集读出头（Readout Head）。对于属于特定数据集（Head）的原子 $i$，其能量预测公式为： $$ E_i^{(\text{head})} = \sum_s \mathcal{R}^{(\text{head}, s)}(\mathbf{h}_i^{(s)}) + E_{0, z_i}^{(\text{head})} $$ $\mathbf{h}_i^{(s)}$：骨干网络提取的、与数据集无关的共享节点特征。 $\mathcal{R}^{(\text{head}, s)}$：专属于该数据集的独立读出网络（通常是一个浅层 MLP）。 $E_{0, z_i}^{(\text{head})}$：该精度下特定元素的参考孤立原子能量。 1.2 核心思想 MACE 的逻辑是：底层的物理几何规律（如键长、键角、多体相互作用）是普适的，因此用一个强大的 Backbone 来学习；而不同 DFT 泛函带来的能量绝对值差异，则交给最后一层的不同 Head 来分别拟合。为了防止在微调新 Head 时忘记旧知识，MACE 引入了回放机制（Replay Buffer），在训练时按比例混入预训练数据。 ...

文献深度解读：迎接大原子模型时代——基于线图序列的图神经网络 DPA3 文献信息：标题： A Graph Neural Network for the Era of Large Atomistic Models 作者： Duo Zhang, Anyang Peng, Chun Cai, …, Linfeng Zhang, Han Wang (AI for Science Institute, DP Technology, 北京大学等) 预印本： arXiv:2506.01686v2 核心贡献：提出了 DPA3 架构，基于线图序列（Line Graph Series, LiGS）设计。该模型严格遵循 Scaling Law（缩放定律），通过引入“数据集编码（Dataset Encoding）”解决了多精度数据集混合训练的难题，在 LAMBench 等多个基准测试中展现出 SOTA 的零样本（Zero-shot）泛化能力。 1. 引言：从“专用力场”到“大原子模型 (LAMs)” 在过去十年中，机器学习原子间势函数（MLIPs）极大地加速了分子动力学模拟。然而，传统的 MLIPs 往往是“专模专用”的——研究一个新系统，就需要重新生成 DFT（密度泛函理论）数据并重新训练模型。随着数据量的爆发，领域内的目标正在发生转移：能否像 ChatGPT 一样，训练一个“大原子模型（Large Atomistic Models, LAMs）”？这样一个基础模型应该能够开箱即用地处理各种原子系统，或者只需极少量数据微调即可。要实现 LAM，面临三大挑战： Scaling Law（缩放定律）：模型架构必须能够随着参数量、数据量和算力的增加，稳定地提升泛化能力。数据兼容性：现有的开源数据集（如 Materials Project, SPICE, OC20）使用了不同的 DFT 泛函（如 PBE, B3LYP, $\omega$B97M）。如何把这些“标准不一”的数据放在一起训练？物理约束：模型必须是平滑的、保守的（能量守恒），并且满足平移、旋转和置换不变性。 DPA3 的诞生，正是为了系统性地解决这三大挑战。 ...