机器学习力场

文献深度解读：跨越电子结构理论的鸿沟——构建统一分子、表面与晶体的基础机器学习力场文献信息：标题： Cross Learning between Electronic Structure Theories for Unifying Molecular, Surface, and Inorganic Crystal Foundation Force Fields 作者： Ilyes Batatia, Chen Lin, Joseph Hart, …, Gábor Csányi 等 (剑桥大学, 牛津大学, Hugging Face等) 预印本： arXiv:2510.25380v1 核心贡献：提出了改进的 MACE 架构和“多头回放微调”策略，成功训练出一个在材料、分子晶体、表面、分子和物理合理性五个维度上均达到 SOTA（State-of-the-Art）的统一基础力场模型。 1. 引言：AI力场面临的“巴别塔”困境在计算化学和材料科学中，机器学习原子间势函数（MLIPs，俗称机器学习力场）已经彻底改变了分子动力学模拟的格局。任何力场模型的核心目标都是建立一个从原子坐标到系统总能量 $E$ 的映射。在 MACE 架构中，总能量被分解为各个原子的局部能量贡献之和： $$ E = \sum_i E_i(\{\mathbf{r}_{ij}, z_j\}_{j \in \mathcal{N}_i}) $$其中，$E_i$ 是中心原子 $i$ 的能量贡献，$\mathbf{r}_{ij}$ 是它与邻居原子 $j$ 的相对位移向量，$z_j$ 是邻居的原子序数，$\mathcal{N}_i$ 是截断半径内的邻居集合。然而，目前的 MLIP 领域存在一个严重的“碎片化”问题：搞无机材料的用一套模型，搞有机分子的用另一套模型。为什么不能训练一个“大一统”的模型？因为不同领域的数据集，其底层的电子结构理论（DFT泛函）是不一致的！比如，材料库通常用 PBE 泛函，而高精度分子库通常用 $\omega$B97M-D3BJ 泛函。如果你把这些数据混在一起硬练，模型就会“精神分裂”；如果分阶段训练，又会遭遇神经网络的经典问题——灾难性遗忘（Catastrophic Forgetting）。 ...