文献深度解读:跨越电子结构理论的鸿沟——构建统一分子、表面与晶体的基础机器学习力场

文献深度解读:跨越电子结构理论的鸿沟——构建统一分子、表面与晶体的基础机器学习力场 文献信息: 标题: Cross Learning between Electronic Structure Theories for Unifying Molecular, Surface, and Inorganic Crystal Foundation Force Fields 作者: Ilyes Batatia, Chen Lin, Joseph Hart, …, Gábor Csányi 等 (剑桥大学, 牛津大学, Hugging Face等) 预印本: arXiv:2510.25380v1 核心贡献: 提出了改进的 MACE 架构和“多头回放微调”策略,成功训练出一个在材料、分子晶体、表面、分子和物理合理性五个维度上均达到 SOTA(State-of-the-Art)的统一基础力场模型。 1. 引言:AI力场面临的“巴别塔”困境 在计算化学和材料科学中,机器学习原子间势函数(MLIPs,俗称机器学习力场) 已经彻底改变了分子动力学模拟的格局。任何力场模型的核心目标都是建立一个从原子坐标到系统总能量 \(E\) 的映射。在 MACE 架构中,总能量被分解为各个原子的局部能量贡献之和: $$ E = \sum_i E_i(\{\mathbf{r}_{ij}, z_j\}_{j \in \mathcal{N}_i}) $$其中,\(E_i\) 是中心原子 \(i\) 的能量贡献,\(\mathbf{r}_{ij}\) 是它与邻居原子 \(j\) 的相对位移向量,\(z_j\) 是邻居的原子序数,\(\mathcal{N}_i\) 是截断半径内的邻居集合。 然而,目前的 MLIP 领域存在一个严重的“碎片化”问题:搞无机材料的用一套模型,搞有机分子的用另一套模型。为什么不能训练一个“大一统”的模型? 因为不同领域的数据集,其底层的电子结构理论(DFT泛函)是不一致的!比如,材料库通常用 PBE 泛函,而高精度分子库通常用 \(\omega\)B97M-D3BJ 泛函。如果你把这些数据混在一起硬练,模型就会“精神分裂”;如果分阶段训练,又会遭遇神经网络的经典问题——灾难性遗忘(Catastrophic Forgetting)。 ...

March 5, 2026 · 弥弥

文献深度解读:当机器学习遇见第一性原理——将分子动力学推向一亿原子极限

文献深度解读:当机器学习遇见第一性原理——将分子动力学推向一亿原子极限 文献信息: 标题: Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning 作者: Weile Jia, Han Wang, Mohan Chen, Denghui Lu, Lin Lin, Roberto Car, Weinan E, Linfeng Zhang 发表会议: SC20 (2020 ACM/IEEE Supercomputing Conference) 荣誉: 2020年 ACM 戈登·贝尔奖 (Gordon Bell Prize) 获奖论文 1. 引言:鱼与熊掌不可兼得的分子动力学困境 在材料科学、化学和生物学中,分子动力学(Molecular Dynamics, MD) 是一种极其重要的计算机模拟方法,它就像是微观世界的“摄像机”,能够记录原子和分子的运动轨迹。 然而,传统的MD模拟一直面临着一个“鱼与熊掌不可兼得”的困境: 第一性原理分子动力学(AIMD): 基于量子力学(如密度泛函理论 DFT),计算极其精确,能真实反映化学键的断裂与生成。但它的计算复杂度通常随原子数的立方(\(\mathcal{O}(N^3)\))增长。即使在超级计算机上,也只能模拟几千个原子,时间跨度仅为 皮秒(\(10^{-12}\)秒) 级别。 经验力场(EFF): 速度极快,可以模拟数百万原子。但它是基于经验公式拟合的,缺乏泛化能力和精度,难以准确描述复杂的化学反应或多元素系统。 这篇论文的突破在于: 借助深度学习(Deep Learning),作者团队成功打破了这一僵局,在保留 AIMD 级别精度的同时,将计算效率提升到了 EFF 的水平,在 Summit 超级计算机上实现了上亿原子、纳秒级别的模拟,一举斩获超算领域的诺贝尔奖——戈登·贝尔奖。 ...

March 3, 2026 · 弥弥