基于GASpy的材料模拟计算框架
来源:用户上传
作者:阳王东 杨昊 冷灿 潘佳铭 唐卓 田泽安 李肯立
摘要:随着信息学和数据科学工具的发展,各种计算机科学软件在材料模拟计算领域的应用不断增加.为了加速催化剂的筛选,开展了基于信息工具如何改善和增强材料筛选的研究,介绍一种基于第一性原理的高通量材料集成计算框架GASpy(Generalized Adsorption Simu?lator for Python).该框架支持计算任务的自动化流程管理,可以借助Fireworks调用DFT(Den?sity Functional Theory)计算,并可以将运算结果以及中间步骤保存至MongoDB数据库.平台支持与不同高性能计算集群的动态绑定,支持大批量计算作业的生成、提交.平台同时支持数据的提取、自动存储.利用GASpy在天河一号上对材料网站上获取的晶体结构进行了实验测试,进行晶体结构优化并计算吸附能,结果表明结合各种信息学工具可以更加灵活高效地实现大规模自动化的DFT材料模拟计算,在模拟电催化领域有较好的应用前景.
关键词:GASpy;第一性原理;高通量框架;DFT;材料模拟计算
中图分类号:TP315
文献标志码:A
半个世纪之前,材料科学的迅速发展带动了科学技术的进步与经济的发展.在这个过程中,从新物质的发现到实际应用的周期时间较长,有的甚至长达十几年,新材料的开发和生产成为制约一个国家工业化发展的因素之一.传统的材料研发局限于以专家试验为主的“试错法”,这种方法模式单一,需要多年的经验以及相关知识的积累,开发周期较长,开发成本较高,而且回报率比较低[1].
同时传统方法面临着日益严峻的化石能源危机与环境污染等问题.为了解决这个问题,人们提出了各种替代方案.这些方案包括使用光电、电池、太阳能燃料和化学品、燃料电池以及其他新兴技术.发展可再生绿色能源的转换技术对优化能源结构具有重大意义.这些技术的一个共同问题是,研究人员仍然需要进行额外的材料开发,以提高经济可行性.一些研究人员已经转向计算模拟来帮助材料筛选和开发.
现今计算机技术和各种信息学工具的发展为加快新材料模拟和性能预测提供了新的机会.面临着智能制造行业和经济的飞速发展,越来越多研究人员将以更短的时间、更低的成本缩短新型材料从发现到生产应用的研究使用周期.
人类基因组计划是结合已知的基因数据,用可拓展的理论去模拟未知的基因组合.新材料的发现过程与这种情况相似,通过高性能的计算方式,去发现更多的我们还未发现的材料,同时利用高通量的数据处理方式,为新材料的发现以及生产设计提供更广阔的数据基础,扩大了模型的筛选模式,减少了研发周期和性能测试时间和纠错时间,为新材料的研究趋势贡献新的力量.
在材料学、计算科学等领域,会经常运用第一性原理,与“试错法”相比,第一性原理计算方法的优势十分明显,它能够确定表面弛豫、吸附等.对比实验研究,第一性原理计算能加快人们提出合理实验方案的速度.随着电子信息技术的高速发展,第一性原理计算,在材料模拟计算方面有了很大的进步,第一性原理计算已经成为计算材料科学的重要基础和核心内容[2].
研究人员采用密度泛函理论(DFT)来预测析氢反应的电催化性能[3].DFT还用于预测电池电解液稳定[4],DFT和分子动力学(MD)用于预测材料的光学带隙[5-6].当遇到搜索空间逐步增大的情况,这些模拟的设置在计算上可能是昂贵的和耗时的.所以许多研究人员已经开始构建或使用信息科学工具,如工作流管理器、数据库或代理模型来加速他们的材料开发.这些类型的信息工具在软件工程领域很丰富,但在材料模拟计算领域却不常见.
晶体材料的大范围筛选并非一件容易的事情.有些方法通过关注有限的搜索空间来解决这个问题,比如双金属A、B晶体[7]或简单的立方晶格金属间化合物[8].其他的方法还包括建立电子结构计算的数据库[9-10].大量的数据集对于进行稳健的筛选研究是必要的,但创建这些数据库需要数十位DFT专家的合作.这种方法的结果是,研究人员花费了大量的时间配置、管理和等待DFT计算,这本身就是一种耗时的工作.配置和管理DFT计算的人员成本已经通过创建基于计算机科学的解决方案得到了有效解决.
信息学和数据科学工具在材料模拟计算研究中的应用不断增加,彻底改变了材料发现的方法.
在本文中我们首先讨论了计算机软件工具如何增强和改善材料筛选和发展,并实现了工作流、数据库和Docker容器的组合.然后我们描述了一种框架GASpy,GASpy框架可以跨多个计算集群进行密集型计算.这些解决方案对于进行高通量材料筛选是至关重要的,它使用动态依赖图来共享、组织和调度计算,以实现表面科学中新的、灵活的研究工作流,该框架可以用于金属间化合物表面的大规模材料计算以发现电化学催化剂.最后,我们在天河一号上利用此高通量模拟计算框架对从材料数据库中获取的晶体结构数据进行了模拟实验.验证了该框架在解决实际问题中的可行性.
1信息学工具
1.1数据库计算机科研工作者经常共享数据,以避免执行
冗余计算,在过去,我们只是简单地将结果存储在共享计算机资源的文件系统中,然后报告文件的位置,以便协作者手动搜索和解析数据.该方法简单灵活,但随着数据量大,耗时长,它会变得难以处理.这种方法还要求我们的合作者拥有与我们相同的计算资源,这对其他研究团队,特别是实验人员来说是一个障碍.计算机和材料计算领域的科学家通过创建包含底层数据的新格式或创建数据集来解决这个问题,这些数据库允许我们系统地存储和共享数据.使用数据库还可以减少材料计算领域的科研工作者冗余的计算.
在材料模拟中使用数据集的例子有很多.一个广泛使用的数据库工具是原子仿真环境(ASE)中的数据库模块,此模块是开源的.它将仿真结果作为ASE原子对象存储在自定义SQL模式中[11].许多计算材料库中收集了用于小型计算的此类数据库示例[12].ASE原子对象也可以存储在灵活的Mongo模式中,使用开源的Vasp模块[13]或更专门的开源pymatgen-db模K[14].其他大型数据库的例子包括但不限于OQMD[15]、TheMaterials Project[16]、Aflow?lib[17]、和NOMAD.随着数据量的增大,数据如何存储和检索将成为难题,由于大量的材料数据产生,机器学习已经成为一个主要的数据挖掘的工具.OQMD、AFLOW和NOMAD等数据库中均引入了机器学习算法,加速材料知识的挖掘.
nlc202204111628
转载注明来源:https://www.xzbu.com/4/view-15427903.htm