电子及其行为为量子物理学家提出了有趣的问题,而最近在来源、仪器和设施方面的创新使研究人员有可能获得更多编码在量子材料中的信息。
然而,这些研究创新正在产生前所未有的——直到现在,还是难以理解的——数据量。
“一份材料中包含的信息可以迅速超过美国国会图书馆的总信息量,后者约为 20 TB,”文理学院物理学教授Eun-Ah Kim说。量子材料研究和利用机器学习的力量分析来自量子材料实验的数据的前沿。
“传统分析模式(主要是手动)的有限能力正在迅速成为关键瓶颈,”Kim 说。
由 Kim 领导的一个小组成功地使用了与康奈尔大学计算机科学家一起开发的机器学习技术来分析来自量子金属 Cd2Re2O7 的大量数据,解决了关于这种特殊材料的争论,并为未来机器学习洞察材料的新阶段奠定了基础.
康奈尔大学的物理学家和计算机科学家合作建立了一种无监督和可解释的机器学习算法,XRD 温度聚类 (X-TEC)。研究人员随后应用 X-TEC 研究烧绿石氧化物金属 Cd2Re2O7 的关键元素。
X-TEC 在几分钟内分析了 8 TB 的 X 射线数据,跨越 15,000 个布里渊区(唯一定义的单元)。
Cornell Ann 计算机科学教授Kilian Weinberger说:“我们使用无监督机器学习算法,非常适合将高维数据转换为对人类有意义的集群 。” S Bowers 计算与信息科学学院。
由于这项分析,研究人员发现了对材料中电子行为的重要见解,检测了所谓的伪戈德斯通模式。他们试图了解原子和电子如何有序地定位自己,以优化天文庞大的电子和原子“社区”内的相互作用。
“在复杂的晶体材料中,多个原子的特定结构,即晶胞,会以规则的排列方式重复自身,就像在高层公寓大楼中一样,”Kim 说。“我们发现的重新定位发生在整个建筑群的每个公寓单元的规模上。”
她说,因为单元的排列保持不变,所以从外面看很难发现这种重新定位。然而,重新定位几乎自发地破坏了连续对称性,从而导致了伪戈德斯通模式。
“伪戈德斯通模式的存在可以揭示系统中难以发现的秘密对称性,”金说。“X-TEC 促成了我们的发现。”
金说,这一发现之所以重要,有三个原因。首先,它表明机器学习可用于分析大量 X 射线粉末衍射 (XRD) 数据,作为 X-TEC 扩大应用的原型。X-TEC 作为软件包提供给研究人员,将作为高级光子源和康奈尔高能同步加速器源的分析工具集成到同步加速器中。
其次,这一发现解决了关于 Cd2Re2O7 物理学的争论。
“据我们所知,这是使用 XRD 检测戈德斯通模式的第一个实例,”Kim 说。“这种对复杂量子材料波动的原子级洞察力将是第一个使用信息丰富的大量衍射数据来回答伴随任何新物质相发现而来的关键科学问题的例子。”
第三,这一发现展示了物理学家和计算机科学家之间的合作可以完成什么。
“机器学习算法的数学内部运作通常与物理学中的模型没有什么不同,而是应用于高维数据,”温伯格说。“与物理学家一起工作很有趣,因为他们非常擅长模拟自然世界。在数据建模方面,它们确实一举成名。”