“研究科学的两大基本目的是寻求基本规律/基本原理和解决实际问题。”7月8日,围绕这两个基本目的,北京大数据研究院院长鄂维南在2021世界人工智能大会(WAIC)上发表了题为AI for science的演讲。
在谈到航空航天、生物制药等领域的实际问题时,鄂维南表示,从寻求基本规律,尤其是基本原理的角度,当量子力学建立后这个任务已基本完成,但并不是彻底完成。当然,如果是日常生活中遇到的化学、材料、生物等问题,量子力学可以解释。
基本规律研究的困难之处在于微分方程问题。鄂维南提到,有关量子力学的“薛定谔方程”就是一个例子。它是一个多体问题,波函数依赖变量个数,维数是粒子个数的三倍。一个量子体系中,若有100个电子,那么就是一个300维的方程。要知道,100个电子的体系虽简单,但300维的方程将是一个非常复杂的微分方程。
“人类真正的进步是从有了电子计算机之后,在这基础上发展了一系列方法,人们才第一次大规模实现从基本原理到解决实际问题。”鄂维南分享道。
这些方法有一个共同的出发点,即可以用多项式来逼近一般的函数,牛顿提出的这一理论为科学研究进程带来了巨大影响。用计算方法解决问题是现代工业和技术赖以生存的基础,但仍有很多问题没有得到解决,例如材料的性质和设计,像药物,分子等。鄂维南指出,如果要设计催化剂,这些远远没有得到解决,基于基本原理的控制方法也未得到解决。
“这导致的后果是做理论的人、做实验的人和做实际场景的人,这三个团体相差很远。”鄂维南说道。
那么,这其中的困难主要出在哪里?
鄂维南认为,他们都有一个共同的根源就是所谓的维数灾难,依赖的变量太多。比如多体问题依赖的变量非常多,而维数灾难就是随着变量的个数、维数的增加导致计算的复杂度也相应增加。
“数学里也有基本的困难,即多项式。常规方法是基于多项式,但在高维不是一个有效的工具。高维,正好是深度学习可以帮助我们的地方。”鄂维南以深度学习中的图像识别为例,从一个图像到具体的图像内容就是一个函数,但在以前,这类高维函数无法处理。又比如AlphaGo下围棋,它的最佳策略就是一个方程的解,所以AlphaGo做的事情就是在试图解一个方程。
这两个例子中,图像识别是一个高维函数,alphago是解高维超大空间上的方程,能做这一点就是因为神经网络可以帮助有效表示或者逼近高维空间的函数,刚才说多项式不行,神经网络是一个有效的替代品,函数是数学里面最基本的供给,最基本的数学概念就是函数。简单地说来从科学的角度来说,它可以带来新的计算方法,新的科学模型、新的实验方法和新的产业业态。
鄂维南在现场问道,那么,分子动力学干了什么呢?他解释称,给一个材料或者一个大分子,通过看它每一个原子的动态轨迹来研究这个体系,这是计算化学、计算材料、计算生物学的基本工具,解的方程就是非常简单的牛顿方程,困难在于描述原子和原子之间相互作用的函数。
追溯到1985年时,鄂维南提到第一性原理。他表示,通过量子力学模型在线计算原子之间的相互作用力,非常可靠,但是只能处理很小的体系,最多1000个原子,现在有一个新的套路。量子力学基本原理只提供数据,在数据的基础上,学有效的机器学习的模型,再用这个模型做分子动力学的计算,如果能够解决所有技术问题的话,它有可能是提供了一个既可靠又有效的方案,实际上的确是这样的,这叫做深度势能的模型。
2020年,鄂维南团队实现把量子力学精度的分子动力学从能算1000个原子到1亿个原子,直至现在可以算10亿个原子。“第一次看到把机器学习和科学计算、高性能计算三大最主要的工具结合在一起,有多么大的空间可以实现。”鄂维南补充道,这样一个空间不仅仅是分子动力学的例子,所以,带来的影响是非常巨大的。
鄂维南认为,现在做科研、做理论、做实践基本是“小农经济”模式,效率很低。以后会是“安卓”模式,有统一的大平台,大家一起贡献。例如,提供最基础的模型,比如分子动力学模型,具体需要哪个体系,只要在平台上做简单的应用开发。
此外,鄂维南强调,所谓的传统科学领域(化学、材料、生物等)才是人工智能更大的主战场,它给我们带来的不仅仅是科学研究的范式的改变。也将是传统行业的转型和升级,鄂维南呼吁大家一起参与到这个伟大的事业中来。