用計算機真正模擬生命還要多久

發布時間:2021-04-05 文章來源:光明網&中科院高能所  瀏覽次數:627
03-31 07:40

導語
當前在計算科學、計算機硬件和生命科學方面無法預料的突破可能會使我們朝著目標邁進計算機模擬生物學的速度更快。

Roland R. Netz、William A. Eaton | 作者趙雨亭 | 譯者
劉培源 | 審校
鄧一雪| 編輯

論文題目:
Estimating computational limits on theoretical descriptions of biological cells
論文地址:
https://www.pnas.org/content/118/6/e2022753118
埃爾溫•薛定諤在他1944年的著作《生命是什么?》[1]中問道:“如何使用物理兼化學方法來解釋在一個活的有機體在自己的空間邊界內發生的時空事件?”在隨后的近80年中,科研人員已經探索了許多有關亞細胞現象的、更深層機理的成果。雖然如此,以第一原理對生活中的生命體進行計算機模擬仍然是一個遙不可及的目標。
在最近一篇發表于美國國家科學院院刊 PNAS 的文章中[2],Netz 與 Eaton 預測了這種模擬變為現實所需的時間。他們進一步將其估計擴展到更大的生物系統,并討論是否以及何時有可能模擬諸如人腦之類的多細胞實體。
1. 用計算機模擬生命過程
在一個生物學上有意義的時間間隔內(例如一個小時、一次細胞分裂時間),模擬細胞大小的分子裝配似乎是一項艱巨的任務。的確,現代分子模擬領域的勝利之一就是觀察到了蛋白質的可逆老化——這種老化發生在微秒級[3]。相比之下,單個細胞每小時可以合成數千或數百萬個蛋白質,其中許多蛋白質可能需要數秒或數分鐘才能折疊,并且只有在細胞機械(cellular machinery)的幫助下才能完成。
在最新的科研嘗試中[4],研究者模擬了細胞質中,相對較大的100 nm×100 nm×100 nm亞空間。但是,該研究中獲得的數十納秒的時間尺度卻非常短,比所需的1小時短了10個數量級!但是,如果按照摩爾定律的預測,計算能力繼續呈指數增長,那么彌合這種時間尺度上的差距似乎并非遙不可及。

圖1. 摩爾定律認為集成電路可容納的晶體管數量,每隔約18個月翻倍,代表著對計算能力指數增長的觀測和預期。但隨著芯片組逐漸接近單個原子尺度,摩爾定律可能會失效。
的確,如果計算機速度每 1.5 年翻一番,則應該有可能在50年[5]內達到所需的時間范圍。某些為加速分子模擬而開發的方法可能會提供進一步的幫助。例如,可以嘗試提高仿真溫度以加快動力學速度。盡管這種簡單的加速動力學的方法存在問題——比如我們無法通過將葡萄酒在不破壞質量的前提下升溫來加速老化——但該思路仍然具有啟發。
然而,存在一個關鍵問題:分子動力學(Molecular dynamics,MD)作為標準在原子級上對生物分子現象進行建模的方法并不是真正的第一手方法:要根據第一性原理方法(first-principles method)預測分子間與分子間相互作用,必須為電子和原子核求解量子薛定諤方程(Schrödinger equation)——這需要巨大算力。
2. 簡化模擬降低算力
從頭開始使用分子動力學法求解的代價就是可觀的計算成本。相比之下,標準的分子動力學方法利用了兩種簡化方法:1)由于電子的移動速度比原子核快得多,因此它們可以使原子核感受到有效的相互作用;2)可以使用經驗“力場(force field)”來近似這種有效的相互作用,但它只是描述有效勢能隨核坐標的函數而變化的分析公式。經過數十年的蓬勃發展,現在力場已非常精確且可靠。不幸的是,當前使用的大多數力場仍然存在基本局限性:科研人員無法對其進行化學處理。
化學反應涉及共價鍵和斷裂和形成。沒有化學反應,就不會有生命。細胞內的酶催化許多化學反應,包括與代謝過程或機械運動產生有關的化學反應。為了描述這種反應,必須進行量子處理。Netz 和 Eaton 指出:幸運的是,不需要量子力學來描述整個單元。相反,研究人員僅需要量子力學處理來描述形成的原子的有限子集——如酶的活性位點及其底物。
細胞模擬的量子部分值得進一步研究。化學反應的速率(即每單位時間發生反應的概率)通常可以由阿倫尼烏斯定律(Arrhenius law)來描述,

其中ν是一個前置因子,kBT是熱能(等于玻爾茲曼常數和溫度的乘積),Ea是活化能,可以粗略地解釋為閾值能量。在反應中,必須提供給該分子活化能Ea才能使其從穩定的分子構象中消失,從而過渡到反應產物(圖2)。如果T是人體的溫度,則有kBT≈0:6kcal = mol。

圖2. 用于計算反應速率的有效模擬方法始于將系統置于反應物和產物之間的中間位置
這個重要數字對量子計算所需的精度設置了限制。的確,根據阿倫尼烏斯定律,若是估算活化能時出現1 kcal / mol的誤差,預測的反應速率將降低5倍。盡管有一些量子方法可以使能量計算的精度遠小于kBT,但算力需求極大,導致該方程通常僅限于在少數幾個原子組成的系統中使用。然而目前,在諸如酶催化中遇到的那些更復雜的分子系統,科研人員依然在使用這種方法進行模擬。Netz 和 Eaton [2] 提出了密度泛函理論(density functional theory,DFT)方法[2]。DFT所需的計算工作量與系統規模的立方成正比。但是DFT的當前精度通常僅為幾千卡每摩爾[6],因此,通過基于DFT的模擬所預測的動態時間尺度將提升一個數量級。尤其需要注意的是,與其他電子結構方法不同,DFT并沒有提供系統的方法,通過修改更改計算參數以提高其準確性。
估計時間尺度上的數量級誤差本身并不是致命的:如果仿真中發生的所有過程都比實際速度快十倍,則簡單的逐步升級將恢復正確的動力學。但是,想象一下某些過程發生的速度快了十倍,而其他過程發生的速度卻慢了十倍:這將嚴重破壞不同過程的相對速率。因此,在仿真中不會保留適當細胞功能所需的相對速率的精妙平衡,導致其預測能力的下降。
這些考慮因素表明,除非DFT的準確性得到顯著提高(最近基于機器學習的DFT方法在這方面似乎很有希望[6]),否則并不實用。然而,可能需要花費大量成本的量子計算才能獲得所需的預測能力。由于計算成本與所需精度之間存在反比關系,因此可以將這種關系視為 Netz 和 Eaton 提出的“生物不確定性關系(biological uncertainty relationships)”之一。

圖3. 亞細胞結構觀測及其物理機制推測已有較多研究,但純計算機模擬仍然困難。圖為以海馬區神經元細胞的亞細胞結構
我們已經了解了很多有關亞細胞現象的物理機制,但是使用第一原理對活動中的活細胞進行計算機模擬仍然是一個遙不可及的目標。基于最近 Netz 和 Eaton 在這篇文章中給出的預測,在這樣的模擬變為現實之前,我們將需要等待多長時間。
盡管一個原子級的影片慢速播放至一個小時會令人興奮,但由于另一個原因,它可能沒有太大的預測能力:大多數細胞現象都在運行,然而現有手段只能通過多次重復模擬來積累足夠的統計信息后才能理解。在這方面,現代的“細胞學(celling)”方法解決長期動力學問題似乎特別有希望成為一種補救措施。這套原子論方法將系統的空間劃分為多個細胞(不要與生物細胞混淆),并計算每個細胞內的短時彈道(short-time trajectories),以構建描述細胞之間過渡的動力學方案。它實現了一石二鳥(It kills two birds with one stone),因為它可以自動提供系統的統計描述,并且比蠻力運算更有效。
隨機的、主方程式的生物細胞模擬方法可以看作是細胞的一種極限情況,而這種情況與原子解析軌跡的關系并不明顯。Netz 和 Eaton 的估計表明,即使使用現代計算資源,對生物細胞(而非大腦!)的這種模擬也是可以達到的。
然而,除了隨機主方程法的近似性質外,它還面臨著雙重挑戰。首先,該方法需要事先了解所有相關的化學方程式細胞內的形成。這有一個重大的局限,因為研究者希望通過模擬發現此前未必能預料到的新化學過程。規避此限制的一種潛在方法是在動態地發現可能的動力學事件(化學轉化)的情況下,采用自適應方法。
其次,該方法要求將每種可能的化學轉化的速率系數作為輸入。除非實驗可用,否則此類信息必須來自原子模擬——幸運的是,執行操作的規模要比整個生物細胞的規模小得多。同樣,在這里,研究人員需要考慮導致速率估計的計算的準確性。上面已經討論了一種誤差來源,即分子能量估計的準確性,但是由于參數輸入到方程中,所以困難并沒有就此結束。該模擬仍然需要計算。這樣做的一種直接方法是在反應物狀態下啟動感興趣的分子系統,等到反應完成(即達到反應產物),然后重復模擬,直到估計出平均反應時間為止[9]。
3. 新的低成本模擬方法
一種更低成本的替代方法是過渡態理論,這是每本化學教科書中都講的近似方法。不幸的是,現在我們知道過渡態理論對液相化學動力學的描述效果不盡人意。因此,人們將不得不訴諸更準確的、相應也更昂貴的方法。自1970年代起,化學物理學界開發了許多方法來計算“精確的”反應速率,而無需進行長時間的動力學模擬[7],通常的想法是在反應物和產物狀態之間進行模擬,并對系統進行監控。直到到達產品為止。這樣,可以使用相對較短的軌跡[7]來計算對過渡態理論的動態校正。

圖4. 2016年諾貝爾化學獎獎勵了分子機器的相關工作,對生物分子機器的研究將促進微觀尺度計算機模擬的實現
對單個細胞和多細胞系統進行模擬的另一個障礙是,這種模擬不是獨立的,必須依賴于有關細胞分子組織的結構信息。特別是就分子機器的內部運行而言,該信息必須來自實驗研究,目前尚不完整。
總結上述觀點,盡管可能在未來幾十年內實現整個細胞的計算機模擬,但人們不應該將所有的籌碼都押注于它們作為學習生命物質的主要工具的效用。第一性原理模擬多細胞裝配體(如大腦)的前景更加黯淡。另一方面,所有這些考慮都是基于對現有仿真工具的推論,人們永遠都不應低估科研人員的創造力。當前在計算科學、計算機硬件和生命科學方面無法預料的突破可能會使我們朝著目標邁進計算機模擬生物學的速度更快。
參考文獻
1. E. Schrödinger, What is Life? The Physical Aspect of the Living Cell (Cambridge University Press, 1944).
2. R. R. Netz, W. A. Eaton, Estimating computational limits on theoretical descriptions of biological cells. Proc. Natl. Acad. Sci. U.S.A., 10.1073/pnas.2022753118 (2021).
3. K. Lindorff-Larsen, S. Piana, R. O. Dror, D. E. Shaw, How fast-folding proteins fold. Science 334, 517–520 (2011).
4. I. Yu et al., Biomolecular interactions modulate macromolecular structure and dynamics in atomistic model of a bacterial cytoplasm. eLife 5, e19274 (2016).
5. G. Henkelman, H. Jo ́ nsson, T. Lelièvre, N. Mousseau, A. F. Voter, “Long-timescale simulations: Challenges, pitfalls, best practices, for development and applications” in Handbook of Materials Modeling, W. Andreoni, S. Yip, Eds. (Springer, 2020), pp. 1–10.
6. M. Bogojeski, L. Vogt-Maranto, M. E. Tuckerman, K. R. Müller, K. Burke, Quantum chemical accuracy from density functional approximations via machine learning. Nat. Commun. 11, 5223 (2020).
7. R. Elber, D. E. Makarov, H. Orland, Molecular Kinetics in Condense Phases: Theory, Simulation, and Analysis (John Wiley, 2020).
8. R. Elber, Perspective: Computer simulations of long time dynamics. J. Chem. Phys. 144, 060901 (2016).
9. G. Henkelman, H. Jo ́ nsson, Long time scale kinetic Monte Carlo simulations without lattice approximation and predefined event table. J. Chem. Phys. 115, 9657–9666 (2001).
來源:中科院高能所












上一篇: 醫生救命,機器人續命
下一篇: 中國天眼凝望蒼穹
五年沉淀只做精品的app