siemens x
人工智能

用AI 模擬新冠病毒致病機(jī)理,微軟亞洲研究院和清華大學(xué)有話說

2025China.cn   2022年03月18日

  小編說:我們身體的三分之一是蘑菇?因為人類與真菌共享三分之一的 DNA。我們一直在與異類共生?因為人體內(nèi)有一半外來細(xì)胞。

  這些看似不相關(guān)的現(xiàn)象其實都有著深層次的聯(lián)系,隨著科學(xué)家們的研究探索,生命神奇的本質(zhì)正在逐漸被揭開。而近年來大數(shù)據(jù)、AI 等技術(shù)的發(fā)展和應(yīng)用,更是為生命科學(xué)研究開啟了新范式。利用新技術(shù),科學(xué)家們可以模擬瞬間變化的生命現(xiàn)象、發(fā)現(xiàn)生命機(jī)理的規(guī)律、降低研究成本、獲得更好的研究結(jié)果。

  近日,微軟亞洲研究院就與清華大學(xué)合作,利用分子動力學(xué)模擬技術(shù),取得了新冠病毒機(jī)理研究的重要成果。不同領(lǐng)域的科學(xué)家協(xié)同合作的秘籍是什么?如何在 AI for Science 的趨勢中拔得頭籌?讓我們從微軟亞洲研究院與清華大學(xué)的合作分享中一探究竟吧。

  新冠疫情自爆發(fā)以來,已造成全球范圍內(nèi)近2.8億人感染,540多萬人死亡,給全球的經(jīng)濟(jì)和社會生活帶來了巨大的損失和傷害,且至今仍未有緩和的跡象。相比之下,2003年的 SARS 疫情持續(xù)一年多,累計報告病例8000多例,死亡900多人;2012年的中東呼吸綜合征則主要在中東地區(qū)流行。同樣是冠狀病毒所引起的傳染病,為什么新冠病毒有如此高的傳染性?它又是如何侵染人體的?

  面對這場病毒遭遇戰(zhàn),全球的科學(xué)家們迅速行動對新冠病毒展開研究,同時也推動了人工智能等新技術(shù)與生命科學(xué)之間的進(jìn)一步加速融合。近兩年來,微軟亞洲研究院的研究員們也一直在思考,如何利用自身在人工智能、深度學(xué)習(xí)等計算機(jī)領(lǐng)域的優(yōu)勢,與生物學(xué)、病毒學(xué)專家深度合作,結(jié)合生命科學(xué)的專業(yè)知識,為緩解新冠疫情貢獻(xiàn)自己的力量。就在不久前,微軟亞洲研究院與清華大學(xué)生命科學(xué)學(xué)院以及傳染病研究中心合作,在新冠病毒的跨領(lǐng)域、跨學(xué)科研究中取得了兩項重要成果,為厘清新冠病毒機(jī)理提供了新的方向。

新冠病毒致病機(jī)理兩開花,

計算生物學(xué)潛力凸顯

  研究發(fā)現(xiàn) COVID-19 新型冠狀病毒是由 SARS-CoV-2 病毒所引起的。和其它冠狀病毒一樣,它的表面由刺突糖蛋白結(jié)構(gòu)組成,也就是 S(Spike)蛋白。若病毒要想進(jìn)入人體細(xì)胞,S 蛋白就需要與人體細(xì)胞的受體結(jié)合。S 蛋白的構(gòu)型很像英文字母“Y”,豎著的 S2 區(qū)域起支持作用,向上伸出的兩枝杈,一個是 RBD,另一個是 NTD??茖W(xué)家們已經(jīng)認(rèn)識到直接造成侵染的是 RBD 區(qū)域,而且它的狀態(tài)是站立(up)還是躺平(down)會直接影響受體結(jié)合,只有站立時 RBD 才能進(jìn)行受體結(jié)合,從而感染人體。

  基于這些背景知識,微軟亞洲研究院的研究員們產(chǎn)生了一連串的疑問:RBD 的功能已經(jīng)清楚了,那 NTD 在感染過程中扮演著怎樣的角色?在病毒侵染的過程中 NTD 對 RBD 的狀態(tài)變化是否有協(xié)同作用?如果找到了 RBD 站立與躺平的規(guī)律,是不是就有可能抑制病毒的入侵?因此,研究員們希望利用計算生物學(xué),特別是分子動力學(xué)模擬技術(shù)對 NTD 展開深入研究。當(dāng)他們把這一想法與清華大學(xué)生命科學(xué)學(xué)院龔海鵬教授討論后,雙方立即開啟了合作研究。

▲龔海鵬教授在微軟亞洲研究院做研究分享

  經(jīng)過分析研究員們發(fā)現(xiàn),以往很多研究只對 RBD 或 NTD 的一小部分進(jìn)行了模擬,只見樹木,不見森林,無法還原其在整個 S 蛋白上的變化情況,模擬精度也有所欠缺。雖然只是對一個蛋白質(zhì)進(jìn)行模擬,但其中包含了百萬級的原子數(shù),計算量和復(fù)雜度可想而知。對此,微軟亞洲研究院的研究員們采用了增強(qiáng)采樣、加速算法等手段,基于強(qiáng)大的計算平臺,建立了大體系、全原子的分子動力學(xué)模擬模型,實現(xiàn)了長時間的計算。

  ● 大體系、全原子是指構(gòu)建擁有百萬級原子的完整 S 蛋白,而不是只對10萬個或1萬個點進(jìn)行抽象模擬,從而提升模擬精度。

  ● 長時間是指研究員們通過數(shù)十億步的計算,每步代表1飛秒(1秒的一千萬億分之一),模擬運(yùn)行了20微秒。不能小看這個數(shù)字,20微秒相當(dāng)于2*1011步,在分子動力學(xué)模擬中這屬于相當(dāng)長的時間,以此可以更真實地模擬 NTD 和 RBD 之間的相對運(yùn)動。

  最終,微軟亞洲研究院首次提出了 NTD 在病毒侵染過程中發(fā)揮調(diào)控作用的“楔形”模型,相關(guān)成果于21年10月在著名期刊《Advanced Theory and Simulations》上作為封面文章發(fā)表?!捌鋵?RBD 是傾向于躺平的,這和人一樣,躺著肯定更舒服,但當(dāng) RBD 想躺下的時候,NTD 會像楔子一樣堵住 RBD 下方的空隙,從而使其維持站立的狀態(tài),感染人體?!蔽④泚喼扪芯吭褐鞴苎芯繂T王童形象地解釋了他們從模擬中取得的發(fā)現(xiàn)。

▲NTD 在 SARS-CoV-2 的 S 蛋白構(gòu)象變化中發(fā)揮調(diào)控功能示意圖

  利用這種“楔形”模型,研究員們進(jìn)一步在對中草藥數(shù)據(jù)庫 TCMSP 中的中藥化合物進(jìn)行虛擬篩選,檢測到了8種中藥中的18種化合物與 NTD 作用的該位點具有很強(qiáng)的結(jié)合能力,從而為新冠病毒藥物研發(fā)提供了一定的參考價值。

  像這樣利用計算機(jī)模擬的方式去做生物學(xué)實驗,甚至去預(yù)測和推論,被稱為“干實驗”。但生物學(xué)研究還是不能離開“濕實驗”,也就是基于分子、細(xì)胞、生理等層面的生物實驗。在開展 NTD 探索性研究的同時,王童了解到清華大學(xué)王新泉教授和張林琦教授的團(tuán)隊正在合作開展新冠病毒致病機(jī)理的研究。于是三方一拍即合,通過清華兩位老師團(tuán)隊的結(jié)構(gòu)生物學(xué)和免疫學(xué)實驗發(fā)現(xiàn),與其他冠狀病毒相比,新冠病毒 S 蛋白372號位點的突變使得370號位點缺失了糖基化。這一變化促使 RBD 更多處于站立狀態(tài),增強(qiáng)了病毒的感染性。而微軟亞洲研究院利用分子動力學(xué)模擬等計算手段進(jìn)一步具體分析了 S 蛋白370位點糖基化對 S 蛋白構(gòu)象變化和病毒感染能力的影響。最終,通過干濕結(jié)合的手段驗證了結(jié)論的正確性,相關(guān)論文也已被生物學(xué)領(lǐng)域的頂級期刊《Cell Research》接收。

  對于這項三方合作開展的前瞻性科研工作,張林琦教授表示“我們在眾多信息和生命活性的相互作用中找到了一個極其重要的點。它是在大量數(shù)據(jù)分析、實驗驗證以及預(yù)測的基礎(chǔ)之上得到的結(jié)果。通過與微軟亞洲研究院合作,我們看到將計算機(jī)科學(xué)與生命科學(xué)系統(tǒng)對接,可以加速找到生命現(xiàn)象的關(guān)鍵環(huán)節(jié),解決一些生命科學(xué)的問題,并進(jìn)一步了解生命科學(xué)本身,從而對研發(fā)新藥物來阻斷或者促進(jìn)某些生命現(xiàn)象起到了標(biāo)桿性的作用?!?/FONT>

AI為生命科學(xué)研究開辟新方向,

開拓新產(chǎn)業(yè)

  正如張林琦教授所言,AI、大數(shù)據(jù)等創(chuàng)新手段與生命科學(xué)的深度融合正在為生命科學(xué)研究開辟新的方向,甚至改變生命科學(xué)的研究范式。生命科學(xué)研究發(fā)展至今,經(jīng)歷了不同的階段,從20世紀(jì)前的描述觀察,到20世紀(jì)的實驗分析,在科學(xué)家們的努力下,生命的密碼正在逐漸被破解。但這些傳統(tǒng)生物學(xué)研究方式依賴于不斷地試錯和積累,不僅耗資巨大,周期往往也很長。同時,基因組學(xué)等底層數(shù)據(jù)采集技術(shù)的發(fā)展以及藥物試驗中持續(xù)產(chǎn)生的數(shù)據(jù)等等,也讓生物數(shù)據(jù)呈現(xiàn)爆發(fā)式增長。雖然這為個性化的靶向藥物研發(fā)、精準(zhǔn)醫(yī)療提供了可能,但海量數(shù)據(jù)也注定了單靠人力完成數(shù)據(jù)的整理、分析和挖掘已是不可能完成的任務(wù)。

  如今,隨著算力的提升、機(jī)器學(xué)習(xí)等模型的精進(jìn),大數(shù)據(jù)使得計算生物學(xué)的研究條件越來越完善,在基礎(chǔ)科學(xué)研究中扮演著越來越重要的角色。對于 AI 與生命科學(xué)的結(jié)合,龔海鵬教授說道,“我們能不能從濕實驗得到的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律?人的邏輯思維可以有一個大致的判斷,但還不夠細(xì)致,AI 在這方面就能體現(xiàn)出它的優(yōu)勢?!睂Υ藦埩昼淌谝脖硎菊J(rèn)同,他認(rèn)為生命科學(xué)不能只靠感覺,而是要朝定量化和精準(zhǔn)化的方向發(fā)展,“濕實驗看到的結(jié)果往往是靜態(tài)的,但所有的生命過程都是動態(tài)的,分子結(jié)構(gòu)變化更是瞬時反應(yīng),在自然條件下一閃而過,人的肉眼連看到的機(jī)會都沒有。在模擬分子動態(tài)變化以及定量評判方面,一些新的算法和技術(shù)能發(fā)揮非常大的作用,”張林琦教授說。

 

▲張林琦教授(左),劉鐵巖博士(右)

  除了促進(jìn)病毒、致病機(jī)理等基礎(chǔ)科學(xué)研究的發(fā)展,計算機(jī)科學(xué)與生命科學(xué)的結(jié)合也可能會創(chuàng)造一個全新的生物醫(yī)藥產(chǎn)業(yè)。早在2018年,埃森哲(Accenture)就曾在一份統(tǒng)計報告中指出,“到2026年,大數(shù)據(jù)與醫(yī)學(xué)和制藥領(lǐng)域的機(jī)器學(xué)習(xí)相結(jié)合將產(chǎn)生每年1500億美元的驚人價值”。

  傳統(tǒng)的新藥研發(fā)極具風(fēng)險和難度,周期長、費用高,過去十年藥物開發(fā)項目從1期臨床到獲得 FDA 批準(zhǔn)上市的成功率僅為7.9%。對此張林琦教授深有感觸,不久前由他領(lǐng)銜研發(fā)的新冠“特效藥”——單克隆中和抗體安巴韋單抗/羅米司韋單抗聯(lián)合療法獲得中國藥品監(jiān)督管理局(NMPA)的上市批準(zhǔn),有助于治療新型冠狀病毒陽性患者。他說,“AI 在新藥研發(fā)整個過程中的每個節(jié)點都可以發(fā)揮巨大的作用,比如為抗體的篩選、評估、預(yù)測、優(yōu)化等提供支持,縮短研發(fā)時間,降低研發(fā)成本。另外,如果能在大數(shù)據(jù)分析的基礎(chǔ)上利用 AI 技術(shù)總結(jié)規(guī)律、進(jìn)行預(yù)測,在病毒突變之前,設(shè)計出專門針對突變的抗體,那么我們就能先下手為強(qiáng),化被動為主動?!蔽磥?,從原始研究到臨床試驗,在生命科學(xué)產(chǎn)業(yè)的全鏈條上,通過跨界研究把干實驗和濕實驗無縫銜接,形成真實世界和理論數(shù)據(jù)的閉環(huán),將為生命科學(xué)帶來更廣闊的發(fā)展前景。

跨領(lǐng)域、交叉學(xué)科協(xié)同合作,

打破次元壁的秘籍

  盡管計算機(jī)科學(xué)與生命科學(xué)的跨界合作大有可為,但協(xié)作過程還需要更多的磨合。兩個領(lǐng)域的科學(xué)家所面對的是兩類不同的知識結(jié)構(gòu)、語言體系,如何打破行業(yè)壁壘、共建合作生態(tài)是關(guān)鍵。微軟亞洲研究院與清華大學(xué)通過上述兩項合作研究,為跨學(xué)科交叉實踐積累了一定的經(jīng)驗。

  那么不同背景的科學(xué)家協(xié)同合作的秘籍是什么?

  首先,明己之長,知己所短,優(yōu)勢互補(bǔ)。張林琦教授長期專注于艾滋病等人類重大病毒性傳染病的致病機(jī)理、抗病毒藥物、抗體和疫苗的研究;王新泉教授的主要研究方向是結(jié)構(gòu)生物學(xué);龔海鵬教授則致力于把分子動力學(xué)模擬等新方法用于分析生物大分子的大尺度構(gòu)象變化。他們及團(tuán)隊在各自的領(lǐng)域都有著深厚的積淀和世界級的影響力。這些專家對生命科學(xué)專業(yè)、前沿的洞察為算法提供了實現(xiàn)基礎(chǔ),可以幫助算法專家理解數(shù)據(jù)背后的科學(xué)意義。而微軟本身是以計算機(jī)技術(shù)為核心能力的平臺公司,在人工智能、云計算等領(lǐng)域能為其他學(xué)科提供強(qiáng)有力且最先進(jìn)的計算機(jī)科學(xué)加持。

  “微軟亞洲研究院在生物學(xué)、材料科學(xué)、物理和化學(xué)方面并不是專家,所以我們需要與真正的領(lǐng)域?qū)<夜餐Α⒚芮泻献?。在這個過程中,雙方會互相影響,相互改變。AI 科學(xué)家可以提供基于數(shù)據(jù)的端到端解決問題的思路,提供比傳統(tǒng)科學(xué)計算更加高效的解決方案;自然科學(xué)領(lǐng)域的學(xué)者則可以提供獨到的領(lǐng)域知識,讓這些計算能力以一種符合科學(xué)規(guī)律的方式用到刀刃上,”微軟亞洲研究院副院長劉鐵巖表示。

  其次,跨領(lǐng)域合作需要提出最具有前瞻性、挑戰(zhàn)性的科學(xué)問題。只有前沿課題才能發(fā)揮雙方實力,激勵科研人員克服困難,合理調(diào)配資源。劉鐵巖表示,“雖然人們認(rèn)為 AI 能夠在任何領(lǐng)域發(fā)揮作用,但如何找到關(guān)鍵的科學(xué)問題才是關(guān)鍵所在,這需要領(lǐng)域?qū)<遗c AI 專家坐下來細(xì)致地討論,不斷淬煉出真正重要的問題?!焙献饕潦?,微軟亞洲研究院的研究員們與清華大學(xué)的師生團(tuán)隊也遇到了預(yù)期不匹配、溝通鴻溝等問題。通過隨后定期的會議與學(xué)術(shù)討論,雙方逐漸明確了彼此的優(yōu)勢所在,找到了“最難啃的骨頭”。當(dāng)實驗結(jié)果出現(xiàn)差異時,大家會從不同角度共同分析問題產(chǎn)生的原因,不斷磨合,增強(qiáng)了彼此的信任。

  最后,是要有耐心與恒心。生命科學(xué)研究是一個漫長而枯燥的過程,很多基礎(chǔ)研究短時間內(nèi)都無法帶來直接的收益。對此龔海鵬教授認(rèn)為“做科研需要踏踏實實。解決生物學(xué)的實際問題,要以推動科學(xué)發(fā)展為目標(biāo),而不是以發(fā)論文為目標(biāo)。微軟亞洲研究院在提供強(qiáng)大的計算資源、AI 算法的同時,在合作研究中也極具耐心,這是跨領(lǐng)域合作的基礎(chǔ)?!?/FONT>

  在雙方的合作中,大家也加深了對彼此所在行業(yè)和機(jī)構(gòu)的理解。在合作之前清華大學(xué)的老師們還有些疑慮,“在我們眼中,企業(yè)的研究部門更多的是以短期業(yè)績?yōu)閷?dǎo)向的。但合作之后我們發(fā)現(xiàn)微軟亞洲研究院是一個真正的學(xué)術(shù)機(jī)構(gòu),尤其是‘頂天立地’的價值取向和學(xué)術(shù)定位與清華大學(xué)的理念非常吻合。也只有這樣才能開展更具學(xué)術(shù)性的研究合作,”王新泉教授說。

▲王新泉教授在微軟亞洲研究院做研究分享

  無論是用深度學(xué)習(xí)優(yōu)化大氣污染排放量、把 Graphormer 用于催化劑設(shè)計、神經(jīng)網(wǎng)絡(luò)用于新物理發(fā)現(xiàn),還是近期 AI 領(lǐng)域頂會 NeurIPS 上火熱的科學(xué)相關(guān)主題演講,都昭示著 AI for Science 已經(jīng)成為一種趨勢。計算機(jī)科學(xué)、人工智能與生命科學(xué)、生物醫(yī)藥、量子科學(xué)、天文學(xué)等一系列基礎(chǔ)科學(xué)研究交織碰撞,將為科學(xué)發(fā)展注入新的強(qiáng)勁動力。而在這一浪潮中,微軟亞洲研究院也將繼續(xù)與科學(xué)界合作,取得更加亮眼的成績。

(轉(zhuǎn)載)

標(biāo)簽:微軟科技 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]