siemens x
人工智能

科學(xué)匠人 | 用AI打開生物學(xué)研究的另一扇窗

2025China.cn   2021年01月15日

  編者按:在生物學(xué)研究領(lǐng)域,傳統(tǒng)基于分子、細(xì)胞、生理學(xué)實驗方法進行的研究通常被稱作濕實驗,如今這些傳統(tǒng)的生物學(xué)方法在某種程度上都遇到了瓶頸,而被稱作干實驗的計算機模擬和生物學(xué)相結(jié)合的研究,正在利用 AI、大數(shù)據(jù)等創(chuàng)新手段,為生物學(xué)研究打開了另一扇窗。今天就讓我們一起來看一看三位在微軟亞洲研究院從事計算生物學(xué)研究的研究員的跨界經(jīng)歷。

  2020年,一場突如其來的新冠疫情讓生物學(xué)與 AI 等技術(shù)的融合進一步加速。算力的提升、機器學(xué)習(xí)等模型的精進、大量數(shù)據(jù)的積累,都讓計算生物學(xué)的研究條件越來越完善,傳統(tǒng)生物學(xué)方法無法解答的問題,可以通過這樣的跨界研究有所突破,因此,計算生物學(xué)成為了生物學(xué)研究的一個重要分支。

  早在一兩年前,微軟亞洲研究院就開始涉及計算生物學(xué)領(lǐng)域,近年來,基于干實驗的生物學(xué)研究已在研究院逐漸起步,研究院里也因此多了幾位生物學(xué)博士。所謂干實驗,是與傳統(tǒng)生物學(xué)實驗室的濕實驗相對應(yīng)的一種研究方式,它不需要在物理層面操作實際的細(xì)胞、分子等進行實驗,而是用計算機模擬的方式,去做生物學(xué)的實驗,甚至預(yù)測和推論。

  計算機科學(xué)和生物學(xué)碰撞出了哪些火花?計算生物學(xué)的未來發(fā)展是怎樣的?又是什么原因讓越來越多生物學(xué)的人才選擇加入了微軟亞洲研究院?讓我們從三位微軟亞洲研究院計算生物學(xué)組研究員的故事中來發(fā)現(xiàn)答案吧。

王童

從蛋白質(zhì)結(jié)構(gòu)預(yù)測到分子動力學(xué)模擬

  2019年,剛在清華大學(xué)完成博士學(xué)業(yè)的王童直接加入了微軟亞洲研究院。讀博期間,王童從事的就是計算生物學(xué)這個交叉學(xué)科的研究,“在計算生物學(xué)領(lǐng)域除了需要掌握計算機、生物學(xué)的知識外,還會涉及數(shù)學(xué)、物理等其他學(xué)科”。

  做研究是王童所喜歡的,但在尋找適合的工作環(huán)境時,他發(fā)現(xiàn)不少研究機構(gòu)都僅聚焦于單一領(lǐng)域的研究,同事們的背景也十分相似,對于需要跨越多個學(xué)科的計算生物學(xué)研究來說,王童感覺缺了點什么。“我之所以最終選擇了微軟亞洲研究院,是因為這里多元化的氛圍和環(huán)境,不僅研究員們來自不同的學(xué)科背景,研究項目也是百花齊放,做研究在這里不會被設(shè)限?!?/FONT>

  在微軟亞洲研究院的這一年里,王童開啟了從蛋白質(zhì)結(jié)構(gòu)預(yù)測,到分子動力學(xué)模擬等多個與蛋白質(zhì)相關(guān)的研究項目。

  從無到有的蛋白質(zhì)結(jié)構(gòu)預(yù)測

  大自然里為什么會有生命?生命又為什么如此不同?如此精巧?其中蛋白質(zhì)非常關(guān)鍵,一個蛋白質(zhì)折疊的潛在構(gòu)象(即結(jié)構(gòu))是一個天文數(shù)字,但一個蛋白質(zhì)鏈卻在幾毫秒內(nèi)就能折疊成為一個精確定義的天然結(jié)構(gòu)?!跋胍剿鞯鞍踪|(zhì)的結(jié)構(gòu),傳統(tǒng)的生物學(xué)方法需要花費大量時間和人力,但隨著如今計算機科學(xué)的快速發(fā)展,強大的算力和精巧的算法可以讓蛋白質(zhì)結(jié)構(gòu)預(yù)測更加高效,”王童介紹道。

  傳統(tǒng)的生物學(xué)研究中有一個基于知識經(jīng)驗的Rosetta框架,可以預(yù)測蛋白質(zhì)結(jié)構(gòu),在過去的二十余年間,研究人員不斷“人工”地為其添磚加瓦。而王童和微軟亞洲研究院機器學(xué)習(xí)組的同事們則一起在業(yè)界數(shù)據(jù)積累的基礎(chǔ)上開發(fā)了一套蛋白質(zhì)結(jié)構(gòu)預(yù)測的深度學(xué)習(xí)框架。該框架可以自監(jiān)督、自適應(yīng)地不斷迭代蛋白質(zhì)的折疊方式,研究人員無需大量生物領(lǐng)域知識,也不需要關(guān)注蛋白質(zhì)底層的生物構(gòu)造,即可預(yù)測蛋白質(zhì)結(jié)構(gòu),大大提升了蛋白質(zhì)結(jié)構(gòu)預(yù)測的效率,為傳統(tǒng)框架的緩慢進化,帶來了全新的 AI 節(jié)奏。

  從靜到動的分子動力學(xué)模擬

  在生物濕實驗中,實驗結(jié)果只能預(yù)測靜態(tài)解析蛋白質(zhì)分子的空間結(jié)構(gòu),就像獲取人的身份證、檔案、靜態(tài)照片等特征,但正如人是有血有肉、會各種表情和動作,每個蛋白質(zhì)分子也都是在不斷運動的,晚上睡覺、白天上班,不同環(huán)境下的分子活動也是不同的,需要動態(tài)地去看待分子變化。而模擬動態(tài)變化便是干實驗的優(yōu)勢所在。

  在微軟亞洲研究院搭建的計算機系統(tǒng)中,王童和同事們模擬了在細(xì)胞真實水環(huán)境下蛋白動態(tài)變化的過程等等。擁有強大計算能力的平臺支撐起了百萬級原子的模擬計算量,數(shù)周就可以完成此前需要十幾年才能完成的工作量,“以前只能模擬局部的構(gòu)象,現(xiàn)在卻可以做到對整個蛋白質(zhì)結(jié)構(gòu)的模擬,以及大尺度構(gòu)象轉(zhuǎn)變的過程,”王童說。目前,王童和團隊將該研究應(yīng)用在新冠病毒 SARS-CoV-2 的 S 蛋白上,發(fā)現(xiàn)了其中構(gòu)象轉(zhuǎn)變之間的關(guān)鍵作用和機理。

  基于計算生物學(xué)的研究成果,微軟亞洲研究院也希望從分子層研究上幫助創(chuàng)新藥物的研發(fā)。一方面,在分子對接技術(shù)上做得更準(zhǔn)、更快;另一方面,在分子生成上使用強化學(xué)習(xí)等手段來研究,以探索出前所未有的藥物分子。

  “相信隨著 AI 和計算機技術(shù)在生物學(xué)各個領(lǐng)域的深入應(yīng)用,一定會對生命科學(xué)和醫(yī)學(xué)產(chǎn)生越來越深刻的影響,比如基因?qū)Ρ?、基因鑒定就已經(jīng)從之前難以企及的高端技術(shù)進入到了尋常百姓的生活中。未來將會有更多的生物高科技因為 AI 和計算而加速普及,”王童表示。

  雖然在微軟亞洲研究院工作僅有一年的時間,但王童已經(jīng)帶過7位實習(xí)生了。同學(xué)們的專業(yè)背景各不相同,有生物學(xué)、計算機科學(xué)、材料科學(xué)等等,與實習(xí)生們的跨領(lǐng)域碰撞也讓王童感受到了自己的不斷成長。在日常與同學(xué)們的交流中,王童會告訴他們:要相信科學(xué)、相信你所做的研究,這樣才能永葆熱情、持之以恒。而擁有開放的心態(tài),才能讓自己更好地應(yīng)對未來的不確定性。

鄧攀

免疫學(xué)和腸道微生物組學(xué)

  鄧攀從本科到博士一直都在生物學(xué)專業(yè)“摸爬滾打”,期間她聽到過很多“勸退”生物領(lǐng)域的論調(diào),也考慮過是不是畢業(yè)就“轉(zhuǎn)碼”,但每次跟朋友聊起人體奧秘、自然界的生物運行機制,她都興奮不已。最后,她聽從了內(nèi)心,選擇繼續(xù)從事生物學(xué)的研究工作。

  2020年5月,從康奈爾大學(xué)分子與細(xì)胞生物學(xué)系博士畢業(yè)近兩年之后,鄧攀重新回到了“學(xué)術(shù)圈”,加入了微軟亞洲研究院。她笑稱,自己曾經(jīng)在很多場合都表達(dá)過對目前這份計算生物學(xué)研究工作的熱愛,因為“這個工作真的使我快樂”,鄧攀表示,“在微軟亞洲研究院做研究相當(dāng)純粹,大家不需要比拼文章數(shù)量,都在做自己內(nèi)心認(rèn)為的真正的科學(xué),這樣一群目標(biāo)一致的人在一起,交流起來特別舒服?!?/FONT>

  “有很多計算機科班出身的同事,會經(jīng)常跑過來跟我交流生物學(xué)知識,他們的提問都異常專業(yè),”鄧攀說。而此時她也剛好可以跟同事們請教一些前沿 AI 算法或者“實用調(diào)參”的技術(shù)知識。當(dāng)看到有同事分享宇宙學(xué)知識的時候,她更是驚訝不已,“感覺在這里,只要是有大量數(shù)據(jù)的科學(xué)領(lǐng)域,研究員們就會想去做出點什么,無論跨界跨到了哪里,有什么挑戰(zhàn),似乎都不是問題?!?/FONT>

  “事實上,我們目前對人體很多運行機制都并不了解。我們每個人都是從肉眼不可見的受精卵成長成人,從1個細(xì)胞變成10兆億個細(xì)胞,細(xì)胞間的功能差異很大,人和人也各不相同,這中間有太多的事情值得去探索,”談起生命健康的研究,鄧攀的激動溢于言表。“但是,目前傳統(tǒng)的生物學(xué)方法可能遇到了瓶頸。在這種情況下,把大數(shù)據(jù)和 AI 的方法納入進來很有必要。以前用生物學(xué)的方法每次只能看到一點點發(fā)現(xiàn),但如果用計算的方法,則有可能窺見更大的畫面?!?/FONT>

  鄧攀目前的研究方向主要是免疫學(xué)和腸道微生物組學(xué)。在免疫學(xué)方向上,鄧攀主要做的是T細(xì)胞的研究,以解決獲得性免疫中的免疫細(xì)胞和抗原識別的問題。事實上,一個人體內(nèi)平均有超過100萬種不同的 T 細(xì)胞受體,而全部人群中可能出現(xiàn)的 T 細(xì)胞受體種類高達(dá)10的15次方,多樣性極高、計算量極大,但這正是 AI 技術(shù)發(fā)揮專長的舞臺。在研究過程中,鄧攀參與了微軟與西雅圖一家生物技術(shù)公司的合作項目,旨在通過機器學(xué)習(xí)等 AI 技術(shù),將 T 細(xì)胞受體語言轉(zhuǎn)換為抗原語言,尋找身體正在對抗哪些疾病。對于腸道微生物的研究,其實也有類似之處,腸道微生物不僅多樣,而且它們相互之間的影響以及對于人體機制的影響都相當(dāng)復(fù)雜而隱秘,要找到其中的規(guī)律,必須依賴 AI 技術(shù)的幫忙。

  除此之外,鄧攀還對基因組學(xué)以及表觀遺傳組學(xué)的研究十分感興趣,但“精力確實有限”,她也很希望有更多志同道合的小伙伴加入進來。

  鄧攀表示,生物學(xué)是一個發(fā)現(xiàn)性學(xué)科,主要目的是解釋生物體的運轉(zhuǎn)機制,所以生物學(xué)論文更強調(diào)發(fā)現(xiàn)的新穎性;但計算機領(lǐng)域則十分強調(diào)方法和思路的創(chuàng)新性,AI 正在倒逼傳統(tǒng)的生物學(xué)領(lǐng)域去思考如何利用大量的數(shù)據(jù)挖掘其中的生物學(xué)洞察。“可以橫跨在計算機科學(xué)、生物學(xué)等多個領(lǐng)域,并游走于不同的研究范式和思維方式之中,讓我在微軟亞洲研究院收獲頗多?!?/FONT>

朱建偉

用深度神經(jīng)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)結(jié)構(gòu)

  朱建偉的本科專業(yè)是數(shù)學(xué),在中科院計算所攻讀博士時,他就開始了計算生物學(xué)的研究,且一做就是5年。博士畢業(yè)后,他也曾猶豫過是否要加入一線互聯(lián)網(wǎng)公司,但與鄧攀一樣,在感受到了“探索生命奧秘”的召喚后,最終朱建偉選擇了繼續(xù)從事研究工作,并于2019年7月加入了微軟亞洲研究院。

  “研究院的工作氛圍和企業(yè)文化非常適合我,研究自由,束縛很少,而且與我的研究興趣也很匹配,”朱建偉表示。

  朱建偉的主要研究方向是蛋白質(zhì)結(jié)構(gòu)預(yù)測,使用深度神經(jīng)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)殘基之間的距離矩陣,進而通過距離約束恢復(fù)三維結(jié)構(gòu)。人體行使各種功能都是由蛋白質(zhì)特定三維結(jié)構(gòu)的功能完成的,蛋白質(zhì)氨基酸總體序列的數(shù)據(jù)量大概有260兆左右,其中只有0.17兆是有結(jié)構(gòu)的,其他序列沒有結(jié)構(gòu)。研究人員的工作就是從蛋白質(zhì)氨基酸序列中去預(yù)測每個氨基酸三維坐標(biāo)的空間位置,形成一個構(gòu)象,進而通過這個結(jié)構(gòu)研究行使的功能。

  朱建偉和團隊通過引入創(chuàng)新方法,在蛋白質(zhì)三維結(jié)構(gòu)的任意兩個氨基酸之間的距離預(yù)測中,取得了巨大改進。微軟亞洲研究院的研究員們從多序列比對(Multiple Sequence Alignment,MSA)出發(fā),直接使用大的深度神經(jīng)網(wǎng)絡(luò)預(yù)測兩個氨基酸的距離,與之前先標(biāo)注蛋白質(zhì)屬性、提取相關(guān)特征再預(yù)測蛋白質(zhì)結(jié)構(gòu)的方法相比,大大提高了后續(xù)三維結(jié)構(gòu)預(yù)測的準(zhǔn)確率。

  朱建偉介紹道,“計算機領(lǐng)域方法的引入,給生物研究提供了全新的思考角度。傳統(tǒng)的生物學(xué)家更偏重于生物的本質(zhì)理論,從問題出發(fā),通過解釋生物體的內(nèi)涵原理來做研究。而從機器學(xué)習(xí)的角度來看,則是從數(shù)據(jù)出發(fā),利用已有數(shù)據(jù)去發(fā)現(xiàn)問題、解決問題。兩方面相互推動,可以加快推進生物學(xué)的研究?!?/FONT>

  自2017年前后精準(zhǔn)醫(yī)療開始興起,AI+生物也成了業(yè)界熱點,尤其是2020年全球受到新冠疫情的沖擊,社會各界對相關(guān)領(lǐng)域的關(guān)注度進一步提升。在朱建偉看來,未來 AI 技術(shù)除了在生物學(xué)的基礎(chǔ)研究層面可以發(fā)揮更大作用,在衛(wèi)生健康、疾病治療等應(yīng)用層面也將更快見效,像 AI+制藥、AI+生物圖像、AI+診斷結(jié)合、AI+基因檢測,都會是下一階段的重點。

  在微軟亞洲研究院工作的一年多時間里,朱建偉表示他最大的收獲是深刻意識到了團隊協(xié)作的重要性。學(xué)生時代,朱建偉有點“獨行俠”的感覺,有了想法就直接去實踐,但在微軟亞洲研究院他發(fā)現(xiàn),如果閉門造車絕對是一大損失。“來自不同領(lǐng)域的研究員都有著自己獨特的想法,共同分享、集思廣益總能給我?guī)碇T多啟發(fā)。而這也讓我更能夠站在對方的角度思考問題,拓寬思考的維度,”朱建偉說道。

  如何更加有效地利用 AI 技術(shù)促進生物學(xué),甚至其它科學(xué)領(lǐng)域的研究,是微軟亞洲研究院的科研人員十分關(guān)心的問題。如果你對機器學(xué)習(xí)、計算生物學(xué)、計算化學(xué)、計算物理、高性能計算等方向感興趣,愿意探索科學(xué)未知領(lǐng)域,歡迎加入微軟亞洲研究院計算生物學(xué)組!

  文章來源:微軟研究院AI頭條

(轉(zhuǎn)載)

標(biāo)簽:人工智能 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]