一個困擾生物學(xué)家50年的問題，被AI突破了

2025China.cn 2020年12月02日

　　可是，拿到氨基酸的排列順序，你能猜出它會折疊出怎樣的三維結(jié)構(gòu)么?恐怕很難。就算是天天研究蛋白質(zhì)的科學(xué)家們，也被這個問題困擾了50年。

　　如今有只AI，能以前所未有的準(zhǔn)確率預(yù)測蛋白結(jié)構(gòu)。它給出的答案與蛋白質(zhì)的真實結(jié)構(gòu)之間，大約只差一個原子的寬度：

藍(lán)色為AI預(yù)測結(jié)果，綠色為標(biāo)準(zhǔn)答案丨DeepMind

　　這只AI名叫AlphaFold，來自谷歌DeepMind，和會下棋的AlphaGo師出同門。它剛剛在蛋白結(jié)構(gòu)預(yù)測比賽CASP14上，超越所有對手獲得優(yōu)勝。

　　消息發(fā)表之后，學(xué)界備受鼓舞。AlphaFold的存在，仿佛讓科學(xué)家擁有了上帝視角。Nature把馬普所生物學(xué)家Andrei Lupas的一句評論當(dāng)做了新聞標(biāo)題：它會改變一切。

怎樣的一場比賽

　　拿到一個氨基酸序列，每只AI都會給出自己預(yù)測的三維結(jié)構(gòu)。

　　那么，擁有近100位參賽選手的CASP挑戰(zhàn)賽，是依靠什么來衡量各位選手的得分?

　　首先，標(biāo)準(zhǔn)答案是通過低溫電子顯微鏡(Cryo-EM)等等學(xué)界標(biāo)配的實驗方法檢測蛋白質(zhì)本身，得出的相對精確的三維結(jié)構(gòu)。

　　然后，對比標(biāo)答和選手答案之間的相似度，利用的方法叫做Global Distance Test(全球距離測試，簡稱GDT)。GDT滿分為100，通常只要選手得分超過90，就認(rèn)為一道題目做對了。

GDT評測標(biāo)準(zhǔn)丨DeepMind

　　把所有題目算在一起，AlphaFold得分的中位數(shù)達(dá)到了92.4，大約2/3的題目都做對了。這個成績比其他選手高出一大截。

　　即便在最難的一組題目“自由建模(Free-Modelling Category)”當(dāng)中，AlphaFold的中位數(shù)也有87.0分，比第二名高出25分。

　　CASP挑戰(zhàn)賽兩年一屆，從1994年開始至今已經(jīng)舉辦了14屆，大致相當(dāng)于蛋白結(jié)構(gòu)預(yù)測界的奧林匹克。

　　比賽創(chuàng)辦人之一、馬里蘭大學(xué)教授John Moult毫不吝惜對這只AI的贊美。他說，從某種程度上看，(蛋白結(jié)構(gòu)預(yù)測)問題已經(jīng)解決了。

　　對于那些AlphaFold預(yù)測與標(biāo)答出現(xiàn)分歧的題目，Moult教授也認(rèn)為，并不能確定是AI預(yù)測出了差錯，還是實驗室結(jié)果本身有問題。

AI是怎樣煉成的

　　那么，AlphaFold的工作原理是怎樣的?

　　DeepMind研究團(tuán)隊說，一個折疊的蛋白質(zhì)可以視為一張空間圖(Spatial Graph)：構(gòu)成蛋白質(zhì)的每個殘基(residue)都是圖中一個節(jié)點(node)，然后有邊(edge)把距離相近的節(jié)點連在一起。

　　如此一來，過往已知結(jié)構(gòu)的那些蛋白質(zhì)，都可以用這樣的眼光來看待。在日復(fù)一日的訓(xùn)練之中，AI逐漸熟悉了圖上節(jié)點相連的規(guī)律。再遇到陌生考題的時候，便可以按照之前摸出的規(guī)律，連出一幅新的圖來。

殘基相連的方式預(yù)測丨DeepMind

　　2018年，AlphaFold官宣之初，便拿下了CASP13冠軍。雖然，那時它的得分中位數(shù)沒有達(dá)到90，也就是總體上沒達(dá)到系統(tǒng)判定正確的分?jǐn)?shù)線，卻也遠(yuǎn)遠(yuǎn)超越了其他選手。

　　從那時起，歡呼和質(zhì)疑一并到來了。許多人都擔(dān)心，這只AI用某種人們不知道的方式作了弊。

　　不過，在一種名叫Orf3a的蛋白質(zhì)上，AlphaFold證明了自己。加州大學(xué)伯克利分校的分子神經(jīng)生物學(xué)家Stephen Brohawn說，AI預(yù)測出的蛋白結(jié)構(gòu)，和后來實驗室用低溫電子顯微鏡做出的成像十分接近。

　　那么，AI擁有這樣的能力，到底意味著什么?

　　影響了誰的工作

　　大約半個世紀(jì)以前，有位名叫克里斯蒂安·安芬森的科學(xué)家，在研究RNA酶的時候發(fā)現(xiàn)：對一些蛋白質(zhì)來說，只要環(huán)境不變，它的天然結(jié)構(gòu)便只由氨基酸序列決定。

安芬森丨National Institutes of Health

　　換句話說，給定一個氨基酸序列，理論上就可以預(yù)測出蛋白質(zhì)的三維結(jié)構(gòu)。

　　安芬森因此獲得了1972年的諾貝爾化學(xué)獎。他提出的這條假說也有了個響亮的名號：安芬森原則。

　　后來的幾十年間，科學(xué)家們在預(yù)測蛋白結(jié)構(gòu)的路上艱難地前行，希望有朝一日能把“理論上”這幾個字去掉。

　　畢竟，蛋白質(zhì)的功能，要靠折疊成特定的結(jié)構(gòu)才能實現(xiàn)。

　　而那些設(shè)計新藥或者新酶的科學(xué)家們，如果能了解某種蛋白質(zhì)的結(jié)構(gòu)，便可以更好地預(yù)判某種蛋白質(zhì)能不能和特定的分子結(jié)合，進(jìn)而帶來他們希望看到的反應(yīng)。

　　假如AI能夠準(zhǔn)確預(yù)測蛋白質(zhì)的結(jié)構(gòu)，許多科學(xué)家的工作(沒有被取代的話)可能都會變得更高效。

（轉(zhuǎn)載）

標(biāo)簽：AI

我要反饋

相關(guān)鏈接

美國專利商標(biāo)局發(fā)布人工智能專利擴散分析報告

2020年10月27日，美國專利商標(biāo)局(USPTO)發(fā)布《人工智能發(fā)明：追蹤美國人工智能專利擴散》報告(s)。報告顯示，... [詳情]

2020年12月02日人工智能

研華在SC20亮相工業(yè)級服務(wù)器家族，專為物聯(lián)網(wǎng)和人工智能應(yīng)用而設(shè)計

研華近期在超級計算2020(簡稱“SC20”)上展示最新的短機箱邊緣服務(wù)器、GPU服務(wù)器、存儲服務(wù)器、電信級服務(wù)器、工業(yè)級主板以及針對AI和物聯(lián)網(wǎng)應(yīng)用的機箱產(chǎn)品。SC20匯集了計算領(lǐng)域的頂尖... [詳情]

2020年12月02日研華

5G技術(shù)重塑網(wǎng)絡(luò)視聽產(chǎn)業(yè)格局

中國網(wǎng)絡(luò)視聽節(jié)目服務(wù)協(xié)會近日在四川成都發(fā)布的《2020中國網(wǎng)絡(luò)視聽發(fā)展研究報告》顯示，截至2020年6月，我國網(wǎng)絡(luò)視聽用戶規(guī)模達(dá)9.01億，網(wǎng)民使用率為95.8%。僅2020年第二季度，網(wǎng)絡(luò)視... [詳情]

2020年12月02日 5G技術(shù)