編者按:
DNA是破解“生命之謎”的鑰匙,在基因科技中,基因測序用來發(fā)現(xiàn)問題,基因編輯用來解決問題。
僅僅是基因測序,目前在數(shù)據(jù)從獲取、存儲、分析上也面臨著挑戰(zhàn),利用云計算+AI,基因測序?qū)⒃诳蒲小⑨t(yī)療等方面展現(xiàn)出非凡的能量。
導語
1953年,第一個DNA分子雙螺旋結構模型誕生;1990年,被稱為生命科學“登月計劃”的人類基因組計劃正式啟動。
人類在破解“生命之謎”的路上不斷探索,期待著有一天能夠解讀自己的生命圖紙,排在最前列的問題就是疾病的攻克。但是攻克疾病談何容易,且不論后續(xù)的精準醫(yī)療和精準預防服務,僅僅是基因測序,目前也面臨成本昂貴的問題。
基因檢測需要龐大的數(shù)據(jù)庫和算力支撐,以及深度學習算法來完成精準比對和預測,依托人工智能,基因檢測在科研、醫(yī)療、消費級產(chǎn)品等領域會迸發(fā)更神奇的力量。
01
“萬能”的基因測序
“一口唾沫,基因數(shù)據(jù)全掌握”,不少人都嘗試過已經(jīng)成為“網(wǎng)紅”的消費基因檢測產(chǎn)品。除了了解自己,基因檢測能做的事情還有很多。
1. 發(fā)現(xiàn)新冠病毒變株
2020年12月14日,我國監(jiān)測到首例境外變種新冠毒株,使用的測序平臺是華大智造自主研發(fā)的高通量測序儀——MGISEQ-200。
新冠病毒的不斷變異是當前全球面對的一大挑戰(zhàn),國際知名醫(yī)療期刊《柳葉刀》發(fā)表社論,強調(diào)高效識別病毒序列是控制疫情的重要環(huán)節(jié),各國測序水平的差異影響的不止是本國疫情的控制,更是對全球疫情控制與監(jiān)測的挑戰(zhàn)。
對病原全基因組序列進行深度測序,找到病毒突變位點,辨明病毒身份,找到病毒來源,可以有效提升疫情防控能力。
2. 預測腫瘤
2017年開始,華大基因就與阿里云合作,用人工智能成功預測40例孕期腫瘤。
基因測序技術運用在精準預防,比精準醫(yī)療對人類的貢獻還要大?;驕y序可以使疾病早期就被發(fā)現(xiàn),大大提高患者生存率。例如家族性乳腺癌,在美國死亡率降低了80%,就是得益于精準預防。其實中國的腫瘤發(fā)病率占世界的22%,并不比發(fā)達國家高,但是死亡率卻占到世界死亡率27%。
腫瘤早篩向來被認為是攔截癌癥的重要手段,然而在過去受技術所限,腫瘤早篩在國內(nèi)難以得到普及。隨著越來越多的靶向藥物進入國家醫(yī)保,而靶向用藥必須做基因檢測,腫瘤基因檢測的需求也隨之大幅增長。
3. 預測孕期糖尿病
中國每年約有1260萬人備孕,1800萬孕產(chǎn)婦,在這其中,孕期糖尿是最不起眼,最不受人重視,而又極度危險的敵人,嚴重病例可以引發(fā)胚胎死亡。
阿里云同吉林省婦幼保健院、青梧桐健康基因合作,推出的基于人工智能算法的基因檢測技術,可用于妊娠糖尿病風險篩查,預測準確率達到了83%。
這套算法能根據(jù)孕婦的臨床數(shù)據(jù)和基因數(shù)據(jù),預測發(fā)病概率,可比傳統(tǒng)方法提前12-6周進行干預,將發(fā)病率降低65%。
02
云計算+AI:基因測序的加速器
2016年,華大基因在阿里云計算平臺部署的服務產(chǎn)品BGI Online國內(nèi)beta版本正式上線,希望能夠在2020年以前,用24小時完成一個人全基因組測序和分析。
2020年年初,BGI Online平臺創(chuàng)下新的世界紀錄:僅用15分鐘,即可完成一個高精度的個人全基因組測序全流程。此前,科學界普遍需要120個小時才能完成類似流程,此次加速解碼意味著人類向精準醫(yī)療邁出了重要一步。
1. 天然的大數(shù)據(jù)
基因組學數(shù)據(jù)是“天然”的大數(shù)據(jù),人一生的基因數(shù)據(jù)的管理和存儲數(shù)據(jù)量相當龐大;同時,所有的人工智能前提都是大量的數(shù)據(jù)訓練,放在基因檢測領域,大量數(shù)據(jù)訓練的前提則是有大量數(shù)據(jù)產(chǎn)生。
通過阿里云平臺,可以降低數(shù)據(jù)分析門檻、簡化用戶操作,讓數(shù)據(jù)獲取更加便捷。
簡潔易用的界面和高度安全的特性,使醫(yī)生和研究者們可以把管理數(shù)據(jù)、硬件維護等繁雜的工作交給BGI Online和阿里云,從而更專注于他們要解決的科學和臨床問題。
這也意味著,對于科研院所、醫(yī)療機構及中小型基因行業(yè)創(chuàng)業(yè)公司來說,只要擁有基因數(shù)據(jù),不必自建和維護昂貴而復雜的計算、存儲平臺,通過BGI Online便可以解碼神秘基因背后的奧秘。全球最大的基因組學研發(fā)機構華大基因打開了基因行業(yè)這扇神秘大門,讓基因行業(yè)變得“觸手可及”。
2. 開啟云上算力
由于人類全基因組檢測數(shù)據(jù)達到近10G,以國內(nèi)某機構每天產(chǎn)生的數(shù)據(jù)量300T至600T計算,如此規(guī)模的數(shù)據(jù)量對存儲系統(tǒng)的容量提出了極高的要求。
從數(shù)據(jù)量來看,DNA測序每年能夠產(chǎn)生大約150PB的數(shù)據(jù),如果將這些數(shù)據(jù)存儲在DVD中,刻錄出來的DVD高度能夠達到2.5英里。
從計算量來看,在對百萬人的基因數(shù)據(jù)進行遺傳結構分析時,需要把每一個人與剩余的所有人進行遺傳距離計算,這個計算量是巨大的,計算復雜度已經(jīng)遠遠超出了傳統(tǒng)計算條件下硬件設備所能承受的能力范圍。
借助阿里云MaxCompute,可以在幾小時內(nèi)就可以把一個人與十萬人中所有遺傳距離進行計算,計算成本大幅降低至1000美金以內(nèi),大大提高了計算效率。
3. 深度學習算法
我們每個人的基因組只有千分之一的差異,形成了每個人的多樣性,但是偶爾也有一些小的突變,帶來一些遺傳病。
大多數(shù)疾病由多個位點控制。位點與位點之間有著復雜的關聯(lián),不同位點的變異組合可能會形成不同的疾病亞型。
在浩如煙海的DNA序列中,比對識別出發(fā)生突變的基因位點,單單依靠人力,很難理清疾病與位點的對應關系。
例如孕期糖尿病的液體活檢不復雜,復雜的是用人工智能技術做某一病種的基因比對,并進行準確的預測。人工智能通過數(shù)據(jù)預測孕婦是否能得糖尿病,比較患病和健康的數(shù)據(jù)。
在多個疾病的(大數(shù)據(jù)運算)測試中,機器能夠深度學習并掌握人眼觀察圖像、識別差異的能力,快速提高診療工作效率。
03
基因測序市場未來可期
中國是全球第一人口大國,在基因測序領域擁有巨大的市場,消費級市場火爆,在研究和醫(yī)療領域也屢有成績。
但是也不能忽視,基因數(shù)據(jù)庫樣本量、基因組數(shù)據(jù)解讀的精準度上的不足是基因測序需要解決的瓶頸問題。
如果基因測序是生命的天氣預報,那人工智能就是天氣預報的超級汽車引擎,云計算則是基因測序的高速公路,以前兩天跑完的路程現(xiàn)在一小時就能跑完。
基因檢測需要龐大的數(shù)據(jù)庫和計算力支撐,人工智能的快速迭代可以讓預測的準確度越來越高,云計算和人工智能是基因檢測必然的未來。
結語
1990年,整個人類基因組首次被測序,耗資27億。30年后的今天,得益于測序技術和云計算技術的成熟,一次全基因組測序的成本降到了數(shù)百美元。
數(shù)據(jù)、算力、算法,大大降低了人類解碼未知世界的門檻,讓解鎖“生命之謎”的期待越來越近。
來源:阿里云、《中國報道》
編輯:阿里云研究中心 張楠
(轉(zhuǎn)載)