siemens x
人工智能

阿里達摩院金榕:從技術(shù)到科學(xué),中國 AI 將何去何從?

2025China.cn   2021年08月25日

  本文為阿里巴巴達摩院副院長、原密歇根州立大學(xué)終身教授金榕親作,旨在通過這篇文章,試圖通過個人視角回顧AI的發(fā)展,審視我們當(dāng)下所處的歷史階段,以及探索AI的未來究竟在哪里。

  以下是部分觀點:

  1、AI時代序幕剛拉開,AI目前還處于初級階段,猶如法拉第剛剛發(fā)現(xiàn)了交流電,還未能從技術(shù)上升為科學(xué)。

  2、以深度學(xué)習(xí)為代表的AI研究這幾年取得了諸多令人贊嘆的進步,但部分也是運氣的結(jié)果,其真正原理迄今無人知曉。

  3、在遇到瓶頸后,深度學(xué)習(xí)有三個可能突破方向:深度學(xué)習(xí)的根本理解、自監(jiān)督學(xué)習(xí)和小樣本學(xué)習(xí)、知識與數(shù)據(jù)的有機融合。

  4、AI在當(dāng)下最大的機會:用AI解決科學(xué)重要難題(AI for Science)。

  金榕:

  如果從達特茅斯會議起算,AI 已經(jīng)走過65年歷程,尤其是近些年深度學(xué)習(xí)興起后,AI迎來了空前未有的繁榮。不過,最近兩年中國AI 熱潮似乎有所回落,在理論突破和落地應(yīng)用上都遇到了挑戰(zhàn),外界不乏批評質(zhì)疑的聲音,甚至連一些AI從業(yè)者也有些沮喪。

  從90年代到美國卡耐基梅隆大學(xué)讀博開始,我有幸成為一名AI研究者,見證了這個領(lǐng)域的一些起伏。通過這篇文章,我將試圖通過個人視角回顧AI的發(fā)展,審視我們當(dāng)下所處的歷史階段,以及探索AI的未來究竟在哪里。

  AI的歷史階段:手工作坊

  雖然有人把當(dāng)下歸為第三波甚至是第四波AI浪潮,樂觀地認為AI時代已經(jīng)到來,但我的看法要謹慎一些:AI無疑具有巨大潛力,但就目前我們的能力,AI尚處于比較初級的階段,是技術(shù)而非科學(xué)。這不僅是中國AI的問題,也是全球AI共同面臨的難題。

  這幾年深度學(xué)習(xí)的快速發(fā)展,極大改變了AI行業(yè)的面貌,讓AI成為公眾日常使用的技術(shù),甚至還出現(xiàn)了一些令公眾驚奇的AI應(yīng)用案例,讓人誤以為科幻電影即將變成現(xiàn)實。但實際上,技術(shù)發(fā)展需要長期積累,目前只是AI的初級階段,AI時代才剛開始。

  如果將AI時代和電氣時代類比,今天我們的AI技術(shù)還是法拉第時代的電。法拉第通過發(fā)現(xiàn)電磁感應(yīng)現(xiàn)象,從而研制出人類第一臺交流電發(fā)電機原型,不可謂不偉大。法拉第這批先行者,實踐經(jīng)驗豐富,通過大量觀察和反復(fù)實驗,手工做出了各種新產(chǎn)品,但他們只是拉開了電氣時代的序幕。電氣時代的真正大發(fā)展,很大程度上受益于電磁場理論的提出。麥克斯維爾把實踐的經(jīng)驗變成科學(xué)的理論,提出和證明了具有跨時代意義的麥克斯維爾方程。

  如果人們對電磁的理解停留在法拉第的層次,電氣革命是不可能發(fā)生的。試想一下,如果刮風(fēng)下雨打雷甚至連溫度變化都會導(dǎo)致斷電,電怎么可能變成一個普惠性的產(chǎn)品,怎么可能變成社會基礎(chǔ)設(shè)施?又怎么可能出現(xiàn)各種各樣的電氣產(chǎn)品、電子產(chǎn)品、通訊產(chǎn)品,徹底改變我們的生活方式?

  這也是AI目前面臨的問題,局限于特定的場景、特定的數(shù)據(jù)。AI模型一旦走出實驗室,受到現(xiàn)實世界的干擾和挑戰(zhàn)就時常失效,魯棒性不夠;一旦換一個場景,我們就需要重新深度定制算法進行適配,費時費力,難以規(guī)模化推廣,泛化能力較為有限。

  這是因為今天的AI很大程度上是基于經(jīng)驗。AI工程師就像當(dāng)年的法拉第,能夠做出一些AI產(chǎn)品,但都是知其然,不知其所以然,還未能掌握其中的核心原理。

  那為何 AI 迄今未能成為一門科學(xué)?

  答案是,技術(shù)發(fā)展之緩慢遠超我們的想象?;仡?0年代至今這二十多年來,我們看到的更多是 AI 應(yīng)用工程上的快速進步,核心技術(shù)和核心問題的突破相對有限。一些技術(shù)看起來是這幾年興起的,實際上早已存在。

  以自動駕駛為例,美國卡耐基梅隆大學(xué)的研究人員進行的Alvinn項目,在80年代末已經(jīng)開始用神經(jīng)網(wǎng)絡(luò)來實現(xiàn)自動駕駛,1995年成功自東向西穿越美國,歷時7天,行駛近3000英里。在下棋方面,1992年IBM研究人員開發(fā)的TD-Gammon,和AlphaZero相似,能夠自我學(xué)習(xí)和強化,達到了雙陸棋領(lǐng)域的大師水平。

(1995年穿越美國項目開始之前的團隊合照)

  不過,由于數(shù)據(jù)和算力的限制,這些研究只是點狀發(fā)生,沒有形成規(guī)模,自然也沒有引起大眾的廣泛討論。今天由于商業(yè)的普及、算力的增強、數(shù)據(jù)的方便獲取、應(yīng)用門檻的降低,AI開始觸手可及。

  但核心思想并沒有根本性的變化。我們都是試圖用有限樣本來實現(xiàn)函數(shù)近似從而描述這個世界,有一個input,再有一個output,我們把AI的學(xué)習(xí)過程想象成一個函數(shù)的近似過程,包括我們的整個算法及訓(xùn)練過程,如梯度下降、梯度回傳等。

  同樣的,核心問題也沒有得到有效解決。90年代學(xué)界就在問的核心問題,迄今都未得到回答,他們都和神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)密切相關(guān)。比如非凸函數(shù)的優(yōu)化問題,它得到的解很可能是局部最優(yōu)解,并非全局最優(yōu),訓(xùn)練時可能都無法收斂,有限數(shù)據(jù)還會帶來泛化不足的問題。我們會不會被這個解帶偏了,忽視了更多的可能性?

  深度學(xué)習(xí):大繁榮后遭遇發(fā)展瓶頸

  毋庸諱言,以深度學(xué)習(xí)為代表的 AI 研究這幾年取得了諸多令人贊嘆的進步,比如在復(fù)雜網(wǎng)絡(luò)的訓(xùn)練方面,產(chǎn)生了兩個特別成功的網(wǎng)絡(luò)結(jié)構(gòu),CNN和transformer?;谏疃葘W(xué)習(xí),AI研究者在語音、語義、視覺等各個領(lǐng)域都實現(xiàn)了快速的發(fā)展,解決了諸多現(xiàn)實難題,實現(xiàn)了巨大的社會價值。

  但回過頭來看深度學(xué)習(xí)的發(fā)展,不得不感慨 AI 從業(yè)者非常幸運。

  首先是隨機梯度下降(SGD),極大推動了深度學(xué)習(xí)的發(fā)展。隨機梯度下降其實是一個很簡單的方法,具有較大局限性,在優(yōu)化里面屬于收斂較慢的方法,但它偏偏在深度網(wǎng)絡(luò)中表現(xiàn)很好,而且還是出奇的好。為什么會這么好?迄今研究者都沒有完美的答案。類似這樣難以理解的好運氣還包括殘差網(wǎng)絡(luò)、知識蒸餾、Batch Normalization、Warmup、Label Smoothing、Gradient Clip、Layer Scaling…尤其是有些還具有超強的泛化能力,能用在多個場景中。

  再者,在機器學(xué)習(xí)里,研究者一直在警惕過擬合(overfitting)的問題。當(dāng)參數(shù)特別多時,一條曲線能夠把所有的點都擬合得特別好,它大概率存在問題,但在深度學(xué)習(xí)里面這似乎不再成為一個問題…

  雖然有很多研究者對此進行了探討,但目前還有沒有明確答案。更加令人驚訝的是,我們即使給數(shù)據(jù)一個隨機的標簽,它也可以完美擬合(請見下圖紅色曲線),最后得出擬合誤差為0。如果按照標準理論來說,這意味著這個模型沒有任何偏差(bias),能幫我們解釋任何結(jié)果。請想想看,任何東西都能解釋的模型,真的可靠嗎,包治百病的良藥可信嗎?

(Understanding deep learning requires rethinking generalization. ICLR, 2017.)

  說到這里,讓我們整體回顧下機器學(xué)習(xí)的發(fā)展歷程,才能更好理解當(dāng)下的深度學(xué)習(xí)。

  機器學(xué)習(xí)有幾波發(fā)展浪潮,在上世紀80年代到90年代,首先是基于規(guī)則(rule based)。從90年代到2000年代,以神經(jīng)網(wǎng)絡(luò)為主,大家發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)可以做一些不錯的事情,但是它有許多基礎(chǔ)的問題沒回答。所以2000年代以后,有一批人嘗試去解決這些基礎(chǔ)問題,最有名的叫SVM(support vector machine),一批數(shù)學(xué)背景出身的研究者集中去理解機器學(xué)習(xí)的過程,學(xué)習(xí)最基礎(chǔ)的數(shù)學(xué)問題,如何更好實現(xiàn)函數(shù)的近似,如何保證快速收斂,如何保證它的泛化性?

  那時候,研究者非常強調(diào)理解,好的結(jié)果應(yīng)該是來自于我們對它的深刻理解。研究者會非常在乎有沒有好的理論基礎(chǔ),因為要對算法做好的分析,需要先對泛函分析、優(yōu)化理論有深刻的理解,接著還要再做泛化理論…大概這幾項都得非常好了,才可能在機器學(xué)習(xí)領(lǐng)域有發(fā)言權(quán),否則連文章都看不懂。如果研究者自己要做一個大規(guī)模實驗系統(tǒng),特別是分布式的,還需要有工程的豐富經(jīng)驗,否則根本做不了,那時候沒有太多現(xiàn)成的東西,更多只是理論,多數(shù)工程實現(xiàn)需要靠自己去跑。

  但是深度學(xué)習(xí)時代,有人做出了非常好的框架,便利了所有的研究者,降低了門檻,這真是非常了不起的事情,促進了行業(yè)的快速發(fā)展。今天去做深度學(xué)習(xí),有個好想法就可以干,只要寫上幾十行、甚至十幾行代碼就可以跑起來。成千上萬人在實驗各種各樣的新項目,驗證各種各樣新想法,經(jīng)常會冒出來非常讓人驚喜的結(jié)果。

  但我們可能需要意識到,時至今日,深度學(xué)習(xí)已遇到了很大的瓶頸。那些曾經(jīng)幫助深度學(xué)習(xí)成功的好運氣,那些無法理解的黑盒效應(yīng),今天已成為它進一步發(fā)展的桎梏。

  下一代AI的三個可能方向

  AI 的未來究竟在哪里?下一代 AI 將是什么?目前很難給出明確答案,但我認為,至少有三個方向值得重點探索和突破。

  第一個方向是尋求對深度學(xué)習(xí)的根本理解,破除目前的黑盒狀態(tài),只有這樣AI才有可能成為一門科學(xué)。具體來說,應(yīng)該包括對以下關(guān)鍵問題的突破:

  對基于DNN函數(shù)空間的更全面刻畫;

  對SGD(或更廣義的一階優(yōu)化算法)的理解;

  重新考慮泛化理論的基礎(chǔ)。

  第二個方向是知識和數(shù)據(jù)的有機融合。

  人類在做大量決定時,不僅使用數(shù)據(jù),而且大量使用知識。如果我們的AI能夠把知識結(jié)構(gòu)有機融入,成為重要組成部分,AI勢必有突破性的發(fā)展。研究者已經(jīng)在做知識圖譜等工作,但需要進一步解決知識和數(shù)據(jù)的有機結(jié)合,探索出可用的框架。之前曾有些創(chuàng)新性的嘗試,比如Markov Logic,就是把邏輯和基礎(chǔ)理論結(jié)合起來,形成了一些有趣的結(jié)構(gòu)。

  第三個重要方向是自監(jiān)督學(xué)習(xí)和小樣本學(xué)習(xí)。

  我雖然列將這個列在第三,但卻是目前值得重點推進的方向,它可以彌補AI和人類智能之間的差距。

  今天我們經(jīng)常聽說 AI 在一些能力上可以超越人類,比如語音識別、圖像識別,最近達摩院 AliceMind 在視覺問答上的得分也首次超過人類,但這并不意味著 AI 比人類更智能。谷歌2019年有篇論文 on the Measure of intelligence 非常有洞察力,核心觀點是說,真正的智能不僅要具有高超的技能,更重要的是能否快速學(xué)習(xí)、快速適應(yīng)或者快速通用?

  按照這個觀點,目前AI是遠不如人類的,雖然它可能在一些方面的精度超越人類,但可用范圍非常有限。這里的根本原因在于:人類只需要很小的學(xué)習(xí)成本就能快速達到結(jié)果,聰明的人更是如此——這也是我認為目前AI和人類的主要區(qū)別之一。

  有一個很簡單的事實證明 AI 不如人類智能,以翻譯為例,現(xiàn)在好的翻譯模型至少要億級的數(shù)據(jù)。如果一本書大概是十幾萬字,AI大概要讀上萬本書。我們很難想象一個人為了學(xué)習(xí)一門語言需要讀上萬本書。

  另外有意思的對比是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和人腦。目前AI非常強調(diào)深度,神經(jīng)網(wǎng)絡(luò)經(jīng)常幾十層甚至上百層,但我們看人類,以視覺為例,視覺神經(jīng)網(wǎng)絡(luò)總共就四層,非常高效。而且人腦還非常低功耗,只有20瓦左右,但今天GPU基本都是數(shù)百瓦,差了一個數(shù)量級。著名的GPT-3跑一次,碳排放相當(dāng)于一架747飛機從美國東海岸到西海岸往返三次。再看信息編碼,人腦是以時間序列來編,AI是用張量和向量來表達。

  也許有人說,AI發(fā)展不必一定向人腦智能的方向發(fā)展。我也認為這個觀點不無道理,但在 AI 遇到瓶頸,也找不到其他參照物時,參考人腦智能可能會給我們一些啟發(fā)。比如,拿人腦智能來做對比,今天的深度神經(jīng)網(wǎng)絡(luò)是不是最合理的方向?今天的編碼方式是不是最合理的?這些都是我們今天AI的基礎(chǔ),但它們是好的基礎(chǔ)嗎?

  應(yīng)該說,以GPT-3為代表的大模型,可能也是深度學(xué)習(xí)的一個突破方向,能夠在一定程度上實現(xiàn)自學(xué)習(xí)。大模型有些像之前惡補了所有能看到的東西,碰到一個新場景,就不需要太多新數(shù)據(jù)。但這是一個最好的解決辦法嗎?我們目前還不知道。還是以翻譯為例,很難想象一個人需要裝這么多東西才能掌握一門外語。大模型現(xiàn)在都是百億、千億參數(shù)規(guī)模起步,沒有一個人類會帶著這么多數(shù)據(jù)。

  所以,也許我們還需要繼續(xù)探索。

  AI的機會:AI for Science

  說到這里,也許有些人會失望。既然我們 AI 還未解決上面的三個難題,AI還未成為科學(xué),那AI還有什么價值 ?

  技術(shù)本身就擁有巨大價值,像互聯(lián)網(wǎng)就徹底重塑了我們的工作和生活。AI 作為一門技術(shù),當(dāng)下一個巨大的機會就是幫助解決科學(xué)重點難題(AI for Science)。AlphaFold 已經(jīng)給了我們一個很好的示范,AI解決了生物學(xué)里困擾半個世紀的蛋白質(zhì)折疊難題。

  我們要學(xué)習(xí) AlphaFold,但沒必要崇拜。AlphaFold的示范意義在于,DeepMind 在選題上真是非常厲害,他們選擇了一些今天已經(jīng)有足夠的基礎(chǔ)和數(shù)據(jù)積累、有可能突破的難題,然后建設(shè)一個當(dāng)下最好的團隊,下決心去攻克。

  我們有可能創(chuàng)造比 AlphaFold 更重要的成果,因為在自然科學(xué)領(lǐng)域,有著很多重要的open questions,AI 還有更大的機會,可以去發(fā)掘新材料、發(fā)現(xiàn)晶體結(jié)構(gòu),甚至去證明或發(fā)現(xiàn)定理… AI可顛覆傳統(tǒng)的研究方法,甚至改寫歷史。

  比如現(xiàn)在一些物理學(xué)家正在思考,能否用 AI 重新發(fā)現(xiàn)物理定律?過去數(shù)百年來,物理學(xué)定律的發(fā)現(xiàn)都是依賴天才,愛因斯坦發(fā)現(xiàn)了廣義相對論和狹義相對論,海森堡、薛定諤等人開創(chuàng)了量子力學(xué),這些都是個人行為。如果沒有這些天才,很多領(lǐng)域的發(fā)展會推遲幾十年甚至上百年。但今天,隨著數(shù)據(jù)越來越多,科學(xué)規(guī)律越來越復(fù)雜,我們是不是可以依靠AI來推導(dǎo)出物理定律,而不再依賴一兩個天才?

  以量子力學(xué)為例,最核心的是薛定諤方程,它是由天才物理學(xué)家推導(dǎo)出來的。但現(xiàn)在,已有物理學(xué)家通過收集到的大量數(shù)據(jù),用 AI 自動推導(dǎo)出其中規(guī)律,甚至還發(fā)現(xiàn)了薛定諤方程的另外一個寫法。這真的是一件非常了不起、有可能改變物理學(xué)甚至人類未來的事情。

  我們正在推進的AI EARTH項目,是將AI引入氣象領(lǐng)域。天氣預(yù)報已有上百年歷史,是一個非常重大和復(fù)雜的科學(xué)問題,需要超級計算機才能完成復(fù)雜計算,不僅消耗大量資源而且還不是特別準確。我們今天是不是可以用AI來解決這個問題,讓天氣預(yù)報變得既高效又準確?如果能成功,將是一件非常振奮人心的事情。當(dāng)然,這注定是一個非常艱難的過程,需要時間和決心。

  AI 從業(yè)者:多一點興趣,少一點功利

  AI 的當(dāng)下局面,是對我們所有AI研究者的考驗。不管是AI的基礎(chǔ)理論突破,還是AI 去解決科學(xué)問題,都不是一蹴而就的事情,需要研究者們既聰明又堅定。如果不聰明,不可能在不確定的未來抓住機會;如果不堅定,很可能就被嚇倒了。

  但更關(guān)鍵的是興趣驅(qū)動,而不是利益驅(qū)動,不能急功近利,這些年深度學(xué)習(xí)的繁榮,使得中國大量人才和資金涌入AI領(lǐng)域,快速推動了行業(yè)發(fā)展,但也催生了一些不切實際的期待。像DeepMind做了AlphaGo之后,中國一些人跟進復(fù)制,但對于核心基礎(chǔ)創(chuàng)新進步來說意義相對有限。

  既然 AI 還不是一門科學(xué),我們要去探索沒人做過的事情,很有可能失敗。這意味著我們必須有真正的興趣,靠興趣和好奇心去驅(qū)動自己前行,才能扛過無數(shù)的失敗。我們也許看到了DeepMind做成了AlphaGo和AlphaFold兩個項目,但可能還有更多失敗的、無人聽聞的項目。

  在興趣驅(qū)動方面,國外研究人員值得我們學(xué)習(xí)。像一些獲得圖靈獎的頂級科學(xué)家,天天還在一線做研究,親自推導(dǎo)理論。還記得在CMU讀書的時候,當(dāng)時學(xué)校有多個圖靈獎得主,他們平?;径即┧笤诟鞣Nseminar(研討班)。我認識其中一個叫Manuel Blum,因為密碼學(xué)研究獲得圖靈獎,有一次我參加一個seminar,發(fā)現(xiàn)Manuel Blum沒有座位,就坐在教室的臺階上。他自己也不介意坐哪里,感興趣就來了,沒有座位就擠一擠。我曾有幸遇到過諾貝爾經(jīng)濟學(xué)獎得主托馬斯·薩金特,作為經(jīng)濟學(xué)者,他早已功成名就,但他60歲開始學(xué)習(xí)廣義相對論,70歲開始學(xué)習(xí)深度學(xué)習(xí),76歲還和我們這些晚輩討論深度學(xué)習(xí)的進展…也許這就是對研究的真正熱愛吧。

  說回國內(nèi),我們也不必妄自菲薄,中國AI在工程方面擁有全球領(lǐng)先的實力,承認AI還比較初級并非否定從業(yè)者的努力,而是提醒我們需要更堅定地長期努力,不必急于一時。電氣時代如果沒有法拉第這些先行者,沒有一個又一個的點狀發(fā)現(xiàn),不可能總結(jié)出理論,讓人類邁入電氣時代。

  同樣,AI發(fā)展有賴于我們以重大創(chuàng)新為憧憬,一天天努力,不斷嘗試新想法,然后才會有一些小突破。當(dāng)一些聰明的腦袋,能夠?qū)⑦@些點狀的突破聯(lián)結(jié)起來,總結(jié)出來理論,AI才會產(chǎn)生重大突破,最終上升為一門科學(xué)。

  我們已經(jīng)半只腳踏入AI時代的大門,這注定是一個比電氣時代更加輝煌、激動人心的時代,但這一切的前提,都有賴于所有研究者的堅定不移的努力。

(轉(zhuǎn)載)

標簽:AI 阿里達摩院 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]