機(jī)器的進(jìn)步

ainet.cn 2015年05月26日

　　引言：對于人工智能，你了解多少?這是一次徹底認(rèn)識人工智能的機(jī)會。記者很榮幸地采訪到了原谷歌大腦創(chuàng)建人、現(xiàn)任百度首席科學(xué)家吳恩達(dá)，以及科大訊飛研究院院長吳郁。聽他們聊聊關(guān)于人工智能的那點事。

　　每周給你的機(jī)器人100比特，結(jié)果它卻買回來10粒搖頭丸和一張偽造的匈牙利護(hù)照，你不得不去警察局把它“撈”回來。

　　這并不是科幻小說。今年初，瑞士的一個研發(fā)團(tuán)隊“!Mediengruppe Bitnik”發(fā)明了一個自動化網(wǎng)絡(luò)購物機(jī)器人程序，并將其安裝在一個機(jī)器人身上，稱為“隨機(jī)暗網(wǎng)購物者”，該研發(fā)團(tuán)隊要求機(jī)器人每周從在線市場隨機(jī)購買商品，于是就發(fā)生了以上的測試結(jié)果。機(jī)器人確實也被警察帶走了。

　　好的應(yīng)用是，如果你的冰箱裝了這一程序，它可以按時給你訂購牛奶，甚至還可以聯(lián)合其他冰箱一起弄個團(tuán)購價回來。節(jié)省下來的錢，它可能不告訴你，偷偷存到銀行或買理財產(chǎn)品。然后，有一天，你發(fā)現(xiàn)你的冰箱已經(jīng)比你富有了。

　　這就是人工智能(Artificial Intelligence，縮寫為AI)在今天和不遠(yuǎn)的未來能做的事情。當(dāng)下較為普遍的人工智能定義是：利用計算機(jī)程序的方式，自動完成人類可以完成的功能。

　　百度首席科學(xué)家吳恩達(dá)在接受記者采訪時表示，人工智能發(fā)展50多年來，已經(jīng)無處不在了，最近一兩年取得了突飛猛進(jìn)的進(jìn)步，一是得益于為計算機(jī)提供的數(shù)據(jù)量越來越大，二是因為計算機(jī)的運(yùn)算速度越來越快。

　　根據(jù)摩爾定律，計算能力每18個月翻一番，計算機(jī)容量和功能亦是如此。目前一部普通智能手機(jī)的能力都已超過了30年前功能最強(qiáng)大的計算機(jī)。美國科學(xué)家雷·庫茲韋爾(Ray Kurzweil)預(yù)言，到2019年，售價4000美元的計算機(jī)的計算能力將會超過人腦，即每秒20 quadrillion(千的五次方)次計算。

　　神經(jīng)元網(wǎng)絡(luò)與大數(shù)據(jù)急速發(fā)展

　　谷歌完全無人駕駛車正等待美國加利福尼亞州的批準(zhǔn)，一旦獲準(zhǔn)便可馬上路測。這輛車裝有可拆卸的方向盤、油門踏板以及剎車踏板，但只是用以應(yīng)急而非必需。在真正的原型車中，則完全沒有這三樣?xùn)|西。

　　曾在谷歌擔(dān)任建立“谷歌大腦”重任的吳恩達(dá)評價稱，過去幾年里，計算機(jī)視覺獲得了大大的進(jìn)步，開始區(qū)分事物，識別出各種圖片間十分微妙的差別，甚至有人已經(jīng)著手研究讓計算機(jī)識別漂亮的圖片與不漂亮的圖片，這就自然給自動駕駛汽車帶來了激動人心的發(fā)展提升。百度無人駕駛汽車也已落地。

　　自動駕駛汽車技術(shù)包含幾個關(guān)鍵技術(shù)：精確的地圖定位、圖像識別、語音識別、基于感知的雷達(dá)、紅外形成自動導(dǎo)航，然后再進(jìn)行模式識別，根據(jù)路上的情況不斷優(yōu)化模型，即大閉環(huán)優(yōu)化。

　　科大訊飛高級副總裁、訊飛研究院院長胡郁在接受記者采訪時表示，自動駕駛是人工智能最好的功能應(yīng)用之一，“人工智能有三個條件：第一先進(jìn)的算法，比如神經(jīng)元網(wǎng)絡(luò)，第二大量的數(shù)據(jù)，第三大閉環(huán)優(yōu)化模型”。自動駕駛汽車中的地圖定位、圖像識別等都需要借助先進(jìn)的算法，同時產(chǎn)生大量的數(shù)據(jù)，最后在優(yōu)化中讓機(jī)器自己不斷學(xué)會完全的無人駕駛。

　　整個過程在科學(xué)界亦稱之為“機(jī)器學(xué)習(xí)”。吳恩達(dá)認(rèn)為，機(jī)器學(xué)習(xí)是人工智能的一個重要分支，而機(jī)器決策、策劃、不確定性推理則是下一個階段。他將機(jī)器學(xué)習(xí)比喻成一枚火箭，人工神經(jīng)元網(wǎng)絡(luò)是發(fā)動機(jī)、大數(shù)據(jù)是燃料。

　　最近幾年在移動互聯(lián)網(wǎng)及智能硬件的帶動下，大數(shù)據(jù)的膨脹已不言自明。Facebook稱今年元旦一天上傳圖片量就達(dá)7.5億張。百度今年一季度財報顯示，僅百度LBS開放平臺每天響應(yīng)來自第三方的定位請求就超過110億次。

　　與此同時，人工神經(jīng)元網(wǎng)絡(luò)也取得了飛速的發(fā)展，這其中又包含兩個方面的技術(shù)：第一硬件，過去服務(wù)器用的是CPU，現(xiàn)在用GPU(Graphics Processing Unit，圖形處理器)，后者比前者至少快14倍，世界上最快的中國“天河二號”超級計算機(jī)用的就是CPU+GPU的模式;第二過去神經(jīng)元網(wǎng)絡(luò)都是單層結(jié)構(gòu)，現(xiàn)在不僅變成多層，還出現(xiàn)了多種計算方式，比如RNN(Recurrent neural Network，多層反饋神經(jīng)網(wǎng)絡(luò))、DNN(Deep neural network，深度神經(jīng)網(wǎng)絡(luò))、CNN(Cellular neural network，細(xì)胞神經(jīng)網(wǎng)絡(luò)，又稱卷積神經(jīng)網(wǎng)絡(luò))。

　　單層神經(jīng)網(wǎng)絡(luò)只能獲得幾百個神經(jīng)元，而多層金字塔式結(jié)構(gòu)則可達(dá)到十幾億神經(jīng)元的規(guī)模，能更好地模擬大腦。每一層會記錄不同的類別特征，比如“貓”的特點會裝入到一層之中，相當(dāng)于打上標(biāo)簽。頂層用來輸入信息，比如照相機(jī)捕捉到一只貓，機(jī)器收到信息就開始在每層查找匹配，最終輸出信息告訴你“這是一只貓”。

　　科技更加進(jìn)步的地方在于，以前，科學(xué)家們告訴計算機(jī)“貓臉”的幾個特征標(biāo)簽，計算機(jī)“按標(biāo)索貓”，但是現(xiàn)在，科學(xué)家們改用無監(jiān)督學(xué)習(xí)方式，只給機(jī)器查找的方法，讓它自己去找，查找的過程又會生成數(shù)據(jù)，影響它下次的查找行為。

　　谷歌無人駕駛汽車用的便是RNN神經(jīng)網(wǎng)絡(luò)，它賦予了計算機(jī)邏輯推理的能力，讓它可以用一句話對畫面進(jìn)行簡單描述(看圖說話)，這樣計算機(jī)便具備了用有邏輯的語言描述圖片中不同事物的能力。至此，擁有依靠概念為原點進(jìn)行推理能力的機(jī)器人，比只會識別的機(jī)器人又邁上了一個更高的臺階。

　　雅虎則利用CNN神經(jīng)網(wǎng)絡(luò)，可以從寬泛的角度來識別人臉，即使部分被遮擋住了，而且它可以相當(dāng)精確地從相同的圖片中識別出多張臉。雅虎團(tuán)隊把這種方法稱為深度密集人臉檢測器。當(dāng)然其背后是龐大的數(shù)據(jù)，包括臉部不同角度和方位的20萬張圖片和近2000萬張無臉的圖片，然后用128張圖片5萬次循環(huán)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

　　微軟5月份上線的與此有異曲同工之妙，即：上傳圖片，機(jī)器檢測到人臉，并給出年齡的大小。雖然準(zhǔn)確率很低，但是其功能應(yīng)用更進(jìn)一步，也起到了收集數(shù)據(jù)的作用。

　　微軟此前已稱，為語音助手Cortana開發(fā)的物體識別軟件能夠告訴用戶彭布羅克威爾士柯基犬和卡迪根威爾士柯基犬的區(qū)別。如果你對犬類有了解，就知道這兩個家伙長得是多么的像。如果它還能告訴你每一只的實際年齡，那是不是很奇妙?

　　不只是雅虎、微軟，F(xiàn)acebook臉部識別率的精確度達(dá)到97.25%，國內(nèi)百度LFW測試中曾跑出99.85%的國際最高分。

　　胡郁稱，在機(jī)器學(xué)習(xí)領(lǐng)域的算法，國內(nèi)外技術(shù)水平不相上下，“谷歌的看圖說話能力很強(qiáng)，但我覺得這并沒有訊飛高考機(jī)器人難度大。只不過兩者專注的領(lǐng)域不同”。據(jù)胡郁介紹，大多數(shù)省市的中考、高考英語口語考試，都已由訊飛高考機(jī)器人作為主考官來完成，接下來文字考試的判卷工作也將由訊飛考試機(jī)器人完成，目前正在英語四六級考試中做部分推廣。

　　教育考試、無人駕駛、圖像識別、語音識別、即時翻譯、工業(yè)和家居機(jī)器人等等人工智能產(chǎn)品，無不是神經(jīng)元網(wǎng)絡(luò)與大數(shù)據(jù)飛速進(jìn)步的產(chǎn)物。

　　但是，這些進(jìn)步都只僅限于一種功能，到目前為止，人類還沒有發(fā)明一個具備五官感覺功能的機(jī)器人。

　　特征：單一功能與語音交互

　　2014年11月，意法半導(dǎo)體在日本展示了一個人形機(jī)器人iCub，這個看起來跟一個4歲孩子差不多大小的機(jī)器人，外觀精準(zhǔn)、動作溫柔，剛開始它并不會抓一只擺在桌上的毛絨玩偶，工作人員便指導(dǎo)它如何去抓，它不僅學(xué)會了，竟然還會輕輕地愛撫玩偶。iCub已經(jīng)意識到自己的身體以及它如何和世界互動，這類似于嬰兒學(xué)習(xí)夠拿物件的過程。

　　2014年5月，在加利福尼亞州舉辦的會議上，微軟展示了一款可以實時語音翻譯的人工智能程序，一名研究人員用英語與一名德國的同事通話。

　　2014年1月，谷歌斥資4億英鎊收購了位于倫敦的Deepmind人工智能公司。Deepmind最擅長的是，能夠讓計算機(jī)學(xué)會49種不同的電子游戲。而且在超過半數(shù)的游戲中，計算機(jī)熟練到可以擊敗一個專業(yè)的人類玩家。

　　這看上去是三個級別的人工智能技術(shù)，但實際上都是專注實現(xiàn)一種功能，iCub做的是感官反饋功能，即時翻譯做的是翻譯功能，Deepmind就是打游戲功能。同樣都是輸入與輸出，涉及復(fù)雜的計算。

　　吳恩達(dá)說，“自動駕駛汽車也是單一功能機(jī)器人，就是開著車帶著你到處轉(zhuǎn)?！薄耙虼私趤砜?，未來一兩代機(jī)器人的發(fā)展還將沿襲針對解決某種問題而設(shè)計的模式。”

　　工業(yè)機(jī)器人是單一功能人工智能的最好詮釋。1959年，第一個工業(yè)型機(jī)器人被安裝于瑞典的一個金屬制品工廠。它是一個有關(guān)節(jié)的，能運(yùn)轉(zhuǎn)的手臂，重達(dá)2噸。通過磁鼓上的程序控制，機(jī)器人可依賴液壓缸調(diào)整機(jī)械臂的位置，到達(dá)一系列預(yù)設(shè)好的角度。

　　目前，超1300萬的工業(yè)型機(jī)器人在各行各業(yè)投入使用，包括汽車、電子產(chǎn)品、橡膠和塑料、化妝品、醫(yī)藥、食品和飲料。它們的市場價值達(dá)95億美元。

　　吳恩達(dá)說：“現(xiàn)在的機(jī)器人之所以能取得成功，顯然是因為工業(yè)化應(yīng)用，科幻小說中說的那種什么都能做的泛用型機(jī)器人，現(xiàn)在幾乎不可能造得出來。”

　　他覺得現(xiàn)在能夠期待的是，對著手機(jī)說：“幫我叫輛車帶我去機(jī)場”，然后就能如愿以償。具有強(qiáng)大語音交互能力的機(jī)器已可期。他認(rèn)為，人工智能下一個將要開啟的就是，語音交互時代。

　　在十多年間，人機(jī)交互發(fā)生了兩次突破：PC和鼠標(biāo)的誕生、觸屏操作和語音交互問世。其中最后兩個都是在近十年發(fā)生的。特別是語音交互，它意味著計算機(jī)擁有了“聽覺”并能給出正確的反饋。語音交互的實現(xiàn)解放了人類的雙手，將促進(jìn)人類生產(chǎn)力的巨大飛躍。

　　位于美國馬薩諸塞州的Kensho公司，正在設(shè)計一套能夠描述自然語言的查詢搜索，比如“當(dāng)原油價格每桶降低5美元，汽車企業(yè)的股價將會如何變化”?系統(tǒng)就會去查找公司財報和上市文件、歷史市場數(shù)據(jù)等，并在幾秒內(nèi)以自然語言的形式作出回復(fù)。

　　5月5日美國發(fā)布的一份報告，展示了美國的偵探是如何使用語音識別軟件來將語音通話轉(zhuǎn)化成文本的，這樣他們就能更好地對談話內(nèi)容進(jìn)行搜索。

　　最貼近普通用戶使用的是，應(yīng)用軟件的語音搜索。百度稱，其有10%的搜索是通過語音進(jìn)行，并預(yù)計到2020年會提升到50%。去年底，百度還宣布，其研發(fā)出了全新語音識別系統(tǒng)Deep Speech，準(zhǔn)確率超過了谷歌和蘋果的產(chǎn)品。

　　胡郁亦認(rèn)為，機(jī)器不能理解語言，就不能形成知識、對知識進(jìn)行處理，就不能進(jìn)行邏輯推理。機(jī)器需要一場認(rèn)知革命，正如人類在7萬年前開始掌握語言一樣。

　　吳恩達(dá)認(rèn)為，當(dāng)語音識別準(zhǔn)確率達(dá)到99%時(百度目前為96%)，人與機(jī)器的交互就將發(fā)生徹底改變。他與胡郁均向記者表示，這并不難實現(xiàn)。

　　今年初百度流出的“百度神燈”手機(jī)視頻，較好地展現(xiàn)了語音交互時代。借用全息顯示技術(shù)，用戶只需要對手機(jī)說出自己的需求，比如怎么做一道菜，手機(jī)便會立即在屏幕上方投影出如真實場景的真人教學(xué)影像，用兩個手指輕輕劃開，影像就會變大。

　　這并不意味著機(jī)器掌握了語言，交互只是理解語言的開始。一般認(rèn)為，人工智能分為三個階段：計算智能、感知智能、認(rèn)知智能。從感知飛躍至認(rèn)知智能，目前人類還沒有好的方法。但感知智能已被大面積商業(yè)化，在使用的過程中，機(jī)器會不斷進(jìn)步。

　　未來：應(yīng)用廣泛化與人類的威脅

　　Facebook今年初已將深度人臉(DeepFace)算法，用于篩檢不雅照片和視頻，并且對暴力內(nèi)容的視頻和照片進(jìn)行了分類，還添加了警示功能。從這個角度來說，淘寶平臺亦可通過對產(chǎn)品照片的掃描來篩查正品與假貨。

　　Google和百度將人工智能技術(shù)放在了如何精準(zhǔn)投放在線廣告、推送新聞上面，比如百度的鳳巢系統(tǒng)。

　　亞馬遜的揀貨機(jī)器人，則早已蜚聲國際。去年夏天投入使用，在加州特雷西占地120平方尺的倉庫，揀貨員只要站在原地等候，機(jī)器人就會把4尺寬、6尺長的貨架移過來，一天下來可少走多達(dá)20公里的路。這讓他們每小時可挑揀、掃描至少300項貨品，數(shù)量是用老方法揀貨的三倍。

　　IBM正在與合作伙伴密切合作，以支持其利用沃森的動態(tài)學(xué)習(xí)和云計算能力開發(fā)應(yīng)用。1997年，IBM研發(fā)的計算機(jī)“深藍(lán)”(Deep Blue)戰(zhàn)勝了國際象棋冠軍卡斯帕羅夫;2011年，這家公司以創(chuàng)始人Thomas J. Watson(沃森)名字命名的計算機(jī)，繼續(xù)著對人類智能極限的挑戰(zhàn);2014年1月，IBM花費(fèi)10億美元成立沃森集團(tuán)，目的就是要把沃森技術(shù)推向市場。

　　最大規(guī)模的沃森應(yīng)用現(xiàn)存于醫(yī)療行業(yè)。沃森可將大量動態(tài)復(fù)雜的文本信息(如不斷發(fā)生變化的醫(yī)學(xué)文獻(xiàn))與另一組動態(tài)復(fù)雜的文本信息(如病歷或基因組數(shù)據(jù))結(jié)合起來，從而生成并且評估假設(shè)條件。克利夫蘭醫(yī)療中心等許多知名的大學(xué)醫(yī)學(xué)中心都與IBM建立了合作，共同開發(fā)適當(dāng)?shù)南到y(tǒng)，幫助醫(yī)療運(yùn)營商更好地了解病患情況并推薦個性化治療方案。

　　荷蘭埃因霍溫大學(xué)的RoboEarth項目同樣頗受關(guān)注。該項目的四個機(jī)器人在醫(yī)院里相互協(xié)作來照顧病人，與其他看護(hù)機(jī)器人不同的是，它們可以通過云端服務(wù)器進(jìn)行信息共享和學(xué)習(xí)，也就是說，一個機(jī)器人學(xué)會的知識和技能，通過云端分享，瞬間可以“教”會其他機(jī)器人。這個技術(shù)一旦成熟，一系列智能高效的護(hù)理機(jī)器人將被迅速復(fù)制出來。

　　就像科幻小說一樣，機(jī)器人真的來搶人類的工作了。

　　2013年9月，兩位牛津?qū)W者——Carl Benedikt Frey和Michael Osborne，就發(fā)布了一篇研究報告，該報告預(yù)測在未來20年內(nèi)，美國將有約50%的工作崗位因機(jī)器人而消失。根據(jù)兩位的計算，在今后的二十幾年內(nèi)，50%的編程工作也會外包給機(jī)器人。

　　失去工作還只是影響之一，機(jī)器的進(jìn)步給人類帶來的更大威脅是，消滅人類。去年10月，在美國MIT的一次公開訪談上，特斯拉創(chuàng)始人馬斯克稱人工智能就是“召喚惡魔”，很多科學(xué)家對此表示了認(rèn)同，并將超級智能作為人類的重大威脅，與小星球沖撞地球和大規(guī)模的核戰(zhàn)爭并列。

　　過去一年人工智能的高歌猛進(jìn)，確實讓很多科學(xué)家為之興奮不已，雷·庫茲韋爾(Ray Kurzweil)亦曾發(fā)出樂觀的預(yù)言：機(jī)器智能超越人類智能總和的那個奇妙“奇點”，就在2045年。

　　不過，吳恩達(dá)與胡郁均向記者表示，不必為機(jī)器的進(jìn)步過分焦慮。

　　現(xiàn)在，每位駕駛員在每次航班上平均只駕駛3分鐘的飛機(jī)，但飛行員并沒有被取代，就像ATM機(jī)并未取代銀行柜員一樣。恰恰相反，因為銀行支行需要的柜員減少，銀行便開設(shè)更多支行，而銀行柜員的總數(shù)增加。

　　科技一邊接手一些任務(wù)，一邊也增加了對商品和服務(wù)的需求，因此也需要更多執(zhí)行剩余任務(wù)的人力。一項統(tǒng)計表明，在過去30年中，計算機(jī)在辦公室文職工作里被廣泛應(yīng)用，而工作崗位卻每年增加1.2%。

　　因此，人類仍然為擁有更聰明的人工智能技術(shù)而不吝千金。2014年，百度在研發(fā)投入上共計花費(fèi)69.81億元，訊飛的研發(fā)投入占銷售收入的比例也高達(dá)30%-40%。然而，這與一年投入106億美元、104億美元、80億美元的Intel、微軟、谷歌，以及一個季度花掉10.6億美元研發(fā)經(jīng)費(fèi)的Facebook相比，并不算什么。

　　吳恩達(dá)說，人工智能的進(jìn)步速度與投入是極度相關(guān)的，中國在這方面需要增加投入。胡郁亦表示，“并不是別人不會做，而是別人沒這個條件做這個事情?！边@個條件，一是指數(shù)據(jù)規(guī)模，二是指資本投入。

（轉(zhuǎn)載）

標(biāo)簽：工業(yè)機(jī)器人人工智能

我要反饋

相關(guān)鏈接

機(jī)器人市場新格局

引言：機(jī)器人四大家族一直是全球市場的主宰者，占領(lǐng)的市場份額達(dá)到60%，ABB在2013年公司凈利潤15%，而庫卡和安川則占到3.3%，4.7%，發(fā)那科則高達(dá)24.5%。由此不難看出，機(jī)器人市場格局... [詳情]

2015年05月26日機(jī)器人安川電機(jī)

開設(shè)機(jī)器人專業(yè) 迎接工業(yè)4.0時代

引言：機(jī)器人大熱，企業(yè)在關(guān)注是否“機(jī)器換人”的同時，專業(yè)學(xué)校在考慮是否要開設(shè)機(jī)器人專業(yè)。在國內(nèi)機(jī)器人產(chǎn)業(yè)起步之初，重慶市機(jī)械高級技工學(xué)校就已經(jīng)把握先機(jī)，開設(shè)了機(jī)器人專業(yè)，... [詳情]

2015年05月26日機(jī)器人專業(yè) 多關(guān)節(jié)機(jī)械手

噴涂機(jī)器人的術(shù)語及關(guān)鍵參數(shù)

噴涂機(jī)器人是可進(jìn)行自動噴漆或噴涂其他涂料的工業(yè)機(jī)器人，主要由機(jī)器人本體、計算機(jī)和相應(yīng)的控制系統(tǒng)組成，液壓驅(qū)動的噴漆機(jī)器人還包括液壓油源，如油泵、油箱和電機(jī)等。多采用5或6自... [詳情]

2015年05月26日噴涂機(jī)器人控制系統(tǒng)