——作者:Noam Mizrahi(Marvell CTO辦公室,技術(shù)副總裁兼首席科學(xué)家)
如今,數(shù)據(jù)生成的速度遠(yuǎn)超人們的想象。在以前,人是數(shù)據(jù)產(chǎn)生的主要來源;而現(xiàn)在,圖像設(shè)備、傳感器、無人機、互聯(lián)汽車、物聯(lián)網(wǎng)設(shè)備及工業(yè)設(shè)備組件等,以多樣的途徑生成各類格式的數(shù)據(jù)。 然而,我們不應(yīng)該將數(shù)據(jù)與信息混為一談,對兩個概念進(jìn)行區(qū)分至關(guān)重要。
從價值角度衡量,目前僅有一小部分已收集數(shù)據(jù)可稱作是真正的資產(chǎn)。以圖像處理設(shè)備為例,一分鐘時長的相關(guān)活動于此至關(guān)重要,而非長時間的無關(guān)緊要的視頻片段。以此類推,如果將“數(shù)據(jù)”比作礦山,人人想要挖掘的金塊就是“信息”。將該類數(shù)據(jù)轉(zhuǎn)變成有價值信息的能力(所謂“挖掘”)稱為“分析”。

圖 1: 2009 年至 2020 年數(shù)據(jù)存儲需求漲幅
圖 1 所展示的圖表由分析公司 Statista 繪制,顯示了過去十年間數(shù)據(jù)存儲容量呈現(xiàn)驚人的增長。據(jù)預(yù)測,截止 2020 年,存儲需求將達(dá)到 42,000 EB以上。但是,絕大多數(shù)的數(shù)據(jù)存儲(大多數(shù)估算顯示占比至少為 80%)毫無結(jié)構(gòu)化可言,在使用這類數(shù)據(jù)進(jìn)行分析時,無疑會帶來諸多困難。據(jù)估計,僅有 5% 的數(shù)據(jù)存儲可以真正用于分析。如果有一種方式可以使用元數(shù)據(jù)在執(zhí)行分析的環(huán)境中有效描述這類非結(jié)構(gòu)化數(shù)據(jù),則可以用來分析的數(shù)據(jù)量將顯著增加,企業(yè)所擁有的數(shù)據(jù)可產(chǎn)生的價值將得到大幅提升。
人工智能 (AI)是對現(xiàn)代社會的各個領(lǐng)域帶來重大影響的技術(shù),這些領(lǐng)域包括電子商務(wù)、自然語言翻譯、金融科技、安全、目標(biāo)識別/檢測乃至可快速確認(rèn)危及生命癌細(xì)胞位置(或其他異常癥狀)的醫(yī)學(xué)領(lǐng)域。盡管應(yīng)用領(lǐng)域多樣,但它們都有一個共同點:能通過采用一項可高效掃描大量非結(jié)構(gòu)化數(shù)據(jù)(視頻、文本、聲音、圖像等)并對其進(jìn)行處理的技術(shù),從而獲取真正的價值。
具體而言,Marvell 不僅可以利用人工智能技術(shù)執(zhí)行分析過程,還可以通過此技術(shù)前置處理非結(jié)構(gòu)化的原始數(shù)據(jù),以便為其提供標(biāo)記的元數(shù)據(jù),從而采用簡單又準(zhǔn)確的方式表示這類數(shù)據(jù)。通過上層分析軟件可以分析此簡化版數(shù)據(jù)庫并從中收集有用的信息。在此之前,企業(yè)一直期盼通過人工智能技術(shù)從其存儲的數(shù)據(jù)中發(fā)掘更多的價值,但卻始終毫無頭緒。
基于上述情況,Marvell 希望生成的元數(shù)據(jù)能夠提升分析軟件運行效率,并且將人工智能技術(shù)作為從大量非結(jié)構(gòu)化數(shù)據(jù)庫中創(chuàng)建元數(shù)據(jù)庫的工具?,F(xiàn)在只需要將大量數(shù)據(jù)導(dǎo)入人工智能計算機中進(jìn)行處理即可。但是,這是否真的是正確的方法?
如果考慮到現(xiàn)在生成和存儲數(shù)據(jù)的兩種主要方式,即“云端” (‘the Cloud’) 和“邊緣設(shè)備”(‘the Edge’),可以很快聯(lián)想到移動這些大量數(shù)據(jù)將產(chǎn)生昂貴費用。有了新技術(shù),這些可以得到有效解決。在云端傳輸大量數(shù)據(jù),會對數(shù)據(jù)中心構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)設(shè)施帶來壓力,并會消耗大量電力及增加延遲水平,從而延長了整體處理時間。對于邊緣設(shè)備而言,不同之處在于可用的計算機和電力資源有限。由于所在位置的小型設(shè)備的網(wǎng)絡(luò)功能限制,因此無法將大量數(shù)據(jù)上傳至云端。在這兩種情況下,最大化操作效率的關(guān)鍵在于盡量減少移動數(shù)據(jù)量并使用元數(shù)據(jù)取而代之。
在來源處(例如存儲設(shè)備中的數(shù)據(jù)存儲位置)分配元數(shù)據(jù)會比四處轉(zhuǎn)移數(shù)據(jù)更為高效。固態(tài)硬盤 (SSD)已經(jīng)包含作為計算機實體所需的基本元素。這些設(shè)備通常只能用于與硬盤相關(guān)的操作,但也可以轉(zhuǎn)換其用途,用于與功能相關(guān)的任務(wù)以及負(fù)責(zé)標(biāo)記處理,或通過集成式硬件/軟件/固件模塊的輔助,實現(xiàn)上述功能。其中的一種操作模式為使用空閑的硬盤窗口執(zhí)行后臺映射任務(wù),另外一種方式則為寫入硬盤數(shù)據(jù)時同時對其進(jìn)行處理。如果在存儲位置部署這種加速方式并應(yīng)用于正確的用例中,其益處不僅在于節(jié)約電量及費用,還可以盡量減少數(shù)據(jù)移動并大幅降低延遲,以及降低整體網(wǎng)絡(luò)流量。此方式固有的可擴(kuò)展性意味著企業(yè)和云服務(wù)提供商利用人工智能技術(shù)可擴(kuò)展其業(yè)務(wù)范圍。
去年八月在美國圣克拉拉舉辦的全球閃存峰會(Flash Memory Summit)上,Marvell 發(fā)表了極具開創(chuàng)性的 AI SSD概念驗證控制器,展示了如何在不需要訪問主機 CPU 處理資源的情況下,有效執(zhí)行數(shù)據(jù)標(biāo)記,同時避免上述提及的費用和延遲問題。Marvell 現(xiàn)場向參會者展示了 Marvell 數(shù)據(jù)中心及使用開源 NVIDIA 深度學(xué)習(xí)加速器 (NVDLA) 技術(shù)的客戶端 SSD 控制器 IC 如何繼承受過訓(xùn)練的人工智能模型,將其編譯到集成式人工智能推斷IP,以及在硬盤中掃描存儲于本地的非結(jié)構(gòu)化數(shù)據(jù)的大型數(shù)據(jù)庫(例如視頻庫)。由此可生成標(biāo)記并在搜索環(huán)境中創(chuàng)建可代表數(shù)據(jù)的元數(shù)據(jù)庫。
如果將檢測和識別物體或場景作為目標(biāo),人工智能推斷引擎可掃描存儲于硬盤的視頻文件,并創(chuàng)建可列出其出現(xiàn)時間點的元數(shù)據(jù)?;谶@項新型人工智能增強存儲技術(shù),可在固態(tài)硬盤中本地存儲元數(shù)據(jù)庫并可供分析軟件使用。
當(dāng)執(zhí)法機構(gòu)在時長無休止的視頻文件中尋找可疑點時,他們可以加載受過訓(xùn)練的模型。該模型能夠準(zhǔn)確辨別上述可疑點并可在所有適用的視頻內(nèi)容中進(jìn)行推斷,此類推斷可作為后臺任務(wù)運行于所有存儲視頻內(nèi)容的硬盤中。這種方式可以記錄及標(biāo)記上述可疑點的蹤跡,更易于后續(xù)進(jìn)行深入分析。
同樣,此架構(gòu)會使類似于后臺聊天機器人 (ChatBot)的分析更為高效,此類分析涉及需要掃描聊天機器人通話的大型數(shù)據(jù)庫以便改善服務(wù)質(zhì)量。通過上述做法,可以判斷用戶在何時對其收到的回復(fù)感到滿意/生氣,或者通話時長是否合適等。創(chuàng)建可追蹤這些判斷標(biāo)準(zhǔn)的人工智能模型后,則可將這些標(biāo)準(zhǔn)編譯到人工智能存儲推斷引擎內(nèi),并離線掃描通話。對于類似于電視點播(VOD)服務(wù)的個性化廣告插入、人物/物體搜索及利用數(shù)據(jù)近似度的各種密集型輸入/輸出 (IO-intensive)用例,其也可帶來明顯的性能優(yōu)勢。
在無需昂貴的定制化 IC 的情況下,Marvell 首創(chuàng)的人工智能 SSD 控制器技術(shù)展示了如何執(zhí)行新型數(shù)據(jù)存儲架構(gòu)以處理難以計算的“大數(shù)據(jù)”相關(guān)應(yīng)用程序的擴(kuò)數(shù)據(jù)陣列。通過向市場中已有的固態(tài)硬盤硬件提供更為智能化的附加邏輯的訪問,可直接處理對下一代分析工作負(fù)載至關(guān)重要的元數(shù)據(jù)和標(biāo)記,而無需連接專屬處理資源。
遵循這種依賴傳統(tǒng)集中式處理的替代策略,可使整個過程更為高效。只需占用最少的可用網(wǎng)絡(luò)帶寬,并且不會發(fā)生瓶頸問題。將人工智能加速器直接集成到具有成本效益的固態(tài)硬盤控制器 IC 中,可快速完成分析任務(wù),不僅可以減少處理容量及降低相應(yīng)的電費預(yù)算,還可以完全避免從頭開發(fā)專屬集成電路芯片(ASIC)的需求。 可編程架構(gòu)的使用為更新所用人工智能模型帶來諸多便利條件,以便在開發(fā)新用例時隨時解決任何問題。
(轉(zhuǎn)載)