siemens x
人工智能

讓AI訓(xùn)練AI,阿里和浙大的“AI訓(xùn)練師助手”是這樣煉成的

2025China.cn   2020年03月30日

  不久前,人力資源社會保障部發(fā)布了一種炙手可熱的新職業(yè):AI訓(xùn)練師。沒想到,浙江大學(xué)與阿里安全的人工智能訓(xùn)練師馬上創(chuàng)造出一個 “AI訓(xùn)練師助手”,高效打造AI深度模型,應(yīng)對海量應(yīng)用場景的增加,讓AI訓(xùn)練模型面對新場景時不用從頭學(xué)習(xí),直接從已經(jīng)存在的模型上遷移,迅速獲得別人的知識、能力,成為全新的AI模型,而且能將模型周期從一個月縮短為一天。隨后,闡述這種讓AI訓(xùn)練AI,提升模型生產(chǎn)效率的論文被計算機(jī)視覺頂會CVPR 2020 接收(Oral)。

  現(xiàn)在,視頻、直播成為互聯(lián)網(wǎng)內(nèi)容消費(fèi)的重要載體,內(nèi)容創(chuàng)作爆發(fā),創(chuàng)作形式自由度高帶來了許多潛在安全威脅。好消息是,AI深度模型被大規(guī)模用于多媒體內(nèi)容的識別、檢測、理解上,用以狙擊含有不良內(nèi)容的傳播。為了提升檢測的準(zhǔn)確性,面向不同場景必須使用不同的AI模型。但是,由于媒體場景、細(xì)分領(lǐng)域多,如何才能高效生產(chǎn)不同AI 深度模型?

  目前實(shí)現(xiàn)這一目標(biāo)最流行的方法是遷移學(xué)習(xí)。浙江大學(xué)和阿里安全發(fā)現(xiàn),兩個預(yù)訓(xùn)練深度模型所提取的特征之間的遷移能力可由它們對應(yīng)的深度歸因圖譜之間的相似性來衡量。相似程度越高,從不同的預(yù)訓(xùn)練深度模型中獲得的特征相關(guān)性就越大,特征的相互遷移能力也就越強(qiáng)。而且,“AI訓(xùn)練師助手”還知道從什么模型遷移知識,用模型的哪個部分遷移能最好地完成任務(wù)。也就是說,他們發(fā)現(xiàn)了讓小白模型向AI深度模型學(xué)習(xí)的高效學(xué)習(xí)方法。

問題:如何才能取得最優(yōu)遷移效果

  得益于大量高質(zhì)量標(biāo)注數(shù)據(jù)、高容量的模型架構(gòu)、高效率的優(yōu)化算法以及高性能計算硬件的發(fā)展,過去十年里深度學(xué)習(xí)在計算機(jī)視覺、自然語言處理以及生物信息學(xué)等領(lǐng)域取得了舉世矚目的進(jìn)步。隨著深度學(xué)習(xí)取得了前所未有的成功,越來越多的科研人員和工業(yè)工作者愿意開源他們訓(xùn)練好的模型來鼓勵業(yè)界進(jìn)一步的研究。目前,預(yù)訓(xùn)練好的深度學(xué)習(xí)模型可以說是無處不在。

  阿里安全圖靈實(shí)驗(yàn)室高級算法專家析策認(rèn)為,我們不僅處在一個大數(shù)據(jù)時代,同時也正在步入一個“大模型”時代。

  與大數(shù)據(jù)相似,海量模型形成的模型倉庫也蘊(yùn)含了巨大的潛在價值。這些預(yù)訓(xùn)練的深度模型已經(jīng)消耗了大量的訓(xùn)練時間以及大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)等昂貴的計算資源。如果這些預(yù)訓(xùn)練的模型能夠被合理地重新使用,那么在解決新任務(wù)時的對訓(xùn)練時間以及訓(xùn)練數(shù)據(jù)的依賴就會顯著降低。目前實(shí)現(xiàn)這一目標(biāo)最流行的方法就是遷移學(xué)習(xí)。在基于深度模型的跨任務(wù)的遷移學(xué)習(xí)中,模型微調(diào)是一種使用最廣泛并且有效的方法。

  該方法以一個預(yù)先訓(xùn)練的模型作為起點(diǎn),固定模型的一部分參數(shù)以降低模型優(yōu)化空間,利用新任務(wù)有限的數(shù)據(jù)訓(xùn)練剩余的參數(shù),使得模型能夠在新任務(wù)上獲得成功。

  雖然這種方法在一些具體問題中取得了一定的成效,但是當(dāng)前這些遷移學(xué)習(xí)方法忽略了兩個重要的問題:面對海量的預(yù)訓(xùn)練好的深度模型,選擇哪個模型解決當(dāng)前任務(wù)能夠取得最好的效果;給定一個預(yù)訓(xùn)練好的模型,應(yīng)該固定哪些層的參數(shù)以及優(yōu)化哪些層才能夠取得最優(yōu)的遷移效果。

  目前的模型選擇通常是盲目地采用ImageNet的預(yù)訓(xùn)練模型。然而,ImageNet預(yù)訓(xùn)練的模型并不總是對所有任務(wù)產(chǎn)生令人滿意的性能,特別是當(dāng)任務(wù)與ImageNet數(shù)據(jù)上定義的任務(wù)有顯著差異時。而模型微調(diào)時參數(shù)優(yōu)化臨界點(diǎn)的選擇往往依賴于經(jīng)驗(yàn)。但是,由于最優(yōu)的優(yōu)化臨界點(diǎn)取決于各種因素,如任務(wù)相關(guān)性和目標(biāo)數(shù)據(jù)量等,依賴經(jīng)驗(yàn)做出的選擇往往很難保證最優(yōu)。

不同任務(wù)下深度神經(jīng)網(wǎng)絡(luò)提取特征的可遷移性

  為了解決上述問題,浙江大學(xué)和阿里安全發(fā)起了這項(xiàng)研究:在不同任務(wù)下訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)提取的特征之間的可遷移性。Zamir等人[1]對不同任務(wù)間的遷移關(guān)系作了初步的研究。他們提出了一種全計算的方法,稱為taskonomy,來測量任務(wù)的可遷移性。然而,taskonomy中有三個不可忽視的局限性,極大地阻礙了它在現(xiàn)實(shí)問題中的應(yīng)用。

首先,它的計算成本高得令人望而卻步。在計算給定任務(wù)集合中兩兩任務(wù)之間的遷移關(guān)系時,計算成本會隨集合中任務(wù)數(shù)量的增加而呈平方性地增長,當(dāng)任務(wù)數(shù)量很大時,計算成本會變得非常昂貴。

第二個限制是,它采用遷移學(xué)習(xí)來建立任務(wù)之間的遷移關(guān)系,這仍然需要大量的標(biāo)記數(shù)據(jù)來訓(xùn)練轉(zhuǎn)移模型。然而,在許多情況下,我們只能獲取訓(xùn)練好的模型,并不能夠獲取到相應(yīng)的訓(xùn)練數(shù)據(jù)。最后,taskonomy只考慮不同模型或任務(wù)之間的可遷移性,而忽略了不同層之間的可遷移性,不能夠用來解決微調(diào)模型時臨界點(diǎn)的選擇問題。

衡量從不同預(yù)訓(xùn)練深度模型中提取到特征間的可遷移性,主要障礙是深度模型自身的黑箱性質(zhì)。由于從不同的預(yù)訓(xùn)練深度模型中學(xué)習(xí)到的特征是不可解釋的,而且處在不同的嵌入空間中,直接計算特征間的可遷移性非常困難。

為了推導(dǎo)預(yù)訓(xùn)練深度模型中提取到特征間的可遷移性,研究者們首先給出了可遷移性的嚴(yán)格定義。

在該定義下,預(yù)訓(xùn)練模型的選擇和模型微調(diào)時臨界點(diǎn)的選擇實(shí)際上是該遷移性定義下的兩個特例。然后,這篇論文提出了深度歸因圖譜(DEeP Attribution gRAph, DEPARA)來表示在預(yù)訓(xùn)練深度模型中學(xué)習(xí)到的知識。在深度歸因圖譜中,節(jié)點(diǎn)對應(yīng)于輸入,并由模型在輸入數(shù)據(jù)上歸因形成的歸因圖[2]來表達(dá)。邊表示輸入數(shù)據(jù)之間的關(guān)聯(lián),通過它們在預(yù)訓(xùn)練深度模型特征空間中的相似度來度量,如圖1所示。

由于不同預(yù)訓(xùn)練深度模型中的深度歸因圖譜是在相同的輸入集上定義的,它們實(shí)際上處于相同的空間內(nèi),因此兩個預(yù)訓(xùn)練深度模型所提取的特征之間的遷移能力可直接由它們對應(yīng)的深度歸因圖譜之間的相似性來衡量。相似程度越高,從不同的預(yù)訓(xùn)練深度模型中獲得的特征相關(guān)性就越大,特征的相互遷移能力也就越強(qiáng)。這項(xiàng)研究通過大量實(shí)驗(yàn)證明了該方法應(yīng)用于任務(wù)間遷移關(guān)系度量以及模型微調(diào)時臨界點(diǎn)選擇的有效性。

遷移性定義

  直接計算上述公式定義的遷移性需要大量標(biāo)注數(shù)據(jù)且非常耗時。本文提出通過計算影響遷移性的兩個重要因素,來做近似估計。

  1. 包含性:要使得特征遷移在目標(biāo)任務(wù)上取得較為理想的效果,源任務(wù)的訓(xùn)練的模型生成的特征空間應(yīng)該包含解決目標(biāo)任務(wù)所需的足夠信息。包容性是遷移學(xué)習(xí)取得成功的一個比較基本的條件。

2. 易用性:特征空間應(yīng)該已經(jīng)經(jīng)過充分的學(xué)習(xí)并抽象到比較高的層次,這樣才能夠在有限的標(biāo)注數(shù)據(jù)下很好地解決目標(biāo)任務(wù)。如果不要求特征的易用性,那么原始的輸入總是比經(jīng)過深度網(wǎng)路處理的特征包含更多的信息。然而由于原始的數(shù)據(jù)沒有經(jīng)過任何知識提取與抽象,并不能夠很好的遷移到新任務(wù)中。

深度歸因圖譜

如何利用深度歸因圖來解決兩個遷移性問題

  1. 任務(wù)之間的遷移性

  2. 層的遷移性

實(shí)驗(yàn)

  1. DEPARA的可視化

  上圖是對于不同視覺任務(wù)所生成的深度歸因圖的可視化結(jié)果。從圖中可以看出有一些任務(wù)生成非常相似的歸因圖以及樣本之間的關(guān)系,然而有些生成的結(jié)果則非常不同。例如,Rgb2depth和Rgb2mist生成了非常相似的歸因圖和關(guān)系圖,然而它們的結(jié)果和自編碼器的結(jié)果非常不同。事實(shí)上,在任務(wù)分類法中,Rgb2depth和Rgb2mist彼此間具有很高的遷移性,但它們到自編碼器的遷移性相對較低。此外,任務(wù)分類法采用層次聚類的方式把任務(wù)劃分為四組:2D任務(wù)(藍(lán)色),3D任務(wù)(綠色),幾何任務(wù)(紅色)以及語義任務(wù)(品紅色)。圖中選取了2個3D任務(wù),3個2D任務(wù),2個幾何任務(wù)以及2個語義任務(wù)作可視化。任務(wù)分類法在這些任務(wù)上生成的任務(wù)相似樹繪制在任務(wù)名稱的上方。從圖可以看出,在每個任務(wù)組內(nèi)部,深度歸因圖譜生成較為相似的節(jié)點(diǎn)以及邊。

  2. 模型遷移度量

  論文中采用PR曲線來評估方法效果,實(shí)驗(yàn)結(jié)果如上圖,可以看到論文中提出的深度歸因圖方法(DEPARA)與taskonomy(Oracle)實(shí)驗(yàn)的結(jié)果具有很高的相似性,且通過消融實(shí)驗(yàn)可知,只采用圖中節(jié)點(diǎn)相似性(DEPARA-V)和只采用圖中邊相似性(DEPARA-E)計算得到的遷移性準(zhǔn)確度都遠(yuǎn)遠(yuǎn)不如圖相似性(DEPARA),這意味著節(jié)點(diǎn)和邊都對結(jié)果起著重要作用,是不可分割的。另外,論文中的方法(DEPARA)好于SOTA(RSA),證明了這是一種更加有效的計算遷移性的方案。

  3. 層遷移度量

  在Syn2Real-C數(shù)據(jù)集(包含有合成圖像的數(shù)據(jù)域以及真實(shí)圖像的數(shù)據(jù)域)上進(jìn)行層遷移的實(shí)驗(yàn),分別考慮了兩種源模型(在合成數(shù)據(jù)域上訓(xùn)練的模型和在ImageNet[6]上預(yù)訓(xùn)練的模型)來進(jìn)行遷移至真實(shí)數(shù)據(jù)域。在遷移時,只利用了1%(0.01-T)和10%(0.1-T)的標(biāo)注數(shù)據(jù)來進(jìn)行訓(xùn)練,觀察遷移效果和深度歸因圖相似性之間的關(guān)系。根據(jù)上圖中顏色的深淺可知,對于兩種不同的源模型,遷移效果越好的層,計算得到的深度歸因圖相似性越高,遷移效果越差的層,計算得到的深度歸因圖相似性也越低,驗(yàn)證了論文中方法的準(zhǔn)確性。有趣的是,對于在ImageNet上預(yù)訓(xùn)練和合成數(shù)據(jù)域上預(yù)訓(xùn)練的源模型來說,盡管具有最好的遷移效果的層并不相同,但是論文中的方法都能很好地進(jìn)行指示。而且,對于1%和10%兩種不同的模式,這種方法通過設(shè)定不同的λ超參數(shù),也依舊能挑選出遷移效果最好的那些層。從效果上來看,無論是從節(jié)點(diǎn)V還是邊E的相似性比較來看,DNN-ImageNet都比DNN-Source具有更好的遷移性,這是因?yàn)楸M管DNN-Source和目標(biāo)任務(wù)學(xué)習(xí)的是同一物體的圖像,但是他們的數(shù)據(jù)域相差太大,導(dǎo)致需要花費(fèi)更多的成本去重建目標(biāo)任務(wù)的特征空間。值得注意的是,有些層用于遷移甚至出現(xiàn)了負(fù)遷移的現(xiàn)象,負(fù)遷移經(jīng)常出現(xiàn)在當(dāng)用于遷移的源數(shù)據(jù)域和目標(biāo)數(shù)據(jù)域相差很大的情況下,這說明在實(shí)驗(yàn)中,挑選一個合適的層用于遷移是十分重要的。

  上圖是層遷移實(shí)驗(yàn)中的訓(xùn)練曲線,可以看到,由DEPARA挑選出來的層,遷移效果要好于其他層。而且,相比于DNN-Source,DNN-ImageNet中的訓(xùn)練曲線明顯更加地平滑,這也恰恰證明了遷移性越好的模型,在遷移時所花費(fèi)的重訓(xùn)練的成本就越低,也越容易地遷移至目標(biāo)任務(wù)?!霸凇瓵I訓(xùn)練師助手’的指導(dǎo)下,單個AI模型的生產(chǎn)周期從1個月降到1天,我們就能更快地發(fā)現(xiàn)不同的內(nèi)容風(fēng)險。”析策希望,欺凌、色情、暴力、誤導(dǎo)等不良內(nèi)容不會成為人們消費(fèi)大量圖像視頻內(nèi)容付出的代價,AI 技術(shù)可以更快地把不良內(nèi)容擋在第一線。論文地址:https://arxiv.org/abs/2003.07496代碼地址:https://github.com/zju-vipa/DEPARA

(轉(zhuǎn)載)

標(biāo)簽:AI 我要反饋 
2024世界人工智能大會專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]