讓AI訓(xùn)練AI，阿里和浙大的“AI訓(xùn)練師助手”是這樣煉成的

2025China.cn 2020年03月30日

　　不久前，人力資源社會保障部發(fā)布了一種炙手可熱的新職業(yè)：AI訓(xùn)練師。沒想到，浙江大學(xué)與阿里安全的人工智能訓(xùn)練師馬上創(chuàng)造出一個 “AI訓(xùn)練師助手”，高效打造AI深度模型，應(yīng)對海量應(yīng)用場景的增加，讓AI訓(xùn)練模型面對新場景時不用從頭學(xué)習(xí)，直接從已經(jīng)存在的模型上遷移，迅速獲得別人的知識、能力，成為全新的AI模型，而且能將模型周期從一個月縮短為一天。隨后，闡述這種讓AI訓(xùn)練AI，提升模型生產(chǎn)效率的論文被計算機(jī)視覺頂會CVPR 2020 接收(Oral)。

　　現(xiàn)在，視頻、直播成為互聯(lián)網(wǎng)內(nèi)容消費(fèi)的重要載體，內(nèi)容創(chuàng)作爆發(fā)，創(chuàng)作形式自由度高帶來了許多潛在安全威脅。好消息是，AI深度模型被大規(guī)模用于多媒體內(nèi)容的識別、檢測、理解上，用以狙擊含有不良內(nèi)容的傳播。為了提升檢測的準(zhǔn)確性，面向不同場景必須使用不同的AI模型。但是，由于媒體場景、細(xì)分領(lǐng)域多，如何才能高效生產(chǎn)不同AI 深度模型?

　　目前實(shí)現(xiàn)這一目標(biāo)最流行的方法是遷移學(xué)習(xí)。浙江大學(xué)和阿里安全發(fā)現(xiàn)，兩個預(yù)訓(xùn)練深度模型所提取的特征之間的遷移能力可由它們對應(yīng)的深度歸因圖譜之間的相似性來衡量。相似程度越高，從不同的預(yù)訓(xùn)練深度模型中獲得的特征相關(guān)性就越大，特征的相互遷移能力也就越強(qiáng)。而且，“AI訓(xùn)練師助手”還知道從什么模型遷移知識，用模型的哪個部分遷移能最好地完成任務(wù)。也就是說，他們發(fā)現(xiàn)了讓小白模型向AI深度模型學(xué)習(xí)的高效學(xué)習(xí)方法。

問題：如何才能取得最優(yōu)遷移效果

　　得益于大量高質(zhì)量標(biāo)注數(shù)據(jù)、高容量的模型架構(gòu)、高效率的優(yōu)化算法以及高性能計算硬件的發(fā)展，過去十年里深度學(xué)習(xí)在計算機(jī)視覺、自然語言處理以及生物信息學(xué)等領(lǐng)域取得了舉世矚目的進(jìn)步。隨著深度學(xué)習(xí)取得了前所未有的成功，越來越多的科研人員和工業(yè)工作者愿意開源他們訓(xùn)練好的模型來鼓勵業(yè)界進(jìn)一步的研究。目前，預(yù)訓(xùn)練好的深度學(xué)習(xí)模型可以說是無處不在。

　　阿里安全圖靈實(shí)驗(yàn)室高級算法專家析策認(rèn)為，我們不僅處在一個大數(shù)據(jù)時代，同時也正在步入一個“大模型”時代。

　　與大數(shù)據(jù)相似，海量模型形成的模型倉庫也蘊(yùn)含了巨大的潛在價值。這些預(yù)訓(xùn)練的深度模型已經(jīng)消耗了大量的訓(xùn)練時間以及大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)等昂貴的計算資源。如果這些預(yù)訓(xùn)練的模型能夠被合理地重新使用，那么在解決新任務(wù)時的對訓(xùn)練時間以及訓(xùn)練數(shù)據(jù)的依賴就會顯著降低。目前實(shí)現(xiàn)這一目標(biāo)最流行的方法就是遷移學(xué)習(xí)。在基于深度模型的跨任務(wù)的遷移學(xué)習(xí)中，模型微調(diào)是一種使用最廣泛并且有效的方法。

　　該方法以一個預(yù)先訓(xùn)練的模型作為起點(diǎn)，固定模型的一部分參數(shù)以降低模型優(yōu)化空間，利用新任務(wù)有限的數(shù)據(jù)訓(xùn)練剩余的參數(shù)，使得模型能夠在新任務(wù)上獲得成功。

　　雖然這種方法在一些具體問題中取得了一定的成效，但是當(dāng)前這些遷移學(xué)習(xí)方法忽略了兩個重要的問題：面對海量的預(yù)訓(xùn)練好的深度模型，選擇哪個模型解決當(dāng)前任務(wù)能夠取得最好的效果;給定一個預(yù)訓(xùn)練好的模型，應(yīng)該固定哪些層的參數(shù)以及優(yōu)化哪些層才能夠取得最優(yōu)的遷移效果。

　　目前的模型選擇通常是盲目地采用ImageNet的預(yù)訓(xùn)練模型。然而，ImageNet預(yù)訓(xùn)練的模型并不總是對所有任務(wù)產(chǎn)生令人滿意的性能，特別是當(dāng)任務(wù)與ImageNet數(shù)據(jù)上定義的任務(wù)有顯著差異時。而模型微調(diào)時參數(shù)優(yōu)化臨界點(diǎn)的選擇往往依賴于經(jīng)驗(yàn)。但是，由于最優(yōu)的優(yōu)化臨界點(diǎn)取決于各種因素，如任務(wù)相關(guān)性和目標(biāo)數(shù)據(jù)量等，依賴經(jīng)驗(yàn)做出的選擇往往很難保證最優(yōu)。

不同任務(wù)下深度神經(jīng)網(wǎng)絡(luò)提取特征的可遷移性

　　為了解決上述問題，浙江大學(xué)和阿里安全發(fā)起了這項(xiàng)研究：在不同任務(wù)下訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)提取的特征之間的可遷移性。Zamir等人[1]對不同任務(wù)間的遷移關(guān)系作了初步的研究。他們提出了一種全計算的方法，稱為taskonomy，來測量任務(wù)的可遷移性。然而，taskonomy中有三個不可忽視的局限性，極大地阻礙了它在現(xiàn)實(shí)問題中的應(yīng)用。

首先，它的計算成本高得令人望而卻步。在計算給定任務(wù)集合中兩兩任務(wù)之間的遷移關(guān)系時，計算成本會隨集合中任務(wù)數(shù)量的增加而呈平方性地增長，當(dāng)任務(wù)數(shù)量很大時，計算成本會變得非常昂貴。

第二個限制是，它采用遷移學(xué)習(xí)來建立任務(wù)之間的遷移關(guān)系，這仍然需要大量的標(biāo)記數(shù)據(jù)來訓(xùn)練轉(zhuǎn)移模型。然而，在許多情況下，我們只能獲取訓(xùn)練好的模型，并不能夠獲取到相應(yīng)的訓(xùn)練數(shù)據(jù)。最后，taskonomy只考慮不同模型或任務(wù)之間的可遷移性，而忽略了不同層之間的可遷移性，不能夠用來解決微調(diào)模型時臨界點(diǎn)的選擇問題。

衡量從不同預(yù)訓(xùn)練深度模型中提取到特征間的可遷移性，主要障礙是深度模型自身的黑箱性質(zhì)。由于從不同的預(yù)訓(xùn)練深度模型中學(xué)習(xí)到的特征是不可解釋的，而且處在不同的嵌入空間中，直接計算特征間的可遷移性非常困難。

為了推導(dǎo)預(yù)訓(xùn)練深度模型中提取到特征間的可遷移性，研究者們首先給出了可遷移性的嚴(yán)格定義。

在該定義下，預(yù)訓(xùn)練模型的選擇和模型微調(diào)時臨界點(diǎn)的選擇實(shí)際上是該遷移性定義下的兩個特例。然后，這篇論文提出了深度歸因圖譜(DEeP Attribution gRAph， DEPARA)來表示在預(yù)訓(xùn)練深度模型中學(xué)習(xí)到的知識。在深度歸因圖譜中，節(jié)點(diǎn)對應(yīng)于輸入，并由模型在輸入數(shù)據(jù)上歸因形成的歸因圖[2]來表達(dá)。邊表示輸入數(shù)據(jù)之間的關(guān)聯(lián)，通過它們在預(yù)訓(xùn)練深度模型特征空間中的相似度來度量，如圖1所示。

由于不同預(yù)訓(xùn)練深度模型中的深度歸因圖譜是在相同的輸入集上定義的，它們實(shí)際上處于相同的空間內(nèi)，因此兩個預(yù)訓(xùn)練深度模型所提取的特征之間的遷移能力可直接由它們對應(yīng)的深度歸因圖譜之間的相似性來衡量。相似程度越高，從不同的預(yù)訓(xùn)練深度模型中獲得的特征相關(guān)性就越大，特征的相互遷移能力也就越強(qiáng)。這項(xiàng)研究通過大量實(shí)驗(yàn)證明了該方法應(yīng)用于任務(wù)間遷移關(guān)系度量以及模型微調(diào)時臨界點(diǎn)選擇的有效性。

遷移性定義

　　直接計算上述公式定義的遷移性需要大量標(biāo)注數(shù)據(jù)且非常耗時。本文提出通過計算影響遷移性的兩個重要因素，來做近似估計。

　　1. 包含性：要使得特征遷移在目標(biāo)任務(wù)上取得較為理想的效果，源任務(wù)的訓(xùn)練的模型生成的特征空間應(yīng)該包含解決目標(biāo)任務(wù)所需的足夠信息。包容性是遷移學(xué)習(xí)取得成功的一個比較基本的條件。

2. 易用性：特征空間應(yīng)該已經(jīng)經(jīng)過充分的學(xué)習(xí)并抽象到比較高的層次，這樣才能夠在有限的標(biāo)注數(shù)據(jù)下很好地解決目標(biāo)任務(wù)。如果不要求特征的易用性，那么原始的輸入總是比經(jīng)過深度網(wǎng)路處理的特征包含更多的信息。然而由于原始的數(shù)據(jù)沒有經(jīng)過任何知識提取與抽象，并不能夠很好的遷移到新任務(wù)中。

深度歸因圖譜

如何利用深度歸因圖來解決兩個遷移性問題

　　1. 任務(wù)之間的遷移性

　　2. 層的遷移性

實(shí)驗(yàn)

　　1. DEPARA的可視化

　　上圖是對于不同視覺任務(wù)所生成的深度歸因圖的可視化結(jié)果。從圖中可以看出有一些任務(wù)生成非常相似的歸因圖以及樣本之間的關(guān)系，然而有些生成的結(jié)果則非常不同。例如，Rgb2depth和Rgb2mist生成了非常相似的歸因圖和關(guān)系圖，然而它們的結(jié)果和自編碼器的結(jié)果非常不同。事實(shí)上，在任務(wù)分類法中，Rgb2depth和Rgb2mist彼此間具有很高的遷移性，但它們到自編碼器的遷移性相對較低。此外，任務(wù)分類法采用層次聚類的方式把任務(wù)劃分為四組：2D任務(wù)(藍(lán)色)，3D任務(wù)(綠色)，幾何任務(wù)(紅色)以及語義任務(wù)(品紅色)。圖中選取了2個3D任務(wù)，3個2D任務(wù)，2個幾何任務(wù)以及2個語義任務(wù)作可視化。任務(wù)分類法在這些任務(wù)上生成的任務(wù)相似樹繪制在任務(wù)名稱的上方。從圖可以看出，在每個任務(wù)組內(nèi)部，深度歸因圖譜生成較為相似的節(jié)點(diǎn)以及邊。

　　2. 模型遷移度量

　　論文中采用PR曲線來評估方法效果，實(shí)驗(yàn)結(jié)果如上圖，可以看到論文中提出的深度歸因圖方法(DEPARA)與taskonomy(Oracle)實(shí)驗(yàn)的結(jié)果具有很高的相似性，且通過消融實(shí)驗(yàn)可知，只采用圖中節(jié)點(diǎn)相似性(DEPARA-V)和只采用圖中邊相似性(DEPARA-E)計算得到的遷移性準(zhǔn)確度都遠(yuǎn)遠(yuǎn)不如圖相似性(DEPARA)，這意味著節(jié)點(diǎn)和邊都對結(jié)果起著重要作用，是不可分割的。另外，論文中的方法(DEPARA)好于SOTA(RSA)，證明了這是一種更加有效的計算遷移性的方案。

　　3. 層遷移度量

　　在Syn2Real-C數(shù)據(jù)集(包含有合成圖像的數(shù)據(jù)域以及真實(shí)圖像的數(shù)據(jù)域)上進(jìn)行層遷移的實(shí)驗(yàn)，分別考慮了兩種源模型(在合成數(shù)據(jù)域上訓(xùn)練的模型和在ImageNet[6]上預(yù)訓(xùn)練的模型)來進(jìn)行遷移至真實(shí)數(shù)據(jù)域。在遷移時，只利用了1%(0.01-T)和10%(0.1-T)的標(biāo)注數(shù)據(jù)來進(jìn)行訓(xùn)練，觀察遷移效果和深度歸因圖相似性之間的關(guān)系。根據(jù)上圖中顏色的深淺可知，對于兩種不同的源模型，遷移效果越好的層，計算得到的深度歸因圖相似性越高，遷移效果越差的層，計算得到的深度歸因圖相似性也越低，驗(yàn)證了論文中方法的準(zhǔn)確性。有趣的是，對于在ImageNet上預(yù)訓(xùn)練和合成數(shù)據(jù)域上預(yù)訓(xùn)練的源模型來說，盡管具有最好的遷移效果的層并不相同，但是論文中的方法都能很好地進(jìn)行指示。而且，對于1%和10%兩種不同的模式，這種方法通過設(shè)定不同的λ超參數(shù)，也依舊能挑選出遷移效果最好的那些層。從效果上來看，無論是從節(jié)點(diǎn)V還是邊E的相似性比較來看，DNN-ImageNet都比DNN-Source具有更好的遷移性，這是因?yàn)楸M管DNN-Source和目標(biāo)任務(wù)學(xué)習(xí)的是同一物體的圖像，但是他們的數(shù)據(jù)域相差太大，導(dǎo)致需要花費(fèi)更多的成本去重建目標(biāo)任務(wù)的特征空間。值得注意的是，有些層用于遷移甚至出現(xiàn)了負(fù)遷移的現(xiàn)象，負(fù)遷移經(jīng)常出現(xiàn)在當(dāng)用于遷移的源數(shù)據(jù)域和目標(biāo)數(shù)據(jù)域相差很大的情況下，這說明在實(shí)驗(yàn)中，挑選一個合適的層用于遷移是十分重要的。

　　上圖是層遷移實(shí)驗(yàn)中的訓(xùn)練曲線，可以看到，由DEPARA挑選出來的層，遷移效果要好于其他層。而且，相比于DNN-Source，DNN-ImageNet中的訓(xùn)練曲線明顯更加地平滑，這也恰恰證明了遷移性越好的模型，在遷移時所花費(fèi)的重訓(xùn)練的成本就越低，也越容易地遷移至目標(biāo)任務(wù)?！霸凇瓵I訓(xùn)練師助手’的指導(dǎo)下，單個AI模型的生產(chǎn)周期從1個月降到1天，我們就能更快地發(fā)現(xiàn)不同的內(nèi)容風(fēng)險。”析策希望，欺凌、色情、暴力、誤導(dǎo)等不良內(nèi)容不會成為人們消費(fèi)大量圖像視頻內(nèi)容付出的代價，AI 技術(shù)可以更快地把不良內(nèi)容擋在第一線。論文地址：https://arxiv.org/abs/2003.07496代碼地址：https://github.com/zju-vipa/DEPARA

（轉(zhuǎn)載）

標(biāo)簽：AI

我要反饋

相關(guān)鏈接

5G到底能為抗疫做點(diǎn)啥?這篇文章終于講清楚了!

3月24日，工信部網(wǎng)站發(fā)布關(guān)于推動5G加快發(fā)展的五方面18條措施，其中包括推動“5G+醫(yī)療健康”創(chuàng)新發(fā)展。文中指出，要開展5G智慧醫(yī)療系統(tǒng)建設(shè)，搭建5G智慧醫(yī)療示范網(wǎng)和醫(yī)療平臺，加快5G... [詳情]

2020年03月30日 5G 抗疫

2020~2030：人工智能將占據(jù)主導(dǎo)地位的十年

機(jī)器人學(xué)家和科幻小說家艾薩克·阿西莫夫(IsaacAsimov)在他的小說《機(jī)器人》(1950年)中預(yù)測，到2030年，機(jī)器人和人工智能將被禁止進(jìn)入地球。相反，我們看到了人工智能的巨大進(jìn)步，而且... [詳情]

2020年03月30日人工智能

2020華南國際工業(yè)博覽會（SCIIF）

基本信息展會名稱：2020華南國際工業(yè)博覽會（SCIIF）展會官網(wǎng)：會展場館：深圳國際會展中心（寶安新館）展覽時間：2020年6月2-5日主辦單位：德國漢... [詳情]

2020年03月30日 2020華南國際工業(yè)博覽會