智能駕駛丨自動駕駛深度感知技術(shù)對車和行人的檢測

ainet.cn 2020年11月25日

　　今天我主要想分享自動駕駛感知技術(shù)在探索的過程中，采用的傳統(tǒng)方法和深度學習方法。傳統(tǒng)方法不代表多傳統(tǒng)，深度學習也不代表多深度。它們有各自的優(yōu)點，也都能解決各自的問題，最終希望將其結(jié)合起來，發(fā)揮所有方法的優(yōu)點。

一、感知系統(tǒng)簡介

　　首先介紹下感知系統(tǒng)。感知可以被看作是對周圍世界建模的過程，比如車輛在行駛過程中，需要知道其他物體的地理位置、速度、運動方向、加速度等各種各樣的信息，自動駕駛系統(tǒng)接收這些信息之后，再通過后續(xù)的規(guī)劃和控制模塊來對車的運動做真正的調(diào)節(jié)。

　　感知可以類比為人類眼睛的功能，即觀察周圍世界的能力：

　　◆ 采用的傳感器：激光雷達、照相機、毫米波雷達等。

　　◆ 幀信號處理：多傳感器深度融合、物體分割、物體檢測、物體分類。

　　◆ 物體追蹤：當有多幀信息之后，可以推算速度、加速度、方向等更有意義的信息，甚至可以用多幀的信息調(diào)整物體分割的結(jié)果。

　　◆ 道路特征分析：對道路特征進行理解，比如交通信號燈、交通指示牌等。

　　感知可以認為是自動駕駛系統(tǒng)的基礎(chǔ)部分，假如感知不到這個世界，就談不上對這個世界做出反應(yīng)，更談不上后續(xù)的路徑規(guī)劃和車輛控制的過程。

二、2D物體檢測

　　我今天主要介紹關(guān)于物體檢測部分，因為必須先有了準確的物體檢測和分割結(jié)果，我們才能對物體做出準確的分類、追蹤等。我首先介紹下2D物體檢測。

　　2D物體檢測是指以2D信息作為輸入(input)的檢測過程，而典型的2D輸入信息來自于照相機。

傳統(tǒng)2D物體檢測方法及缺點

　　傳統(tǒng)的 2D 信息檢測方法是使用檢測框遍歷圖片，把對應(yīng)的圖片位置摳出來之后，進行特征提取，用 Harris計算子檢測角點信息，Canny計算子檢測邊緣信息等。物體特征被提取并聚集在一起后，通過做分類器(比如SVM)，我們可以判斷提取的圖中是否存在物體，以及物體的類別是什么。

　　但傳統(tǒng) 2D 物體檢測方法存在不足：

　　● 檢測物體時，需要預(yù)置檢測框，對不同物體需要設(shè)置不同的檢測框。

　　● 自動駕駛需要高級的組合特征，而傳統(tǒng)方法提取的特征維度比較低，對后續(xù)的分類會造成比較大的影響。

基于深度學習的2D物體檢測

　　卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)，解決了部分傳統(tǒng)2D物體檢測方法的不足。

　　卷積神經(jīng)網(wǎng)絡(luò)首先是多層感知機加卷積操作的結(jié)合，它的特征提取能力非常不錯。因為卷積神經(jīng)網(wǎng)絡(luò)經(jīng)常會有幾十、上百個卷積，使其具備高維特征提取能力。

　　其次，通過 ROI pooling和RPN，整張圖可以共享同樣的特征，物體檢測時不用遍歷整張圖片，還可以在單次操作中對圖片中所有物體進行檢測。這種檢測方法使物體檢測模型真正具備了應(yīng)用于實際場景中的性能。

　　目前基于卷積神經(jīng)網(wǎng)絡(luò)的2D物體檢測有兩類分支：

　　◆ Anchor Based Methods：跟傳統(tǒng)方法比較類似，先預(yù)置檢測框，檢測過程則是對預(yù)設(shè)框的擬合過程。

　　● RCNN(fast，faster)

　　● SSD(DSSD)

　　● YOLO(v1，v2，v3)

　　● RetinaNET

　　◆ Anchor Free Methods：直接對照特征金字塔的每個位置，回歸對應(yīng)位置上，判斷物體是否存在、它的大小是多少等。這類方法是2018年底開始大量出現(xiàn)的，也是未來的一個發(fā)展方向。

　　● CornerNet

　　● FSAF

　　● FCOS

　　這是路測場景中的一個真實檢測案例(上圖)，2D 物體檢測已經(jīng)應(yīng)用于檢測路面上一些小物體。

　　同時遠距離物體檢測也是2D物體檢測中關(guān)注的重點。受限于激光雷達和毫米波雷達的物理特征，遠距離物體缺乏良好的檢測效果，而照相機在這方面比較有優(yōu)勢，可以和其他的檢測方法進行互補。

2D物體檢測面臨的問題

　　物體相互遮擋

　　但是采用照相機做 2D 物體檢測不可避免要面臨一些問題。因為照相機回饋的圖像只有兩個維度，當兩個物體堆疊時，對一個神經(jīng)網(wǎng)絡(luò)而言，圖像的特征就比較聚集。

　　一般做物體檢測的過程，會用一些非極大值抑制的方法，對檢測結(jié)果進行后處理，當特征結(jié)果非常密集的時候，這種方法往往會受到影響。

　　成像質(zhì)量波動

　　照相機是可見光設(shè)備，因此會受到光照強度的影響，成像質(zhì)量出現(xiàn)波動。但我們總是希望圖中的特征不管是在哪個位置，都能得到足夠的表達。

　　例如，2D圖像中遠處的車燈和路燈很難區(qū)分開，導(dǎo)致可能都被檢測為車或者路燈。在這種情況下，特征總會難以區(qū)分。

　　測距

　　另一個的問題就是測距問題。因為照相機是被動光源的設(shè)備，它不具備主動測距的能力。

　　如果希望借助照相機進行物體測距，就需要做很多的假設(shè)或者求解一些病態(tài)的數(shù)學問題，用以估算車與物體的距離。但這個結(jié)果通常不如主動測距設(shè)備的結(jié)果，比如激光雷達和毫米波雷達。

三、3D物體檢測

　　正是因為照相機存在上面提到的問題，所以我們物體檢測也使用了其他的傳感器，將它們的結(jié)果共同結(jié)合起來，最終達到更可靠的檢測效果。

　　什么是3D物體檢測?

　　3D物體檢測，顧名思義就是把3D的一些數(shù)據(jù)坐標，聚集起來進行物體檢測。比如激光雷達，類似于我們拿一支激光筆不斷掃描周圍，它會提供相對明顯的信息。當把3D數(shù)據(jù)聚集起來之后，我們可以用來推測周圍物體的位置，大小，朝向等等。

　　3D物體檢測一個很大的好處就是，我們在2D物體檢測中很難區(qū)分的物體，有了3D數(shù)據(jù)提供的距離信息之后，將更容易從距離的維度上分開。這樣感知系統(tǒng)在進行物體分割的時候能使用的信息更多，達到一個更好的工作效果。

傳統(tǒng)3D分割方法及限制

　　傳統(tǒng)的 3D 分割方法包括：

　　● Flood Fill

　　● DB scan

　　● Graph Cut

　　它主要是利用一些點的距離信息、密度信息或者點的一些天然屬性，比如它的強度，把物體聚類分割。

　　傳統(tǒng)分割方法也存在不少限制，首先是過度分割。

　　比如上圖中的異形車，由于車尾和車頭之間有縫隙，在 3D 檢測中，它可能會被分割成多個物體，因為點和點之間有間隙，在激光雷達檢測時呈現(xiàn)的是離散信息，就會出現(xiàn)過度分割。

　　傳統(tǒng)分割方法的另一個問題是分割不足。

　　我們將上圖出現(xiàn)的情況稱為“三人成車”，就是當三個人離的很近的時候，有可能被傳統(tǒng)分割方法識別成一輛車。

基于深度學習的3D分割方法

　　當深度學習與卷積神經(jīng)網(wǎng)絡(luò)引入到 3D 物體檢測中時，我們發(fā)現(xiàn)傳統(tǒng)3D分割方法遇到的問題得到較好解決。

　　首先讓點云信息進行特征工程，即將點的位置、反射強度、高級特征聚合在一起，組織成類似圖片或者圖的關(guān)系。隨后進行卷積神經(jīng)網(wǎng)絡(luò)特征提取，再進行多幀特征的聚合(它的意義是對運動的物體有一個更好的反映)，最后輸出物體的位置、聚類信息、物體速度。

　　通過上述深度學習方法，“三人成車”的情況得到避免。系統(tǒng)不僅可以提取人的距離關(guān)系，還可以提取到更多的高級信息，比如在點云變化中，人類的點云形似長的柱體，而自行車類似于小山一樣的點云分布，這樣感知系統(tǒng)可以了解這些障礙物不屬于同一物體，而將其割離開。

深度學習3D分割方法的限制

　　另一方面，我們也要認識到深度學習分割方法也可能面對的挑戰(zhàn)。

　　◆ 結(jié)果的不完全可控：首先卷積神經(jīng)網(wǎng)絡(luò)經(jīng)常有幾百層的卷積層，參數(shù)總量可能有百萬級，并且是自動學習的，這可能會導(dǎo)致對網(wǎng)絡(luò)的輸出缺少把控。換句話說，系統(tǒng)無法預(yù)期數(shù)據(jù)輸入(input)后會得到怎樣的數(shù)據(jù)輸出，于自動駕駛而言，這是比較致命的。因為自動駕駛對場景的召回率和精度有非常高要求，如果車輛在行駛中，前面的一位行人miss(丟失)，這是極其嚴重的隱患。

　　◆ 無法保證100%的召回(recall)：如上圖所示，垃圾桶和行人的特征其實非常相似，那么深度學習可能會出現(xiàn)把人學成了垃圾桶，最后導(dǎo)致行人在感知系統(tǒng)中出現(xiàn)丟失的情況。

　　◆ 易導(dǎo)致過擬合：由于卷積神經(jīng)網(wǎng)絡(luò)有非常好的特征提取能力，固定的數(shù)據(jù)集訓練可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)過擬合。例如同樣的數(shù)據(jù)集訓練后，在北京路測的表現(xiàn)很好，但是當?shù)竭_一個新的城市進行測試時，因為路面特征和北京有所區(qū)別，可能導(dǎo)致物體分割效果下降，這對感知系統(tǒng)非常不友好。

　　優(yōu)點兼得：傳統(tǒng)方法和深度學習方法的結(jié)合

　　為了解決分割方法的限制，我們的想法是將傳統(tǒng)方法和深度學習方法的結(jié)果進行結(jié)合：

　　◆ 使用深度學習的分割結(jié)果調(diào)整傳統(tǒng)分割方法的結(jié)果。

　　◆ 使用傳統(tǒng)分割方法的結(jié)果補足深度學習結(jié)果的召回。

　　◆ 基于多幀追蹤的概率模型融合：比如利用馬爾可夫分布的特點、貝葉斯的方法對多幀數(shù)據(jù)進行一定的平滑，以得到更好的效果。

　　通過傳統(tǒng)方法和深度學習方法的相互結(jié)合與補充，我們最終可以實現(xiàn)優(yōu)點兼具的物體檢測策略。

　　做自動駕駛真的是一個很崎嶇的旅程，不斷的解決問題之后又出現(xiàn)新的問題，不過正是因為過程的艱難，才帶來更多的快樂。

　　來源：小馬智行第二場技術(shù)沙龍

（轉(zhuǎn)載）

標簽：智能駕駛自動駕駛

我要反饋

相關(guān)鏈接

人工智能在再生能源系統(tǒng)中起什么作用

能源一直都是現(xiàn)代社會進步的基礎(chǔ)，自從石油能源時代開始以來，全世界都在依靠豐富的石油能源推動著整個社會進步的車輪。基辛格曾經(jīng)說過：“誰掌握了石油，誰就控制了所有的國家”。雖... [詳情]

2020年11月25日人工智能再生能源系統(tǒng)

奧迪與阿里深化智能駕駛合作下一代車型平臺采用高德高精地圖

11月24日上午消息，阿里巴巴與奧迪共同宣布深化戰(zhàn)略合作，奧迪下一代車型平臺將基于高德的導(dǎo)航引擎及服務(wù)能力，定制化開發(fā)一套滿足中國用戶使用習慣的導(dǎo)航系統(tǒng);同時搭載天貓精靈車載智... [詳情]

2020年11月25日智能駕駛

5G成為邊緣計算的最強推動力

邊緣計算是數(shù)字世界中最令人興奮的新概念之一。利用占用空間很少的微型數(shù)據(jù)中心網(wǎng)絡(luò)，邊緣計算使系統(tǒng)能夠?qū)崟r收集并分析重要數(shù)據(jù)，而不會增加現(xiàn)有基礎(chǔ)設(shè)施的負擔。在物聯(lián)網(wǎng)系統(tǒng)中，通... [詳情]

2020年11月25日 5G 邊緣計算