人類的視覺(jué)機(jī)制是一個(gè)能夠進(jìn)行三維信息采樣的系統(tǒng),它能夠?qū)⑷S空間中的物體投影到我們的視網(wǎng)膜上形成二維圖像,而我們則通過(guò)解析這些二維圖像來(lái)感知和理解物體的三維特性,如形態(tài)、大小、距離、紋理以及運(yùn)動(dòng)狀態(tài)(包括方向和速度)?;谶@一原理,機(jī)器視覺(jué)技術(shù)應(yīng)運(yùn)而生。機(jī)器視覺(jué)系統(tǒng)是指用計(jì)算機(jī)來(lái)實(shí)現(xiàn)人的視覺(jué)功能,即用計(jì)算機(jī)來(lái)實(shí)現(xiàn)對(duì)客觀的三維世界的識(shí)別,是一個(gè)“光、機(jī)、電、算、 軟”等技術(shù)高度集成的系統(tǒng)。未來(lái)人形機(jī)器人也將大量依賴視覺(jué)感知來(lái)獲取信息。
本文將系統(tǒng)梳理機(jī)器視覺(jué)相關(guān)的內(nèi)容,分為五部分:
核心組件;
工作流程;
四大功能;
機(jī)器視覺(jué)典型的技術(shù)方案;
人形機(jī)器人視覺(jué)典型的技術(shù)方案。
3D視覺(jué)傳感器構(gòu)成(以Astra系列為例),來(lái)源:奧比中光
機(jī)器視覺(jué)系統(tǒng)由五大核心組件構(gòu)成:光學(xué)成像、圖像傳感器、圖像處理、輸入輸出(IO)以及顯示模塊。在光學(xué)成像模塊中,通過(guò)精心設(shè)計(jì)的光源與光路布局,物體空間的信息經(jīng)由鏡頭精確投射至成像面,從而捕獲目標(biāo)物的物理特性。圖像傳感器模塊則承擔(dān)著將光信號(hào)轉(zhuǎn)化為電信號(hào)的關(guān)鍵任務(wù)。圖像處理模塊依托CPU為核心或?qū)S眯畔⑻幚硇酒?,結(jié)合完善的圖像處理方案與算法庫(kù),高效提取并解析圖像中的關(guān)鍵數(shù)據(jù)。IO模塊則負(fù)責(zé)將機(jī)器視覺(jué)系統(tǒng)的處理結(jié)果與數(shù)據(jù)向外輸出。而顯示模塊則為用戶提供了直觀監(jiān)控系統(tǒng)運(yùn)行狀態(tài)與圖像可視化的便捷途徑。國(guó)產(chǎn)替代進(jìn)口的進(jìn)程預(yù)計(jì)將遵循由易到難的順序逐步推進(jìn),首先實(shí)現(xiàn)光源、相機(jī)、鏡頭的國(guó)產(chǎn)化替代,隨后逐步攻克開(kāi)發(fā)軟件領(lǐng)域的國(guó)產(chǎn)替代難題。
1、工業(yè)相機(jī):捕捉和分析對(duì)象的核心部件
工業(yè)相機(jī)作為將光信號(hào)轉(zhuǎn)化為電信號(hào)的關(guān)鍵設(shè)備,廣泛應(yīng)用于自動(dòng)化流水線中以實(shí)現(xiàn)精確測(cè)量與判斷。工業(yè)相機(jī)一般安裝在機(jī)器流水線上代替人眼來(lái)做測(cè)量和判斷,通過(guò)數(shù)字圖像攝取目標(biāo)轉(zhuǎn)換成圖像信號(hào),傳送給專用的圖像處理系統(tǒng),圖像系統(tǒng)對(duì)這些信號(hào)進(jìn)行各種運(yùn)算來(lái)抽取目標(biāo)的特征,進(jìn)而根據(jù)判別的結(jié)果來(lái)控制現(xiàn)場(chǎng)的設(shè)備動(dòng)作。它根據(jù)傳感器結(jié)構(gòu)分為線陣與面陣,按輸出信號(hào)分為模擬相機(jī)和數(shù)字相機(jī),按響應(yīng)頻率則分為可見(jiàn)光(普通)相機(jī)、、紅外相機(jī)和紫外相機(jī)等類型。其核心部件圖像傳感器主要分為CCD和CMOS兩大類,后者因集成放大器與模數(shù)轉(zhuǎn)換,正逐漸取代CCD成為主流。當(dāng)前,國(guó)產(chǎn)化進(jìn)程加快,國(guó)內(nèi)品牌如大恒圖像、??禉C(jī)器人等在中低端市場(chǎng)已初具規(guī)模,而高端市場(chǎng)仍由國(guó)外品牌主導(dǎo),但國(guó)產(chǎn)替代趨勢(shì)明顯。
鏡頭是機(jī)器視覺(jué)圖像采集的核心部件,對(duì)成像質(zhì)量至關(guān)重要。它將目標(biāo)成像在圖像傳感器的光敏面上,分辨率、對(duì)比度、景深以及像差等指標(biāo)對(duì)成像質(zhì)量具有關(guān)鍵性影響。機(jī)器視覺(jué)系統(tǒng)處理的所有圖像信息均通過(guò)鏡頭得到,鏡頭的質(zhì)量直接影響到視覺(jué)系統(tǒng)的整體性能。鏡頭種類繁多,按功能和視角可分為定焦、變焦、變光圈及普通、廣角、遠(yuǎn)攝等類型,還有遠(yuǎn)心、顯微、微距、紫外、紅外等特殊用途鏡頭。隨著光電子技術(shù)與移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、AI的快速發(fā)展,光學(xué)鏡頭的應(yīng)用已從傳統(tǒng)領(lǐng)域拓展至安防監(jiān)控、機(jī)器人、數(shù)碼產(chǎn)品、智能駕駛、智能家居、VR/AR設(shè)備等多領(lǐng)域,為行業(yè)持續(xù)發(fā)展提供新動(dòng)力。
光源在機(jī)器視覺(jué)圖像采集中扮演關(guān)鍵角色,它影響成像質(zhì)量的重要因素,它的作用是突出物體的特點(diǎn),抑制不相關(guān)特征,提高被探測(cè)區(qū)域和未探測(cè)區(qū)域的反差,并保證光源有足夠的亮度和穩(wěn)定性,從而保證圖像的成像質(zhì)量。選擇適合的光源至關(guān)重要,需考慮反射與吸收效果,同時(shí)機(jī)器視覺(jué)光源對(duì)照度、均勻性和穩(wěn)定性有更高要求。按類別和形狀,光源有多種分類,按照類別區(qū)分,光源可分為 LED 光源、鹵素?zé)粢约案哳l熒光燈;按照形狀區(qū)分,光源也可分為環(huán)形、條形、平面、線等形狀。全球視覺(jué)照明市場(chǎng)原由海外企業(yè)主導(dǎo),但中國(guó)廠商如奧普特、沃德普、銳視光電、緯朗光電等已崛起,與國(guó)際廠商同臺(tái)競(jìng)技。市場(chǎng)可分為三梯隊(duì),第一梯隊(duì)以CCS和奧普特為代表,市場(chǎng)份額超5%;第二梯隊(duì)以美國(guó) AI、中國(guó)銳視光電、中國(guó)康視達(dá)等企業(yè)為代表,市場(chǎng)份額在1%-5%之間;第三梯隊(duì)則以日本 Moritex、中國(guó)沃德普和中國(guó)緯朗光電等企業(yè)為代表,包括市場(chǎng)份額不足1%。
4、圖像處理軟件:以算法為核心競(jìng)爭(zhēng)力
機(jī)器視覺(jué)系統(tǒng)通過(guò)算法分析傳感器生成的數(shù)字圖像,經(jīng)過(guò)圖像提取、特征突出、特征分析、規(guī)范比較等步驟做出決策。機(jī)器視覺(jué)軟件如同系統(tǒng)“大腦”,負(fù)責(zé)識(shí)別、定位、測(cè)量等功能,分為底層算法和二次開(kāi)發(fā)軟件包兩類,前者是包含大量處理算法的工具庫(kù),用以開(kāi)發(fā)特定應(yīng)用,主要使用者為集成商與設(shè)備商。在中國(guó)市場(chǎng),機(jī)器視覺(jué)軟件以自主研發(fā)或開(kāi)源平臺(tái)二次開(kāi)發(fā)為主,MVTec的Halco、海康機(jī)器人的Vision Master和康耐視的Vision Pro占據(jù)市場(chǎng)前列,對(duì)外采購(gòu)品牌軟件的情況相對(duì)較少。
圖像采集:通過(guò)攝像頭或其他成像設(shè)備(如CMOS和CCD相機(jī))捕捉到目標(biāo)物體的二維或三維圖像信息。這些圖像可以是可見(jiàn)光、紅外、紫外、X射線等多種形式,根據(jù)應(yīng)用場(chǎng)合的不同選擇合適的成像方式。
圖像處理:采集到的圖像信號(hào)被傳送給專用的圖像處理系統(tǒng),進(jìn)行數(shù)字化轉(zhuǎn)換。這個(gè)過(guò)程會(huì)涉及到對(duì)像素分布、亮度、顏色等圖像信息被轉(zhuǎn)成數(shù)字信號(hào)。
圖像分析:圖像處理系統(tǒng)運(yùn)用各種算法對(duì)數(shù)字化后的信號(hào)進(jìn)行運(yùn)算,以提取目標(biāo)的關(guān)鍵特征,如物體的形狀、紋理、顏色、尺寸等,為后續(xù)的物體識(shí)別和分類提供數(shù)據(jù)支持。
圖像輸出:根據(jù)分析的結(jié)果,輸出相應(yīng)的信息,如判斷物體是否合格、尺寸是否符合標(biāo)準(zhǔn)等,并將這些結(jié)果傳遞給后續(xù)的控制或執(zhí)行系統(tǒng),實(shí)現(xiàn)精準(zhǔn)的物料抓取、裝配、焊接等自動(dòng)化作業(yè),以及無(wú)人機(jī)自主導(dǎo)航、自動(dòng)駕駛路徑規(guī)劃等功能。
機(jī)器視覺(jué)主要集中在四大功能:識(shí)別、測(cè)量、定位和檢測(cè)。
識(shí)別:機(jī)器視覺(jué)能夠識(shí)別圖像或視頻中的特定物體、符號(hào)、文字或人臉等。這通常涉及特征提取、模式匹配和分類算法。識(shí)別功能在自動(dòng)化生產(chǎn)線上的產(chǎn)品識(shí)別、安防監(jiān)控中的人臉識(shí)別以及智能交通中的車牌識(shí)別等方面都有廣泛應(yīng)用。
測(cè)量:機(jī)器視覺(jué)能夠精確測(cè)量物體的尺寸、形狀、位置以及表面特征等。通過(guò)圖像處理技術(shù),可以計(jì)算出物體的實(shí)際尺寸、角度、距離等參數(shù)。這在質(zhì)量控制、精密制造和機(jī)器人導(dǎo)航等領(lǐng)域尤為重要。
定位:機(jī)器視覺(jué)能夠確定物體在圖像或空間中的準(zhǔn)確位置。這通常涉及圖像匹配、特征點(diǎn)檢測(cè)和坐標(biāo)變換等技術(shù)。定位功能在自動(dòng)化裝配、機(jī)器人抓取以及無(wú)人駕駛汽車的路徑規(guī)劃等方面發(fā)揮著關(guān)鍵作用。
檢測(cè):機(jī)器視覺(jué)能夠檢測(cè)圖像中的異常、缺陷或特定目標(biāo)。通過(guò)圖像分析算法,可以識(shí)別出產(chǎn)品表面的瑕疵、生產(chǎn)線上的異物或安全隱患等,如裂縫、凹陷、劃痕、異物、缺失部件等。檢測(cè)功能在質(zhì)量控制、安全檢查以及環(huán)境監(jiān)測(cè)等領(lǐng)域具有廣泛應(yīng)用。
機(jī)器視覺(jué)系統(tǒng)構(gòu)造,來(lái)源:《2022 年中國(guó)機(jī)器視覺(jué)產(chǎn)業(yè)發(fā)展白皮書》
機(jī)器視覺(jué)典型的技術(shù)方案
不同應(yīng)用領(lǐng)域或場(chǎng)景對(duì)視覺(jué)的測(cè)量范圍、測(cè)量精度、尺寸和功耗等性能要求均不同,根據(jù)成像維度的差異,主要被劃分為2D視覺(jué)技術(shù)和3D視覺(jué)技術(shù)兩大類。
2D 視覺(jué)技術(shù):2D視覺(jué)技術(shù),歷經(jīng)數(shù)十年的發(fā)展,其分辨率實(shí)現(xiàn)了從數(shù)十萬(wàn)到數(shù)億的巨大飛躍,使得圖像的色彩還原更加逼真,圖像質(zhì)量也顯著提升。它通過(guò)攝像頭捕捉平面圖像,并依賴圖像分析或比對(duì)來(lái)識(shí)別物體。但僅限于獲取表面紋理信息,無(wú)法獲取物體與相機(jī)之間的距離信息,無(wú)法進(jìn)行三維測(cè)量,且易受光照和顏色/灰度變化影響。
3D 視覺(jué)技術(shù):3D視覺(jué)技術(shù)提供豐富維度信息,包括旋轉(zhuǎn)、俯仰、橫擺等,能真實(shí)還原立體世界并實(shí)現(xiàn)三維尺寸精確測(cè)量,是2D技術(shù)的有效補(bǔ)充。它增強(qiáng)了工業(yè)機(jī)器人的環(huán)境感知能力,拓寬了應(yīng)用場(chǎng)景,被視為視覺(jué)技術(shù)發(fā)展史上的重大突破。3D視覺(jué)技術(shù)作為機(jī)器人感知的最先進(jìn)、最重要的方法,根據(jù)成像原理的不同,可進(jìn)一步劃分為光學(xué)和非光學(xué)兩大類。其中,光學(xué)方法因其高效、準(zhǔn)確的特點(diǎn)而得到廣泛應(yīng)用。光學(xué)3D視覺(jué)技術(shù)包括但不限于飛行時(shí)間(ToF)法、結(jié)構(gòu)光法、激光掃描法等多種方法。這些方法各有優(yōu)勢(shì),能夠滿足不同應(yīng)用場(chǎng)景對(duì)精度、速度、成本等方面的需求。
下表是對(duì)典型的四類視覺(jué)技術(shù)的簡(jiǎn)介:
人形機(jī)器人視覺(jué)典型的技術(shù)方案
當(dāng)前,人形機(jī)器人市場(chǎng)在全球范圍內(nèi)正經(jīng)歷著快速增長(zhǎng),眾多制造商已經(jīng)展示了他們的產(chǎn)品原型,并且一些行業(yè)先鋒已經(jīng)開(kāi)始籌備大規(guī)模生產(chǎn)。在人形機(jī)器人的研發(fā)與設(shè)計(jì)過(guò)程中,3D視覺(jué)傳感器已經(jīng)確立了其作為主流視覺(jué)解決方案的地位,各類深度相機(jī)被廣泛采納。有些公司選擇將激光雷達(dá)與3D視覺(jué)傳感器融合使用,例如Agility Robotics的Digit、宇樹(shù)的H1和智元的遠(yuǎn)征A1,這種組合顯著提升了機(jī)器人對(duì)環(huán)境感知和避障的能力。與此同時(shí),也有一部分制造商使用純攝像頭方案,如特斯拉的Optimus和1X Technologies的早期產(chǎn)品EVE。
下面是系統(tǒng)介紹幾種典型廠商人形機(jī)器人視覺(jué)方案:
1、特斯拉 Optimus:2D 視覺(jué)傳感器+FSD
特斯拉延續(xù)汽車以視覺(jué)為主技術(shù)路線,硬件成本低,對(duì)軟件算法要求高。Optimus 的 3D 傳感模塊以多目視覺(jué)為主,頭部使用三顆 Autopilot 攝像頭作為感知系統(tǒng):左肩和右肩各一顆攝像頭,提供高清的2D圖像信息,用于捕捉細(xì)節(jié)和進(jìn)行深度感知。前置中央還配置了一顆廣角魚眼攝像頭,其視角設(shè)計(jì)巧妙地模擬了人類的視覺(jué)范圍,實(shí)現(xiàn)了超過(guò)180度的前方場(chǎng)景覆蓋。
對(duì)于Optimus機(jī)器人而言,技術(shù)遷移過(guò)程中唯一的挑戰(zhàn)在于需要重新收集訓(xùn)練數(shù)據(jù)。特斯拉在這方面擁有顯著優(yōu)勢(shì),他們自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練體系,并組建了一支由全球1000多名專業(yè)人才構(gòu)成的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。這支團(tuán)隊(duì)每天對(duì)視頻數(shù)據(jù)中的物體進(jìn)行精細(xì)標(biāo)注,結(jié)合人工標(biāo)注的細(xì)致入微和自動(dòng)標(biāo)注的高效,僅需一次標(biāo)注,就能在“矢量空間”中自動(dòng)完成所有攝像頭多幀畫面的標(biāo)注工作。這為特斯拉積累了數(shù)以億計(jì)的高質(zhì)量、多樣化的原生數(shù)據(jù),這些數(shù)據(jù)是神經(jīng)網(wǎng)絡(luò)培訓(xùn)的重要基礎(chǔ)。特斯拉還采用了多任務(wù)學(xué)習(xí)HydraNets神經(jīng)網(wǎng)絡(luò)架構(gòu),這一架構(gòu)能夠巧妙地將攝像頭捕捉的畫面拼接起來(lái),并在視頻畫面的延遲和精準(zhǔn)度之間找到完美平衡。通過(guò)對(duì)環(huán)境和動(dòng)靜物體的逐幀分析,系統(tǒng)能夠深入了解物體的深度、速度等關(guān)鍵信息。這些信息隨后被用于機(jī)器人的學(xué)習(xí)過(guò)程,幫助它繪制出3D鳥(niǎo)瞰視圖,并形成包含4D空間和時(shí)間標(biāo)簽的“路網(wǎng)”,幫助車輛/機(jī)器人更準(zhǔn)確地理解環(huán)境,更精準(zhǔn)的尋找最優(yōu)路徑。
值得注意的是,Optimus不僅繼承了特斯拉車輛的FSD(全自動(dòng)駕駛)技術(shù),還融入了Autopilot相關(guān)的神經(jīng)網(wǎng)絡(luò)技術(shù)。其智能處理的核心是自主研發(fā)的AI訓(xùn)練Dojo D1芯片和超級(jí)計(jì)算機(jī)Dojo。這套系統(tǒng)能夠高效處理攝像頭采集的信息,并通過(guò)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)完成各種任務(wù)的識(shí)別和處理,所有這些工作都在其胸腔的FSD全套計(jì)算機(jī)上完成。


來(lái)源:車右智能、與非網(wǎng)、Tesla AI Day 2022-Bot
2、優(yōu)必選:四目系統(tǒng)及雙 RGBD 傳感器
優(yōu)必選 Walker X 采用基于多目視覺(jué)傳感器的三維立體視覺(jué)定位,其視覺(jué)模塊配備了四目視覺(jué)系統(tǒng)和兩個(gè)RGB-D傳感器:胸部采用了四目視覺(jué)設(shè)計(jì),而頭部和腰部則各配置了一個(gè)RGBD傳感器,此外,腰部還裝備了4個(gè)毫米波雷達(dá)以增強(qiáng)避障能力。
在導(dǎo)航與路徑規(guī)劃方面,Walker X采用了SLAM(即時(shí)定位與地圖構(gòu)建)視覺(jué)導(dǎo)航技術(shù),并結(jié)合了Coarse-to-fine(由粗到精)的多層規(guī)劃算法。通過(guò)第一視角的實(shí)景AR導(dǎo)航交互和2.5D立體避障技術(shù),它能夠在動(dòng)態(tài)環(huán)境中自主規(guī)劃并導(dǎo)航至全局最優(yōu)路徑。此外,Walker X還融合了基于深度學(xué)習(xí)的物體檢測(cè)與識(shí)別算法、人臉識(shí)別算法以及跨風(fēng)格人臉數(shù)據(jù)生成技術(shù),能夠在復(fù)雜多變的環(huán)境中準(zhǔn)確識(shí)別出人臉、手勢(shì)以及各類物體,從而實(shí)現(xiàn)對(duì)外部環(huán)境的豐富而準(zhǔn)確的理解與感知。
優(yōu)必選人形視覺(jué)方案,來(lái)源:優(yōu)必選
3、波士頓:RGB 攝像頭+TOF 深度相機(jī)
上一代液壓驅(qū)動(dòng)版本是RGB攝像頭 + 3D ToF深度相機(jī) +激光雷達(dá)。今年推出的最新一代電機(jī)驅(qū)動(dòng)產(chǎn)品,沒(méi)查到到是否帶激光雷達(dá),初步推測(cè)是RGB攝像頭+3D ToF深度相機(jī)。
波士頓動(dòng)力 Atlas 視覺(jué)外觀,來(lái)源:車右智能
Atlas 使用 TOF 深度相機(jī)以每秒 15 幀的速度生成環(huán)境的點(diǎn)云,點(diǎn)云是測(cè)距的大規(guī)模集合。機(jī)器人感知算法用于將來(lái)自相機(jī)和激光雷達(dá)(LiDAR)等傳感器的數(shù)據(jù)轉(zhuǎn)換為對(duì)決策和規(guī)劃實(shí)際動(dòng)作有用的數(shù)據(jù)。Atlas 的感知軟件使用一種名為多平面分割的算法從點(diǎn)云中提取平面。多平面分割算法的輸入饋入到一個(gè)映射系統(tǒng)中,該系統(tǒng)為 Atlas 通過(guò)相機(jī)看到的各種不同對(duì)象構(gòu)建模型,Atlas 再基于它構(gòu)建的模型來(lái)規(guī)劃路徑。

深度相機(jī)拍攝的 Atlas 機(jī)器人的點(diǎn)云旋轉(zhuǎn)視圖
4、宇樹(shù)科技:3D 激光雷達(dá)+深度相機(jī)
宇樹(shù)的視覺(jué)解決方案當(dāng)前主要融合了結(jié)構(gòu)光技術(shù)、雙目或多目RGB傳感器,以及TOF(飛行時(shí)間)傳感器等多種技術(shù)組合。在Unitree H1機(jī)器人上,激光雷達(dá)被巧妙地安裝在機(jī)器人的后腦勺位置,這一設(shè)計(jì)使其能夠捕獲遠(yuǎn)距離且廣泛的環(huán)境信息。同時(shí),機(jī)器人的腦門上方則配備了深度相機(jī),專注于提供近距離且高度精確的深度數(shù)據(jù)。這種3D激光雷達(dá)與深度相機(jī)的強(qiáng)強(qiáng)聯(lián)合,賦予了Unitree H1卓越的環(huán)境感知能力。它不僅能夠自主移動(dòng)、準(zhǔn)確識(shí)別周圍環(huán)境,還能進(jìn)行有效的交互,即便在復(fù)雜多變的環(huán)境中,也能展現(xiàn)出卓越的導(dǎo)航和避障性能。
宇樹(shù)科技 G1 視覺(jué)方案,來(lái)源:宇樹(shù)科技公眾號(hào)
5、智元:RGBD 相機(jī)+激光雷達(dá)
360°激光雷達(dá)+6顆高清攝像頭融合感知,實(shí)現(xiàn)全景無(wú)盲區(qū)。RGB 攝像頭疊加 3D 視覺(jué)傳感器同時(shí)捕捉彩色圖像和深度圖像,采集物體的顏色、形狀以及距離信息,而激光雷達(dá)則提供了高精度的距離和幾何形狀信息。此外,遠(yuǎn)征系列機(jī)器人還采納了自動(dòng)駕駛領(lǐng)域的Occupancy前沿感知技術(shù),并融入SLAM算法,顯著增強(qiáng)了其對(duì)環(huán)境的理解和解析能力,使得機(jī)器人能夠在各種環(huán)境下實(shí)現(xiàn)全域安全自主導(dǎo)航,并具備出色的局部避障能力。
遠(yuǎn)征A2,來(lái)源:智元官網(wǎng)
6、小米:Mi-Sense 視覺(jué)系統(tǒng)(iToF +RGB)
小米發(fā)布的 CyberOne 機(jī)器人采用“AI 交互相機(jī)+Mi Sensense 自研空間視覺(jué)模組”方案,其中 Mi-Sense 深度視覺(jué)模組是由小米設(shè)計(jì),歐菲光協(xié)同開(kāi)發(fā)完成。根據(jù)歐菲光公開(kāi)的信息,其機(jī)器視覺(jué)深度相機(jī)模塊包含iToF模組、RGB模組,并可選配IMU模塊。在RGB+iToF的融合方案中,iToF技術(shù)雖然無(wú)法捕捉物體的顏色紋理細(xì)節(jié),但RGB相機(jī)卻能彌補(bǔ)這一不足,提供豐富的色彩和紋理信息。將RGB與iToF技術(shù)相結(jié)合,不僅能獲取物體的精確深度數(shù)據(jù),還能同時(shí)捕捉到物體的顏色紋理,從而極大地拓寬了機(jī)器人的應(yīng)用場(chǎng)景。具體來(lái)說(shuō),RGB信息可被用于物體的檢測(cè)與識(shí)別,而深度信息則助力機(jī)器人進(jìn)行環(huán)境建模和避障操作。
小米 Mi Sense 視覺(jué)技術(shù),來(lái)源:小米
綜上所述,人形機(jī)器人的視覺(jué)系統(tǒng)作為其感知外界、理解環(huán)境并與人類世界互動(dòng)的關(guān)鍵技術(shù),正經(jīng)歷著前所未有的快速發(fā)展。從基礎(chǔ)的圖像識(shí)別到復(fù)雜的三維場(chǎng)景重建,再到模仿人類視覺(jué)注意機(jī)制和情感理解的高級(jí)功能,技術(shù)的進(jìn)步不僅極大地提升了機(jī)器人的環(huán)境適應(yīng)能力和作業(yè)精度,也為實(shí)現(xiàn)更加自然流暢的人機(jī)交互奠定了堅(jiān)實(shí)基礎(chǔ)。隨著深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)以及傳感器技術(shù)的不斷融合與創(chuàng)新,未來(lái)的人形機(jī)器人將擁有更加敏銳、智能且富有“洞察力”的視覺(jué)系統(tǒng),能夠在更廣泛的領(lǐng)域內(nèi)發(fā)揮重要作用,從工廠服務(wù)、家庭服務(wù)、醫(yī)療輔助到災(zāi)難救援,乃至太空探索,人形機(jī)器人及其視覺(jué)技術(shù)的進(jìn)步將持續(xù)推動(dòng)科技前沿,深刻改變我們的生活方式與工作模式,開(kāi)啟人機(jī)交互的新紀(jì)元。(來(lái)源焉知人形機(jī)器人)