我們生活的世界是一個(gè)三維物理空間。直觀而言,三維視覺(jué)系統(tǒng)有助于機(jī)器更好地感知和理解真實(shí)的三維場(chǎng)景。三維視覺(jué)作為計(jì)算機(jī)視覺(jué)的一個(gè)比較重要的研究方向,在過(guò)去幾十年間得到了扎實(shí)和系統(tǒng)地發(fā)展,形成了一套完整的理論體系。近年來(lái),隨著三維成像技術(shù)如激光雷達(dá)、TOF 相機(jī)及結(jié)構(gòu)光等的快速發(fā)展,三維視覺(jué)研究再次成為研究熱點(diǎn)。
在上一篇文章中,我們對(duì) 3D 視覺(jué)基礎(chǔ)相關(guān)內(nèi)容進(jìn)行了概括性總結(jié),本文我們將進(jìn)行比較深層次的介紹,主要涉及 3D 視覺(jué)算法及其應(yīng)用領(lǐng)域。
3D 目標(biāo)檢測(cè)多模態(tài)融合算法
基于視覺(jué)的目標(biāo)檢測(cè)是環(huán)境感知系統(tǒng)的重要組成,也是計(jì)算機(jī)視覺(jué)、機(jī)器人研究等相關(guān)領(lǐng)域的研究熱點(diǎn)。三維目標(biāo)檢測(cè)是在二維目標(biāo)檢測(cè)的基礎(chǔ)上,增加目標(biāo)尺寸、深度、姿態(tài)等信息的估計(jì)。相比于二維目標(biāo)檢測(cè),三維目標(biāo)檢測(cè)在準(zhǔn)確性、實(shí)時(shí)性等方面仍有較大的提升空間。
在目標(biāo)檢測(cè)領(lǐng)域,2D 目標(biāo)檢測(cè)方面發(fā)展迅速,出現(xiàn)了以 R-CNN、Fast RCNN、Mask RCNN 為代表的 two-stage 網(wǎng)絡(luò)架構(gòu),以及以 YOLO、SSD 為代表的 one-stage 網(wǎng)絡(luò)架構(gòu)。然而由于 2D 圖像缺乏深度、尺寸等物理世界參數(shù)信息,在實(shí)際應(yīng)用中存在一定局限性,往往需要結(jié)合激光雷達(dá)、毫米波等傳感器實(shí)現(xiàn)多模態(tài)融合算法,以增強(qiáng)系統(tǒng)的可靠性。
因此,研究者們提出了許多 3D 目標(biāo)檢測(cè)方法,根據(jù)傳感器的不同大致可分為視覺(jué)、激光點(diǎn)云以及多模態(tài)融合三大類。其中視覺(jué)又包括單目視覺(jué)和雙目視覺(jué)(深度視覺(jué))兩類;激光點(diǎn)云包括三維點(diǎn)云投影和三維空間體素特征;而多模態(tài)融合實(shí)現(xiàn)了激光點(diǎn)云與視覺(jué)的融合。下面將對(duì)現(xiàn)階段比較流行的 3D 目標(biāo)檢測(cè)多模態(tài)融合算法研究進(jìn)行介紹。
論文 1《3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection》提出了 voxel-based 的多模態(tài)特征融合。
論文地址:
https://arxiv.org/pdf/2004.12636
該研究提出的網(wǎng)絡(luò)整體結(jié)構(gòu)如下所示??梢钥闯錾舷聝蓪臃謩e是對(duì)激光雷達(dá)點(diǎn)云信息的特征提取 (voxel-backbone) 和對(duì)多張圖像信息的特征提取與模態(tài)轉(zhuǎn)換。這里需要提及的是由于圖像信息僅僅只有一個(gè)方向的視野,但是多個(gè)攝像頭的圖像存在視野重疊,所以多張圖像的信息融合是為了保證整個(gè)環(huán)視點(diǎn)云場(chǎng)景的特征都被涉及到。
論文 2《PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module》提出了 point-based 的多模態(tài)融合方法。
論文地址:
https://arxiv.org/pdf/1911.06084.pdf
該研究提出了一種新穎的融合方法——基于點(diǎn)的 Attentive Cont-conv Fusion(PACF)模塊,該模塊將多傳感器特征直接融合在 3D 點(diǎn)上。除了連續(xù)卷積外,該研究還添加了 Point-Pooling 和 Attentive Aggregation 等組件,以使融合特征更具表達(dá)力。
此外,基于 PACF 模塊,研究人員提出了一個(gè)叫做 Pointcloud-Image RCNN(PI-RCNN)的 3D 多傳感器多任務(wù)網(wǎng)絡(luò),該網(wǎng)絡(luò)負(fù)責(zé)圖像分割和 3D 目標(biāo)檢測(cè)任務(wù)。PI-RCNN 使用分段子網(wǎng)從圖像中提取全分辨率語(yǔ)義特征圖,然后通過(guò)功能強(qiáng)大的 PACF 模塊融合多傳感器特征。受益于 PACF 模塊的效果和分段模塊的有表達(dá)力的語(yǔ)義特征,PI-RCNN 使 3D 目標(biāo)檢測(cè)的性能大大改善。在 KITTI 3D 檢測(cè)基準(zhǔn)測(cè)試中的實(shí)驗(yàn)揭示了 PACF 模塊和 PI-RCNN 的有效性,并且該方法可以在 3D AP 的度量標(biāo)準(zhǔn)上達(dá)到最新水平。
網(wǎng)絡(luò)框架如上圖所示,實(shí)現(xiàn)過(guò)程可分為以下四步:
- 1. 使用圖像語(yǔ)義分割網(wǎng)絡(luò),獲得圖像的語(yǔ)義特征;
- 2. 檢測(cè)子網(wǎng)絡(luò) – 1 從原始點(diǎn)云中得到目標(biāo)的三維候選框;
- 3. PACF 模塊融合點(diǎn)云特征和圖像語(yǔ)義特征;
- 4. 檢測(cè)子網(wǎng)絡(luò) – 2 得到最終的三維檢測(cè)結(jié)果。
論文 3《EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection》提出了一種新的融合模塊,在不需要任何圖像注釋的情況下,對(duì)具有語(yǔ)義特征的點(diǎn)特征進(jìn)行逐點(diǎn)增強(qiáng)。該研究設(shè)計(jì)了一個(gè)端到端的可學(xué)習(xí)框架 EPNet 來(lái)集成兩個(gè)組件。在 KITTI 和 SUN-RGBD 數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,EPNet 優(yōu)于當(dāng)前最優(yōu)方法。其網(wǎng)絡(luò)結(jié)構(gòu)點(diǎn)云分支是 point encoder-decoder 結(jié)構(gòu),圖像分支則是一個(gè)逐步 encoder 的網(wǎng)絡(luò),并且逐層做特征融合。
論文地址:
https://arxiv.org/pdf/2007.08856.pdf
網(wǎng)絡(luò)整體框架如下圖所示:
點(diǎn)云特征和圖像特征融合過(guò)程如下圖所示:
融合過(guò)程由三部分組成:grid generator、image sampler 和 LI-Fusion layer。
- 1. 根據(jù)三維激光與圖像的外參,grid generator 將三維激光的每一個(gè)點(diǎn)投影到原始圖像上;
- 2. image sampler 利用圖像特征圖與原始圖像的比例關(guān)系以及雙線性插值,得到對(duì)應(yīng)的圖像特征圖;
- 3. 為了減少圖像的遮擋以及深度不確定性對(duì)融合造成的影響,LI-Fusion layer 利用點(diǎn)云特征估計(jì)對(duì)應(yīng)圖像特征的重要程度并篩選,具體是將點(diǎn)云特征與圖像特征經(jīng)過(guò)若干操作學(xué)習(xí)得到權(quán)重值,權(quán)重值與圖像特征相乘再與點(diǎn)云特征串聯(lián)作為最后的融合特征。
論文 4《CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection》提出了一種新穎的 Camera-LiDAR 目標(biāo)候選(CLOC)融合網(wǎng)絡(luò)。CLOC 融合提供了一種低復(fù)雜度的多模態(tài)融合架構(gòu),顯著提高了單模態(tài)檢測(cè)器的性能。CLOC 在非最大抑制 (NMS) 之前對(duì)任意 2D 和任意 3D 的組合輸出候選項(xiàng)進(jìn)行操作,并被訓(xùn)練利用它們的幾何和語(yǔ)義一致性,以產(chǎn)生更準(zhǔn)確的最終 3D 和 2D 檢測(cè)結(jié)果,最后采用 maxpooling 的方式選擇最終的融合結(jié)果。
論文地址:
https://arxiv.org/pdf/2009.00784.pdf
網(wǎng)絡(luò)架構(gòu)圖如下所示:
該網(wǎng)絡(luò)由三個(gè)階段完成:1)2D 和 3D 的目標(biāo)檢測(cè)器分別提出 proposal;2)將兩種模態(tài)的 proposal 編碼成稀疏張量;3)對(duì)于非空的元素采用二維卷積做對(duì)應(yīng)的特征融合。
3D 人臉檢測(cè)基本流程
人臉識(shí)別技術(shù)在國(guó)家安全、軍事安全、金融安全、共同安全等領(lǐng)域具有廣泛的應(yīng)用前景。人的大腦具備天生的人臉識(shí)別能力,可以輕易地分辨出不同的人。但是計(jì)算機(jī)自動(dòng)識(shí)別人臉技術(shù)卻面臨著巨大的挑戰(zhàn)。由于二維人臉識(shí)別不可避免地受到光照、姿態(tài)和表情的影響,這些因素已成為二維人臉識(shí)別技術(shù)向前發(fā)展的最大障礙。
隨著結(jié)構(gòu)光和立體視覺(jué)等三維成像技術(shù)的日益成熟,越來(lái)越多的人臉識(shí)別研究人員將目光投向了三維人臉識(shí)別技術(shù)領(lǐng)域。
目前 3D 人臉識(shí)別技術(shù)的主要技術(shù)流程如下:
- (1) 3D 人臉數(shù)據(jù)獲??;
- (2) 3D 人臉數(shù)據(jù)的預(yù)處理,包括人臉的檢測(cè)、切割、去噪等;
- (3) 3D 人臉數(shù)據(jù)的特征提??;
- (4) 構(gòu)建適合的分類器對(duì)人臉數(shù)據(jù)進(jìn)行判別。
目前 3D 人臉識(shí)別算法分為如下幾個(gè)類別:
- 1. 基于空域匹配的識(shí)別算法
- 2. 基于局部特征匹配的識(shí)別算法
- 3. 基于整體特征匹配的識(shí)別算法
- 4. 基于模型擬合的識(shí)別算法
- 5. 基于 3D+2D 雙模態(tài)的識(shí)別算法
3D 數(shù)據(jù)集簡(jiǎn)介
目前 3D 公開數(shù)據(jù)少,遠(yuǎn)少于 2D 圖片;3D 高精度數(shù)據(jù)集只能靠昂貴的設(shè)備采集,過(guò)程繁瑣。這里我們來(lái)了解一下現(xiàn)有的 3D 數(shù)據(jù)集。
1. BU-3DFE (Binghamton University 3D Facial Expression) 數(shù)據(jù)集:該數(shù)據(jù)庫(kù)目前包含 100 位受試者(女性 56%,男性 44%),年齡從 18 歲到 70 歲不等,包含各種種族,包括白人、黑人、東亞人、中東人等。
下載地址:
http://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html
2. KITTI 數(shù)據(jù)集:由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合創(chuàng)辦,是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集。該數(shù)據(jù)集用于評(píng)估 3D 目標(biāo)檢測(cè)和 3D 跟蹤等計(jì)算機(jī)視覺(jué)技術(shù)在車載環(huán)境下的性能。
下載地址:
http://www.cvlibs.net/datasets/kitti/raw_data.php
3. Cityscapes 數(shù)據(jù)集:這是一個(gè)較新的大規(guī)模數(shù)據(jù)集,它包含 50 個(gè)不同城市的街道場(chǎng)景中所記錄的各種立體視頻序列,除了一組較大的 20000 個(gè)弱注釋幀外,還具有 5000 幀的高質(zhì)量像素級(jí)注釋。
下載地址:
https://www.cityscapes-dataset.com/
4. Matterport 3D 重建數(shù)據(jù)集:該數(shù)據(jù)集包含 10800 個(gè)對(duì)齊的三維全景視圖(RGB + 每個(gè)像素的深度),來(lái)自 90 個(gè)建筑規(guī)模場(chǎng)景的 194400 個(gè) RGB + 深度圖像。
下載地址:https://matterport.com/
5. 3D 人臉重建相關(guān)數(shù)據(jù)集:該數(shù)據(jù)集包含用 iPhone X 拍攝的 100 名受試者的 2054 張 2D 圖像,以及每個(gè)受試者的單獨(dú) 3D 頭部掃描。
下載地址:
https://ringnet.is.tue.mpg.de/challenge
6. TUM 數(shù)據(jù)集:主要包含多視圖數(shù)據(jù)集、3D 物體的識(shí)別分割、場(chǎng)景識(shí)別、3D 模型匹配、vSALM 等各個(gè)方向的數(shù)據(jù)。
下載地址:https://vision.in.tum.de/
人臉數(shù)據(jù)庫(kù)匯總官網(wǎng)指路:
http://www.face-rec.org/databases/
面部 3D 重建
人臉重建是計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)比較熱門的方向,3D 人臉相關(guān)應(yīng)用也是近年來(lái)短視頻領(lǐng)域的新玩法。不管是 Facebook 收購(gòu)的 MSQRD,還是 Apple 研發(fā)的 Animoji,底層技術(shù)都與三維人臉重建有關(guān)。
面部 3D 重建,可以理解為從一張或多張 2D 圖像中重建出人臉的 3D 模型。對(duì)于面部 3D 重建,我們先來(lái)直觀地感受一下效果。
如下動(dòng)圖所示,最右邊的重建人臉除了沒(méi)有皺紋以外,身份特征和面部表情都和原圖相當(dāng)一致,陰影效果也高度還原。只是眼睛部分似乎不太對(duì),顯得渾濁無(wú)神。
論文《FML: Face Model Learning from Videos》效果展示
下圖中的合成效果也很不錯(cuò),表情動(dòng)態(tài)很到位。只是可能實(shí)驗(yàn)者的眼神實(shí)在太有戲,AI 表示無(wú)力模仿。
論文《FML: Face Model Learning from Videos》效果展示
論文《3D Face Reconstruction from A Single Image Assisted by 2D Face Images in the Wild》效果展示
論文《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network 》效果展示
直觀感受完面部 3D 重建效果后,我們?cè)賮?lái)探究模型背后的算法。
傳統(tǒng) 3D 人臉重建方法,大多立足于圖像信息,如基于圖像亮度、邊緣信息、線性透視、顏色、相對(duì)高度、視差等一種或多種信息建模技術(shù)進(jìn)行 3D 人臉重建。
三維變形模型(3DMM)
隨著技術(shù)的發(fā)展,研究者們又提出了基于模型的 3D 人臉重建方法,這是目前較為流行的 3D 人臉重建方法。3D 模型主要用三角網(wǎng)格或點(diǎn)云來(lái)表示,現(xiàn)下流行的模型有通用人臉模型(CANDIDE-3)和三維變形模型(3DMM)及其變種模型,基于它們的 3D 人臉重建算法既有傳統(tǒng)算法也有深度學(xué)習(xí)算法。
三維變形模型(3DMM)是一個(gè)通用的三維人臉模型,用固定的點(diǎn)數(shù)來(lái)表示人臉。其核心思想是人臉可以在三維空間中一一匹配,并且可以由其他許多幅人臉正交基加權(quán)線性相加而來(lái)。三維空間中的每一點(diǎn) (x, y, z) 實(shí)際上都是由三維空間三個(gè)方向的基量 (1, 0, 0),(0, 1, 0),(0, 0, 1) 加權(quán)相加所得,只是權(quán)重分別為 x,y,z。
每一個(gè)三維人臉都可以在一個(gè)數(shù)據(jù)庫(kù)中的所有人臉組成的基向量空間中進(jìn)行表示,而求解任意三維人臉的模型,實(shí)際上等價(jià)于求解各個(gè)基向量的系數(shù)問(wèn)題。每一張人臉可以表示為形狀向量和紋理向量的線性疊加。
任意人臉模型均可以由數(shù)據(jù)集中的 m 個(gè)人臉模型進(jìn)行加權(quán)組合,如下:
其中 Si、Ti 表示數(shù)據(jù)庫(kù)中第 i 張人臉的形狀向量和紋理向量。但是我們實(shí)際在構(gòu)建模型的時(shí)候不能使用這里的 Si、Ti 作為基向量,因?yàn)樗鼈冎g并非正交相關(guān),所以接下來(lái)需要使用 PCA 進(jìn)行降維分解。
- (1) 首先計(jì)算形狀和紋理向量的平均值;
- (2) 中心化人臉數(shù)據(jù);
- (3) 分別計(jì)算協(xié)方差矩陣;
- (4) 求得形狀和紋理協(xié)方差矩陣的特征值α、β和特征向量 si、ti。
上式可以轉(zhuǎn)換為下式:
其中第一項(xiàng)是形狀和紋理的平均值,而 si、ti 則是 Si、Ti 減去各自平均值后的協(xié)方差矩陣的特征向量,它們對(duì)應(yīng)的特征值按照大小進(jìn)行降序排列。
等式右邊仍然是 m 項(xiàng),但是累加項(xiàng)降了一維,減少了一項(xiàng)。si、ti 都是線性無(wú)關(guān)的,取其前幾個(gè)分量可以對(duì)原始樣本做很好地近似,因此能夠大大減少需要估計(jì)的參數(shù)數(shù)目,并不損失準(zhǔn)確率。
基于 3DMM 的方法都是在求解這幾個(gè)系數(shù),隨后的很多模型在這個(gè)基礎(chǔ)上添加了表情、光照等系數(shù),但是原理與之類似。
參考鏈接:
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至2161241530@qq.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。如若轉(zhuǎn)載,請(qǐng)注明出處:http://www.parklessenses.com/uncategorized/40729/