基于語(yǔ)義的圖像分類研究是一個(gè)涉及模式識(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)及圖像處理等多個(gè)研究領(lǐng)域的交叉研究方向,并受到學(xué)術(shù)界的廣泛關(guān)注。近幾年來(lái),國(guó)際頂級(jí)學(xué)術(shù)期刊及頂級(jí)學(xué)術(shù)會(huì)議都發(fā)表了大量關(guān)于圖像語(yǔ)義分類的研究成果,其中,以視覺(jué)詞袋模型(Bag ofVisual Words, BoVW)和支持向量機(jī)為關(guān)鍵技術(shù)的圖像分類方法取得的性能最為突出,今天先就視覺(jué)詞袋模型這塊進(jìn)行詳細(xì)分享。
首先來(lái)看看,基于視覺(jué)詞袋模型的圖像分類系統(tǒng)由哪些結(jié)構(gòu)組成:
2003年,Sivic等提出了視覺(jué)詞袋模型。該模型將詞袋模型(Bag of Words, BoW)引入到了計(jì)算機(jī)視覺(jué)領(lǐng)域,取得了巨大成功。基于視覺(jué)詞袋模型的圖像分類系統(tǒng)主要由四個(gè)部分組成,如圖1所示,分別為:圖像底層特征提取、視覺(jué)詞典生成、視覺(jué)詞匯特征構(gòu)建和分類器。由圖1可知,要完成圖像分類,首先需要生成一個(gè)規(guī)模適當(dāng)?shù)囊曈X(jué)詞典,又稱為視覺(jué)碼本;然后,對(duì)于一幅待處理圖像,提取出相應(yīng)的底層特征后,依據(jù)視覺(jué)詞典來(lái)構(gòu)建該圖像的視覺(jué)詞匯特征;最后,將該視覺(jué)詞匯特征輸入已訓(xùn)練好的分類器中,得到該圖像類別。
圖1基于視覺(jué)詞袋模型的圖像分類系統(tǒng)結(jié)構(gòu)
第一:圖像底層特征提取
一幅圖像的內(nèi)容是由其所有像素點(diǎn)的值來(lái)表達(dá)的,圖像底層特征就是通過(guò)一些算子從圖像,像素值中提取出能夠表達(dá)圖像內(nèi)容信息的統(tǒng)計(jì)量,通常為高維向量。圖像底層特征可以用來(lái)幫助表達(dá)圖像內(nèi)容,分析圖像特性及完成基于視覺(jué)信息的其它計(jì)算處理工作。特征提取是實(shí)現(xiàn)圖像分類的重要環(huán)節(jié),提取的特征能否反映圖像的本質(zhì)屬性信息對(duì)分類系統(tǒng)的性能有著決定性的影響。
圖像底層特征需要考慮四個(gè)原則:區(qū)分能力、描述能力、計(jì)算復(fù)雜度以及存儲(chǔ)空間需求??偟膩?lái)說(shuō),底層特征可以分為全局特征和局部特征兩大類。全局特征指的是作用域?yàn)檎鶊D像的統(tǒng)計(jì)量,通常用來(lái)代表一幅圖像整體的色調(diào)、亮度、紋理特征等信息。而局部特征指的是作用域?yàn)閳D像局部區(qū)域的統(tǒng)計(jì)量,通常用來(lái)描述圖像中信息豐富區(qū)域的特性,可用于圖像中物體、目標(biāo)的檢測(cè)和定位。下面分別對(duì)圖像的全局特征和局部特征進(jìn)行簡(jiǎn)單的介紹。
1.全局特征
圖像全局特征的研究起步較早,技術(shù)相對(duì)比較成熟,主要包括顏色、紋理、形狀等特征,通常用于基于內(nèi)容的圖像檢索(Content-Based Image Retrieval, CBIR)。
(1)顏色特征
顏色特征作為最早被開(kāi)發(fā)利用的視覺(jué)特征,被廣泛用于圖像檢索中。與其它全局視覺(jué)特征相比,顏色特征具有特征提取和相似度計(jì)算簡(jiǎn)便的特點(diǎn),并且對(duì)圖像的尺度、方向、視角變化不敏感,具有較強(qiáng)的穩(wěn)健性。提取圖像的顏色特征,首先需要選擇合適的顏色色彩空間,較常用的顏色空間有RGB、HSV、YCrCb、HMMD等。全局顏色特征主要包括顏色直方圖、顏色矩、 顏色集、顏色熵等。全局顏色特征無(wú)法表達(dá)圖像顏色的空間分布信息,忽略了顏色在二維空間中的分布特性。因此,為了在圖像特征中加入圖像顏色的空間位置信息,一些新的顏色特征也被研究和應(yīng)用,主要有顏色聚合向量、顏色相關(guān)圖、顏色空間分布熵、馬爾科夫隨機(jī)特征等。
(2)紋理特征
紋理特征是所有物體表面共有的內(nèi)在特性,是一種不依賴于顏色或亮度的反映圖像同質(zhì)現(xiàn)象的視覺(jué)特征。紋理特征包含了物體表面結(jié)構(gòu)組織排列的重要信息,其表現(xiàn)為圖像上灰度或顏色分布的規(guī)律性。早在二十世紀(jì)七十年代,Tamura 等就從視覺(jué)感知心理學(xué)研究出發(fā),提出了紋理特征的表達(dá)。Tamura 紋理特征共包含6個(gè)分量:粗糙度、對(duì)比度、方向度、線性度、規(guī)整度和粗略度,分別對(duì)應(yīng)心理學(xué)角度上的6種屬性。Haralick 等利用共生矩陣描述圖像紋理特征的方法,從數(shù)學(xué)角度研究了圖像中灰度級(jí)的空間依賴性并采用矩陣的形式記錄這種依賴性的統(tǒng)計(jì)信息。此外,Gabor 過(guò)濾作為一種紋理特征,能夠在最大程度上減少空間和頻率的不確定性,同時(shí)還能有效地檢測(cè)出圖像中不同方向、角度上的邊緣和線條。
(3)形狀特征
形狀特征以對(duì)圖像中物體和區(qū)域的分割為基礎(chǔ),是圖像表達(dá)和圖像理解中的重要特征。直觀上,人們對(duì)物體形狀的變換、旋轉(zhuǎn)和縮放不敏感,所以,形狀特征也應(yīng)具有對(duì)應(yīng)的不變性。圖像形狀特征大致分為兩:區(qū)域特征和輪廓特征,前者基于整個(gè)形狀區(qū)域而后者則利用物體的邊界。比較典型的形狀特征主要包括傅立葉形狀描述符、形狀無(wú)關(guān)矩等。
2.局部特征
全局特征計(jì)算簡(jiǎn)單快捷,但存在明顯的缺點(diǎn):只考慮了圖像的全局統(tǒng)計(jì)信息,而忽略了圖像的局部相關(guān)信息。有文獻(xiàn)指出,人類視覺(jué)系統(tǒng)通常是將物體分成許多區(qū)域,并綜合各個(gè)區(qū)域的局部信息加以識(shí)別判斷。與全局特征相比,局部特征在圖像噪聲干擾較大、背景復(fù)雜、存在重疊及物體形變等情況下仍能保持良好的性能,逐漸成為近年來(lái)的研究熱點(diǎn)。常用的局部特征,都能夠?qū)D像的平移、亮度、旋轉(zhuǎn)和尺度等的變化保持一定的不變性,被廣泛應(yīng)用于圖像分類檢索、圖像配準(zhǔn)、目標(biāo)識(shí)別等領(lǐng)域。
圖像局部特征提取一般包含兩個(gè)步驟:局部特征點(diǎn)檢測(cè)和局部特征描述。局部特征點(diǎn)檢測(cè),是通過(guò)采用適當(dāng)?shù)臄?shù)學(xué)算子檢測(cè)圖像中梯度分布極值點(diǎn)所在的位置或區(qū)域。相關(guān)研究表明,這樣的極值點(diǎn)對(duì)應(yīng)的區(qū)域包含的視覺(jué)信息比較豐富,其對(duì)應(yīng)的特征向量也具有很強(qiáng)的區(qū)分能力和描述能力。目前,主要的局部特征點(diǎn)檢測(cè)算子有: DoG算子、 MSER算子、Hrris-Affine算子和Hessian-Affine算子。確定局部特征點(diǎn)對(duì)應(yīng)的局部區(qū)域后,需要生成有效的局部特征描述,通常為高維向量。
現(xiàn)階段,主流的局部特征主要有形狀上下文(Shape Contexts) 、尺度不變特征變換( Scale Invariant Feature Transform, SIFT)、PCA-SIFT、 梯度位置方向直方圖( Gradient Location and Orientation Histogram, GLOH) 等。為深入對(duì)比分析局部特征性能,Mikolajczyk等對(duì)幾種常用的局部特征進(jìn)行了性能測(cè)試,結(jié)果表明SIFT特征及在其基礎(chǔ)上得到的GLOH特征的性能最突出。
SIFT特征最初由Lowe教授于1999年提出,后在2004年Lowe教授又對(duì)其進(jìn)行了進(jìn)一步完善,是當(dāng)前最常用的局部特征。SIFT特征能夠有效描述圖像的局部區(qū)域信息,對(duì)圖像旋轉(zhuǎn)、亮度變化和尺度變化具有不變性,對(duì)仿射變化、視角變化和噪聲也具有較強(qiáng)的魯棒性。由于性能突出,SIFT特征被廣泛用于圖像分類、場(chǎng)景識(shí)別和目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)領(lǐng)域。
第二:視覺(jué)詞典生成
局部特征能夠表征圖像的底層視覺(jué)特性,被大量用于圖像內(nèi)容分析中。但是,圖像局部特征大多位于高維空間,不便于進(jìn)行存儲(chǔ)和后續(xù)計(jì)算。此外,高維向量通常還面臨稀疏、噪聲等“維數(shù)災(zāi)難”問(wèn)題,導(dǎo)致在低維空間表現(xiàn)良好的算法到了高維空間其性能急劇惡化。因此,需要將圖像的高維局部特征映射到低維空間,以便于存儲(chǔ)、索引和計(jì)算。將大量局部特征映射到低維空間,得到局部特征對(duì)應(yīng)的編碼,這些編碼就稱為視覺(jué)單詞,所有的視覺(jué)單詞構(gòu)成視覺(jué)詞典。
視覺(jué)詞典的優(yōu)劣直接影響著系統(tǒng)的性能表現(xiàn),如何構(gòu)建區(qū)分性好、表達(dá)能力強(qiáng)的視覺(jué)詞典,成為近些年來(lái)基于視覺(jué)詞袋模型的圖像分類研究的重點(diǎn)。根據(jù)視覺(jué)詞典生成過(guò)程中是否利用訓(xùn)練集中已知類別標(biāo)注等信息,可將視覺(jué)詞典生成方式分為兩類:無(wú)監(jiān)督生成視覺(jué)詞典和有監(jiān)督生成視覺(jué)詞典。
1.無(wú)監(jiān)督生成視覺(jué)詞典
無(wú)監(jiān)督生成視覺(jué)詞典,通常是利用成熟的主成分分析,無(wú)監(jiān)督聚類、哈希映射等方法將局部特征集映射為視覺(jué)單詞集合,得到視覺(jué)詞典。無(wú)監(jiān)督方法不需要用到局部特征的類別、標(biāo)注等信息,省略了復(fù)雜的學(xué)習(xí)過(guò)程,視覺(jué)詞典生成速度較快。
K-Means算法作為一種最常用的聚類方法,因其直觀易懂,被廣泛用于對(duì)圖像局部特征進(jìn)行聚類,生成視覺(jué)詞典。早在2003年,視覺(jué)詞袋模型的提出者就是采用K-Means聚類算法對(duì)局部特征集進(jìn)行聚類得到視覺(jué)詞典。針對(duì)傳統(tǒng)基于K-Means聚類生成視覺(jué)詞典存在的一些問(wèn)題,研究人員提出了一系列改進(jìn)方案。
為減弱局部特征高維度和稀疏性對(duì)K-Means聚類效果的影響,Zhong等提出了球形K-Means聚類算法( Spherical K-Means)。Bolovinou 等進(jìn)一步驗(yàn)證了采用該聚類方法生成的視覺(jué)詞典,其表達(dá)能力得到了增強(qiáng)。
為提高K-Means聚類收斂速度, Philbin提出了近似K-Means聚類算法( ApproximateK-Means, AKM),并將其應(yīng)用到目標(biāo)檢索領(lǐng)域。Wang 等提出了快速近似K-Means聚類算法(Fast Approximate K-Means, F-AKM),通過(guò)有效識(shí)別簇之間交界處的數(shù)據(jù)點(diǎn),減少了每輪迭代的計(jì)算量,進(jìn)一步加快了聚類收斂速度,提高了生成視覺(jué)詞典的效率。
此外,考慮到常用的局部特征,如SIFT 特征,實(shí)質(zhì)上都是高維直方圖,為提高高維直方圖相似性度量的有效性, Wu等提出了一種基于直方圖相交核( Histogram IntersectionKernel, HIK) 的K-Means聚類方法生成視覺(jué)詞典,并在目標(biāo)識(shí)別實(shí)驗(yàn)中驗(yàn)證了該視覺(jué)詞典的良好性能。
由于傳統(tǒng)K-Means聚類方法得到的視覺(jué)詞典內(nèi)部沒(méi)有任何索引結(jié)構(gòu),查找特定視覺(jué)單詞的復(fù)雜度較高,有研究者采用分層K-Means聚類算法( Hierarchical K-Means, HKM)生成詞匯樹(shù)( Vocabulary Tree)提高了視覺(jué)單詞的查找速度。
除了K-Means及其改進(jìn)算法,也有研究者采用高斯混合模型(Gaussian Mixture ModelGMM)生成視覺(jué)詞典。Avithis 等提出一種近似高斯混合模型(Approximate GaussianMixtures)并將其用于構(gòu)建大規(guī)模視覺(jué)詞典。該方法不但計(jì)算復(fù)雜度低,而且圖像檢索實(shí)驗(yàn)也表明采用該方法生成的視覺(jué)詞典具備良好的表達(dá)能力。
除了聚類方法,哈希映射方法也常被用來(lái)生成視覺(jué)詞典。Mu等借助位置敏感哈希(Locality Sensitive Hashing, LSH) 對(duì)局部特征進(jìn)行降維映射,生成了一組隨機(jī)化位置敏感詞典(Randomized Locality Sensitive Vocabularies, RLSV)。與K-Means方法相比,該方法計(jì)算復(fù)雜度低,能夠有效減弱“維數(shù)災(zāi)難”帶來(lái)的問(wèn)題。
2.有監(jiān)督生成視覺(jué)詞典
為進(jìn)一步提高視覺(jué)詞典的表達(dá)能力,越來(lái)越多的研究者開(kāi)始探討有監(jiān)督生成視覺(jué)詞典的方法。
Moosmann等借鑒極端隨機(jī)樹(shù)( Extremely,Randomized Trees, ERT)和隨機(jī)森林(Random Forests, RF)算法思想,構(gòu)建了一組隨機(jī)聚類森林( Randomized ClusteringForests)作為視覺(jué)詞典。該視覺(jué)詞典具有規(guī)模大,視覺(jué)單詞區(qū)分能力強(qiáng)的特點(diǎn),能夠很好地用來(lái)描述圖像內(nèi)容。Lopez-Sastrel等提出了一種新的聚類質(zhì)量評(píng)價(jià)準(zhǔn)則來(lái)評(píng)價(jià)視覺(jué)單詞的語(yǔ)義代表能力,并在聚類過(guò)程中引入局部特征的類別信息,大幅度提高了視覺(jué)詞典的區(qū)分能力和語(yǔ)義表達(dá)能力。Kontschieder等提出將訓(xùn)練集圖像中物體標(biāo)簽的拓?fù)湫畔⒄系诫S機(jī)森林的訓(xùn)練當(dāng)中,有效地提高了視覺(jué)詞典的區(qū)分能力,改善了圖像標(biāo)注的性能。此外,考慮到來(lái)自相同類別目標(biāo)的視覺(jué)特征之間具有一定的相關(guān)性,Zhou 等提出采用Fisher判別準(zhǔn)則對(duì)視覺(jué)詞典的生成過(guò)程進(jìn)行監(jiān)督,增強(qiáng)了特定視覺(jué)單詞對(duì)相應(yīng)類別目標(biāo)的表達(dá)能力,提高了目標(biāo)識(shí)別的準(zhǔn)確率。上述有監(jiān)督生成視覺(jué)詞典的方法,都利用了局部特征的類別信息,并設(shè)定相應(yīng)準(zhǔn)則指導(dǎo)視覺(jué)詞典的生成過(guò)程,達(dá)到提高視覺(jué)詞典表達(dá)能力的目的。
除了利用局部特征的類別信息,有的視覺(jué)詞典生成方法進(jìn)一步利用了局部特征間的相關(guān)性信息。有專家團(tuán)隊(duì)將圖像塊在特征域的相似性與空間域上的上下文語(yǔ)義共生關(guān)系相結(jié)合,構(gòu)造出語(yǔ)義含義更明確的視覺(jué)單詞,提高了視覺(jué)詞典性能,改善了場(chǎng)景分類的效果。
Zhou等采用了空間約束的分層模糊k-Mcans ( Hierarchical ruzzy k-Means with Spatial Constraints, FCM-HS)方法將SIFT特征的空間上下文信息植入到詞匯樹(shù)的生成過(guò)程中,提高了聚類準(zhǔn)確度,有效地減弱了視覺(jué)單詞的語(yǔ)義模糊度。Yang 等提出了一種有監(jiān)督的EM迭代算法,將局部特征的空間上下文信息作為邊信息(Side Information),對(duì)聚類生成視覺(jué)詞典的過(guò)程進(jìn)行約束,提高了視覺(jué)單詞的語(yǔ)義區(qū)分能力。
第三:視覺(jué)詞匯特征構(gòu)建
依據(jù)生成的視覺(jué)詞典,可以對(duì)圖像底層特征進(jìn)行編碼,將圖像的底層特征表示轉(zhuǎn)化為視覺(jué)單詞表示,構(gòu)建圖像的視覺(jué)詞匯特征。
傳統(tǒng)的視覺(jué)詞袋模型采用矢量量化( Vector Quantization)對(duì)底層特征編碼,從而構(gòu)建圖像的視覺(jué)詞匯直方圖。矢量量化的具體過(guò)程為:對(duì)于待編碼的底層特征,計(jì)算它與視覺(jué)詞典中各個(gè)視覺(jué)單詞間的距離,找到與其相距最近的視覺(jué)單詞代替這個(gè)底層特征。矢量量化的編碼方式簡(jiǎn)單易懂,也最容易被接受,因?yàn)槿藗兺ǔUJ(rèn)為相距越近的特征越相似。對(duì)圖像中所有底層特征進(jìn)行矢量量化,得到每個(gè)底層特征對(duì)應(yīng)的視覺(jué)單詞,再統(tǒng)計(jì)圖像中每個(gè)視覺(jué)單詞出現(xiàn)的頻次就可以得到視覺(jué)詞匯直方圖來(lái)表示該圖像。
Philbin等提出采用軟分配方法( Soft Assignment, SA)構(gòu)建視覺(jué)詞匯直方圖,將SIFT特征分配給多個(gè)與其相距較近的視覺(jué)單詞。該方法能夠有效地減小由量化誤差引起的噪聲,在一定程度上減弱了視覺(jué)單詞同義性和歧義性的負(fù)面影響。Jegou等應(yīng)用漢明嵌入(Hamming Embedding, HE)記錄SIFT特征在特征空間的粗略位置信息,彌補(bǔ)了傳統(tǒng)矢量量化方法的不足,有效提高了SIFT特征與視覺(jué)單詞的匹配準(zhǔn)確度。Jiang 等提出了軟加權(quán)方法(Soft-Weighting) 將SIFT特征分配給多個(gè)近鄰視覺(jué)單詞,并賦予不同的權(quán)重,提高了圖像分類的準(zhǔn)確率。Gemert 等提出了視覺(jué)單詞不確定性( Visual Word Uncertainty )模型,該模型同樣是采用軟分配策略對(duì)SIFT 特征編碼,進(jìn)一步驗(yàn)證了軟分配方法對(duì)于減弱視覺(jué)單詞同義性和歧義性影響的有效性。Liu等針對(duì)傳統(tǒng)軟分配方法中忽略了SIFT特征潛在的流形結(jié)構(gòu)的問(wèn)題,提出了一種局部軟分配(Localized Soft Assignment)的編碼方式,進(jìn)一步提升了視覺(jué)詞匯特征的準(zhǔn)確性,提高了圖像分類準(zhǔn)確率。Wang 等提出了一種多重分配( Multiple Assignment)和視覺(jué)單詞加權(quán)方案,同樣將SIFT特征與多個(gè)視覺(jué)單詞進(jìn)行匹配,有效地減弱了視覺(jué)單詞同義性和歧義性對(duì)圖像檢索性能的影響。Yu等提出了上下文嵌入直方圖(Context-embedded BoVW Histogram)模型,充分利用語(yǔ)義上下文信息減弱視覺(jué)單詞的歧義性。
另一方面,視覺(jué)詞匯直方圖作為圖像的視覺(jué)詞匯特征,只刻畫(huà)了視覺(jué)單詞在圖像中出現(xiàn)的頻次,忽略了視覺(jué)單詞在圖像中的空間信息。合理地利用視覺(jué)單詞的空間信息,有助于構(gòu)建信息量更豐富的視覺(jué)詞匯特征,從而提高圖像分類的準(zhǔn)確率。為此,研究人員進(jìn)行了深入研究。
Lazebnik等從原始的金字塔匹配出發(fā),提出了空間金字塔匹配模型。該模型能夠粗略利用視覺(jué)單詞在圖像中的絕對(duì)位置信息。Shotton等采用與金字塔匹配類似的方法開(kāi)發(fā)利用高維局部特征空間的分層結(jié)構(gòu)信息,提出了語(yǔ)義紋理基元森林方法,在圖像分類實(shí)驗(yàn)中性能表現(xiàn)出色。Sharma等對(duì)原始的空間金字塔匹配方法進(jìn)行了擴(kuò)展,提出了一種圖像空間自適應(yīng)分割方法,將局部特征的空間位置信息融入到視覺(jué)詞匯特征的構(gòu)建過(guò)程中。實(shí)驗(yàn)結(jié)果表明了該方法能夠很好地刻畫(huà)視覺(jué)單詞在圖像空間上的位置分布信息,提高了圖像表達(dá)的準(zhǔn)確度和圖像分類的效果。
第四:分類器
得到圖像的視覺(jué)詞匯特征后,為了完成圖像分類,需要建立分類器。分類器模型的研究已有很長(zhǎng)的歷史,廣義上可以劃分為兩個(gè)類別:生成模型(Generative Model)和判別模型(Discriminative Model)。
生成模型對(duì)樣本的聯(lián)合概率分布建模,得到聯(lián)合概率分布后,即可利用貝葉斯公式得到后驗(yàn)概率,從而完成分類。圖像分類中常用的分類模型主要有:概率隱語(yǔ)義分析( Probabilistic Latent Semantic Analysis, PLSA)模型以及隱狄利克雷分布(LatentDirichlet Allocation, LDA) 模型等。
判別模型根據(jù)訓(xùn)練樣本確定特征空間中分割兩類對(duì)象的決策邊界,從而完成兩類或多類的分類。判別模型沒(méi)有考慮樣本的聯(lián)合概率分布,直接對(duì)后驗(yàn)概率進(jìn)行求解。圖像分類中常用的分類模型主要有:支持向量機(jī)( Support Vector Machine, SVM)和條件隨機(jī)場(chǎng)(ConditionalRandom Field, CRF)等。
生成模型能夠很好地處理小樣本問(wèn)題,容易實(shí)現(xiàn)增量學(xué)習(xí),所包含的信息也比判別模型更豐富,但模型的學(xué)習(xí)過(guò)程比較復(fù)雜。判別模型對(duì)分類特征的選擇比較靈活,學(xué)習(xí)過(guò)程也相對(duì)簡(jiǎn)單,分類速度比較快。但該模型的決策邊界取決于訓(xùn)練樣本,對(duì)訓(xùn)練樣本數(shù)量需求較大。而且,一旦樣本出現(xiàn)變化,需要重新學(xué)習(xí)新的分類模型。
當(dāng)前,在圖像分類領(lǐng)域,支持向量機(jī)是主流的分類方法。支持向量機(jī)建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上,在解決有限樣本、高維和非線性模式識(shí)別問(wèn)題中表現(xiàn)出優(yōu)異性能。支持向量機(jī)的基本原理是,在線性可分情況下,尋找最優(yōu)分類超平面(Optimal Hyperplane),而對(duì)于線性不可分情況,首先通過(guò)非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新的高維空間中求取最優(yōu)分類超平面。
盡管視覺(jué)詞袋模型為現(xiàn)在研究熱點(diǎn),但是也不可避免的存在著一些問(wèn)題,我們一起來(lái)看一下:
現(xiàn)階段的圖像分類方法大都依賴于圖像的底層特征,而“語(yǔ)義鴻溝”的存在會(huì)導(dǎo)致計(jì)算機(jī)無(wú)法準(zhǔn)確地從語(yǔ)義層面理解圖像,這是圖像分類研究無(wú)法回避的難題。雖然基于視覺(jué)詞袋模型的圖像分類技術(shù)得到了大量的理論研究和實(shí)踐,成為當(dāng)前解決圖像分類問(wèn)題的主流方法,但離真正的實(shí)用化還有很長(zhǎng)距離。其存在的主要問(wèn)題可歸結(jié)為以下三個(gè)方面。
1.視覺(jué)單詞的同義性和歧義性問(wèn)題
視覺(jué)單詞的同義性是指,多個(gè)視覺(jué)單詞所描述的視覺(jué)內(nèi)容具有很強(qiáng)的相似性,而歧義性是指多個(gè)視覺(jué)差異明顯的圖像內(nèi)容對(duì)應(yīng)同一個(gè)視覺(jué)單詞。與文本分析中的單詞不同,視覺(jué)單詞是人為學(xué)習(xí)圖像底層特征的分布得到的,沒(méi)有明確的語(yǔ)義含義。當(dāng)前,視覺(jué)詞典主要是采用K-Means及其改進(jìn)聚類算法生成的,這類聚類方法存在以下兩個(gè)缺陷:①在數(shù)據(jù)點(diǎn)密集區(qū)域得到的聚類中心偏多,而在數(shù)據(jù)點(diǎn)稀疏區(qū)域得到的聚類中心偏少;②遠(yuǎn)離聚類中心的數(shù)據(jù)點(diǎn)會(huì)使導(dǎo)致聚類中心向數(shù)據(jù)稀疏區(qū)域漂移。這兩個(gè)缺陷分別對(duì)應(yīng)視覺(jué)單詞的同義性和歧義性問(wèn)題。視覺(jué)單詞的同義性和歧義性問(wèn)題嚴(yán)重制約了視覺(jué)詞袋模型的性能。如何通過(guò)有效的聚類、隨機(jī)映射和距離度量學(xué)習(xí)等方法生成區(qū)分性好、表達(dá)能力強(qiáng)的視覺(jué)詞典是圖像分類領(lǐng)域的一大難題。
2.視覺(jué)詞匯特征中空間信息缺失的問(wèn)題
視覺(jué)詞匯直方圖表達(dá)圖像內(nèi)容的方式忽略了視覺(jué)單詞的空間信息。這種空間信息既包括視覺(jué)單詞的絕對(duì)位置信息,還包括視覺(jué)單詞間的相對(duì)位置關(guān)系信息。一幅圖像中視覺(jué)單詞的分布和排列并不是雜亂無(wú)章的,視覺(jué)單詞的共生特性和空間依賴性是圖像內(nèi)容、語(yǔ)義信息的重要體現(xiàn)。因此,視覺(jué)單詞間的空間位置關(guān)系信息對(duì)于圖像內(nèi)容和語(yǔ)義的表達(dá)是不可忽略的。充分挖掘和利用視覺(jué)單詞的空間分布信息,并將其有效地引入到視覺(jué)詞袋模型中,能夠增強(qiáng)模型的表達(dá)能力,提高圖像分類準(zhǔn)確率。
3.視覺(jué)單詞間語(yǔ)義相關(guān)性的度量問(wèn)題
為提高視覺(jué)詞典的表達(dá)能力,一方面要通過(guò)有效的聚類、度量學(xué)習(xí)等方法生成視覺(jué)單詞同義性和歧義性弱的視覺(jué)詞典;另一方面, 對(duì)于生成好的視覺(jué)詞典,也需要有效地挖掘和度量視覺(jué)單詞間的語(yǔ)義相關(guān)性,如含義是否相近、相反等。有效地度量和利用視覺(jué)單詞間的語(yǔ)義相關(guān)性,并采用合理的方法構(gòu)建視覺(jué)詞匯特征,可以提高視覺(jué)詞袋模型的語(yǔ)義表達(dá)能力,提高圖像分類的準(zhǔn)確率。當(dāng)前,關(guān)于視覺(jué)單詞間語(yǔ)義相關(guān)性的研究還很少。如何快速有效生成區(qū)分性好、表達(dá)能力強(qiáng)的視覺(jué)詞典,如何將視覺(jué)單詞的空間信息融入到圖像視覺(jué)詞匯特征中,如何有效地度量和利用視覺(jué)單詞間的語(yǔ)義相關(guān)性,是當(dāng)前基于視覺(jué)詞袋模型的圖像分類技術(shù)的研究重點(diǎn)。
詞袋模型是目前SLAM研究中最常用的閉環(huán)檢測(cè)方法,而且基于ORB詞袋模型的SLAM系統(tǒng),具有良好的實(shí)時(shí)性,能夠有效提高SLAM系統(tǒng)的重定位準(zhǔn)確性,增強(qiáng)了系統(tǒng)的魯棒性。
特別是現(xiàn)在一些企業(yè)已經(jīng)開(kāi)發(fā)好的雙目視覺(jué)slam研發(fā)平臺(tái),就是先利用視覺(jué)slam的位姿估計(jì)模塊實(shí)時(shí)獲取到雙目相機(jī)的圖像信息和IMU的位姿信息,然后通過(guò)視覺(jué)慣性融合算法計(jì)算出相機(jī)的深度信息、位置信息和運(yùn)動(dòng)姿態(tài)信息,并轉(zhuǎn)換為實(shí)時(shí)位姿信息,最后通過(guò)無(wú)人機(jī)位姿解算算法將相機(jī)的位姿信息轉(zhuǎn)換為無(wú)人機(jī)的位姿發(fā)送給無(wú)人機(jī),實(shí)現(xiàn)無(wú)人機(jī)的自主定位。同時(shí),視覺(jué)slam算法支持GPU加速技術(shù),大幅提升運(yùn)算速度與精度。再基于詞袋技術(shù),構(gòu)建視覺(jué)slam回環(huán)檢測(cè)模塊,使視覺(jué)slam所計(jì)算出來(lái)的位姿信息更加準(zhǔn)確。由相機(jī)發(fā)布的三維點(diǎn)云信息獲取無(wú)人機(jī)與障礙物之間的距離,并應(yīng)用自主導(dǎo)航避障算法生成可執(zhí)行路徑,實(shí)現(xiàn)無(wú)人機(jī)自主導(dǎo)航避障功能。
它在平臺(tái)組成方面,主要由信息交互與任務(wù)控制平臺(tái)、無(wú)人機(jī)系統(tǒng)等組成。
可提供的技術(shù)方案支持也非常具有前沿性,和適用性:
1、可提供視覺(jué)導(dǎo)航、SLAM、視覺(jué)避障、人工智能等領(lǐng)域最新的技術(shù)。
2、可提供完整的無(wú)人平臺(tái)控制、通訊鏈路、視覺(jué)圖像采集、圖像識(shí)別、三維重建、定位解算等軟件算法解決方案。提供VIO、LocalPlanner等多種實(shí)例程序,用戶只需要簡(jiǎn)單配置即可實(shí)現(xiàn)完整的自主定位、自主建圖、自主導(dǎo)航、自主避障等功能。
3、可提供全套的機(jī)器視覺(jué)與視覺(jué)導(dǎo)航的開(kāi)發(fā)環(huán)境、仿真環(huán)境、硬件平臺(tái),所提供的硬件均提供完善的二次開(kāi)發(fā)接口和實(shí)例代碼,省去用戶從頭搭建開(kāi)發(fā)平臺(tái)的繁雜工作。
4、可提供全套的學(xué)科教學(xué)課程以及示例算法等,幫助快速展開(kāi)相關(guān)課程設(shè)計(jì),進(jìn)行實(shí)際教學(xué)應(yīng)用階段
可開(kāi)設(shè)實(shí)驗(yàn)課程如下:
?SLAM教學(xué);
?飛思視覺(jué)slam硬件平臺(tái)介紹;
?飛思視覺(jué)slam軟件平臺(tái)介紹;
?相機(jī)原理、點(diǎn)云原理、GPU加速原理簡(jiǎn)介;
?飛思視覺(jué)slam平臺(tái)支持的視覺(jué)slam架構(gòu),
包括VINS,ORB_SLAM和Rovio,降低學(xué)校教師或?qū)W生學(xué)習(xí)SLAM的門(mén)檻;
?視覺(jué)slam主流技術(shù)介紹,包括多傳感器融合算法,KLT光流算法雙目VIO;
?視覺(jué)詞袋技術(shù)介紹;
?回環(huán)檢測(cè)技術(shù)介紹,包括重定位技術(shù)、全局位姿估計(jì)技術(shù);
?無(wú)人機(jī)通信技術(shù),包括Mavlimk介紹和Mavros介紹;
?自主導(dǎo)航避障算法介紹;
?飛思視覺(jué)slam平臺(tái)應(yīng)用實(shí)例介紹;
? 航線飛行實(shí)例,自主導(dǎo)航避障實(shí)。
隨著互聯(lián)網(wǎng)上圖像數(shù)據(jù)的急劇增長(zhǎng),基于語(yǔ)義的圖像分類研究成為了當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。視覺(jué)詞袋模型作為基于語(yǔ)義的圖像分類主流方法存在諸多問(wèn)題,成為了研究的重點(diǎn)。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至2161241530@qq.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。如若轉(zhuǎn)載,請(qǐng)注明出處:http://www.parklessenses.com/wurenjibaike/djiwurenzhishi/10989/