亚洲国产欧美不卡在线观看,亚洲欧美日产综合在线网,性欧美乱妇come免费,亚洲国产综合人成综合网站00,中文字幕美谷朱里

基于深度學(xué)習的人體姿態(tài)估計技術(shù)與應用


人體姿態(tài)估計是對人體的姿態(tài)(關(guān)鍵點(diǎn),比如頭,左手,右腳等)的位置估計,是計算機視覺(jué)領(lǐng)域中一個(gè)有趣且實(shí)用的問(wèn)題。該領(lǐng)域中目前又分成單人姿態(tài)估計(Single-Person Skeleton Estimation)、多人姿態(tài)估計 (Multi-person Pose Estimation)與3D人體姿態(tài)估計 (3D Skeleton Estimation)。本文主要介紹前兩種姿態(tài)估計方法。


1、人體姿態(tài)估計的基本思路

人體姿態(tài)估計問(wèn)題可以被分解成兩個(gè)子問(wèn)題:首先,就是對人體部位的關(guān)鍵點(diǎn)進(jìn)行識別與定位,一般來(lái)說(shuō),識別到的關(guān)鍵點(diǎn)為17個(gè)(如圖1);其次,就是對這些關(guān)鍵點(diǎn)進(jìn)行連接,這樣才能將人體姿態(tài)完整表示。

圖1 人體關(guān)鍵點(diǎn)示意圖


對于單人姿態(tài)估計,對關(guān)鍵點(diǎn)的連接是有跡可循的,只需要根據關(guān)鍵點(diǎn)的部位進(jìn)行順序連接即可,例如左耳-左眼-鼻子-右眼-右耳……。所以,單人姿態(tài)估計重點(diǎn)考慮的問(wèn)題在于如何準確地識別人體關(guān)鍵點(diǎn)的位置,其中代表性的算法有CPM(Convolutional Pose Machine)與Stacked Hourglass Networks。

對于多人姿態(tài)估計,問(wèn)題變得更加復雜一些,因為圖像中不再是只有一個(gè)人,那么對于某種關(guān)鍵部位,其檢測出的目標也不再是唯一的,所以并不能簡(jiǎn)單的根據關(guān)鍵點(diǎn)順序進(jìn)行連接。為了解決這個(gè)問(wèn)題,多人姿態(tài)估計又被分成兩種思路:自頂向下(Top-Down)的方法與自底向上(Bottom-Up)的方法。其中自頂向下的方法思路是先利用目標檢測算法(如YOLO)檢測出每一個(gè)人的bounding box,然后在每一個(gè)框中用單人姿態(tài)估計算法進(jìn)行預測,其中AlphaPose最為知名;而自底向下的算法則是先將圖中所有的關(guān)鍵點(diǎn)都檢測出來(lái),再通過(guò)深度學(xué)習算法結合傳統圖算法解決各個(gè)關(guān)鍵點(diǎn)之間的匹配問(wèn)題,其中最具代表性的是OpenPose。


2、單人姿態(tài)估計方法

單人姿態(tài)估計主要是利用神經(jīng)網(wǎng)絡(luò )模塊堆疊利用不同部位之間的相關(guān)性對檢測出的關(guān)鍵點(diǎn)進(jìn)行不斷修正,并通過(guò)中間監督的形式將中間層的結果加入損失函數中,保證其可以接受更多的監督信息。

其中2016 年提出的 CPM 方法具有很強的魯棒性,CPM 的貢獻在于使用順序化的卷積架構來(lái)表達空間信息和紋理信息。算法在每一個(gè)尺度下,計算各個(gè)部位的響應圖,對于每個(gè)部位,累加所有尺度的響應圖,得到總響應圖,在每個(gè)部位的總響應圖上,找出相應最大的點(diǎn),預測為該部位的位置。作者用各部位響應圖來(lái)表達各部位之間的空間約束,模型能有效解決遮擋問(wèn)題??梢詮膱D2中看出,一開(kāi)始stage 1中手肘的位置被預測錯誤,但是隨著(zhù)其他的部位同時(shí)被預測,互相作用,最初的手肘位置在stage2之后漸漸被修正過(guò)來(lái)了。

圖2 CPM關(guān)鍵點(diǎn)檢測


而Stacked Hourglass Networks提出了一種沙漏型的網(wǎng)絡(luò )單元,并通過(guò)不斷堆疊這樣的網(wǎng)絡(luò )結構進(jìn)行姿態(tài)估計。該神經(jīng)網(wǎng)絡(luò )單元首先進(jìn)行卷積處理,并進(jìn)行下采樣操作,獲得一些分辨率較低的特征,從而使計算復雜度降低。為了使圖像特征的分辨率提高,緊接著(zhù)進(jìn)行上采樣。上采樣操作使得圖像的分辨率提高,同時(shí)更有能力預測物體的準確位置。其神經(jīng)網(wǎng)絡(luò )單元結構如圖3所示,通過(guò)這樣的處理,相較于其他網(wǎng)絡(luò ),該網(wǎng)絡(luò )結構能夠使同一個(gè)神經(jīng)元感知更多的上下文信息,其在速度方面相較于CPM算法更有優(yōu)勢。

圖3 Hourglass網(wǎng)絡(luò )單元結構圖


單人姿態(tài)估計在實(shí)際應用場(chǎng)景中有很多限制,因為真實(shí)世界的圖像往往會(huì )在一張圖像上出現多人,但是單人估計算法為姿態(tài)估計領(lǐng)域奠定了基礎,有效解決了關(guān)鍵點(diǎn)的檢測問(wèn)題。多人姿態(tài)估計方法中也充分利用了這些思想。


3、多人姿態(tài)估計

多人姿態(tài)估計不再有人數的限制,更加接近真實(shí)場(chǎng)景,是目前姿態(tài)估計領(lǐng)域中應用場(chǎng)景最廣泛的算法,本文著(zhù)重介紹來(lái)自上海交通大學(xué)的AlphaPose與卡內基梅隆大學(xué)的OpenPose,這兩種算法目前分別代表了自頂向下方法與自底向上方法中目前的State-Of-The-Art。

Alphapose的最大貢獻在于對傳統Top-Down方法中對檢測框的過(guò)度敏感問(wèn)題給出了較好解決方案,如圖4所示:通過(guò)SSTN將空間轉換網(wǎng)絡(luò )(Spatial Transformer Network)與空間反轉換網(wǎng)絡(luò )(Spatial De-Transformer Network)分別夾在單人姿態(tài)估計(SPPE)模塊的左右兩側;同時(shí)利用非最大化抑制解決了檢測框冗余問(wèn)題。在其SSTN網(wǎng)絡(luò )結構的內部,創(chuàng )新性的加入了與訓練過(guò)程并行的SPPE模塊,該模塊不經(jīng)過(guò)SDTN直接傳入loss,作為中間監督信息加入STN中,可以使STN聚焦在正確的中心位置并提取出高質(zhì)量的區域位置。

圖4 SSTN網(wǎng)絡(luò )結構


Alphapose目前在coco數據集上以23FPS的速度獲得了極高的準確率,目前被廣泛應用到工程中。



而OpenPose則是采用了另一種思路,先通過(guò)上文講到的CPM算法對圖片中的所有關(guān)鍵點(diǎn)都進(jìn)行檢測,然后引入局部親和場(chǎng)(Part Affinity Fields)概念,不僅對于關(guān)鍵點(diǎn)位置進(jìn)行預測,還對該關(guān)鍵點(diǎn)的連接方向進(jìn)行預測,利用這種信息,可以解決單人姿態(tài)估計中多個(gè)相同類(lèi)型關(guān)鍵點(diǎn)(例如:左手肘、頭部等)互相匹配的問(wèn)題。并且,該模型還利用匈牙利算法對圖匹配問(wèn)題做簡(jiǎn)化,將全連通圖上求解整數線(xiàn)性規劃問(wèn)題利用貪心算法求解,將這個(gè)NP-hard問(wèn)題轉化成了多個(gè)局部最優(yōu)問(wèn)題。

在網(wǎng)絡(luò )結構上,OpenPose利用兩路的CPM算法分別對關(guān)鍵點(diǎn)與局部親和場(chǎng)進(jìn)行預測,并且同AlphaPose一樣,將中間的feature map結果也加入了loss中,進(jìn)行中間監督,如圖5所示。


圖5 OpenPose網(wǎng)絡(luò )結構


OpenPose具有不隨著(zhù)圖像中人數增加而運算復雜度增加的特點(diǎn),在大規模人群中的表現更佳,目前正常的速度是10+FPS,經(jīng)過(guò)優(yōu)化后可以將速度提升至20+FPS。


4、網(wǎng)絡(luò )加速推斷方法

在姿態(tài)估計領(lǐng)域,精度和推斷速度往往是同等重要的,這是因為在真實(shí)的業(yè)務(wù)場(chǎng)景中,經(jīng)常會(huì )碰到實(shí)時(shí)預測或者根據人體動(dòng)作作出決策的場(chǎng)景,這就需要對算法的速度有較高的要求。目前來(lái)說(shuō),姿態(tài)估計的網(wǎng)絡(luò )加速推斷方法思路為:

(1)通過(guò)縮減算法的骨干網(wǎng)絡(luò )(backbone)進(jìn)行結構上的縮減,將圖像的預處理網(wǎng)絡(luò )更改為Mobile Net等更小的網(wǎng)絡(luò )。

(2)通過(guò)TensorRT等工具對網(wǎng)絡(luò )參數的精度進(jìn)行降低,例如將模型參數默認的Float64精度轉化成Float32或者INT8精度等低精度模型。

(3)在源碼層面作出優(yōu)化,將底層算法利用異步、多線(xiàn)程方法進(jìn)行處理,充分利用算力資源進(jìn)行推斷。


5、應用場(chǎng)景與展望

目前的人體姿態(tài)檢測算法被廣泛應用在人機交互、自動(dòng)駕駛、智能安防等領(lǐng)域。例如在人機交互上,可以通過(guò)人體的手勢對無(wú)人機等智能設備進(jìn)行操作;在自動(dòng)駕駛系統中,可以通過(guò)判斷行人的姿態(tài)來(lái)預測潛在的危險,從而為系統提供決策支持;而在智能安防中,通過(guò)監控人體姿態(tài)判斷監控中目標人群的危險動(dòng)作,從而及時(shí)進(jìn)行預警。當然,人體姿態(tài)估計目前依然有一些待解決問(wèn)題,例如遮擋、精確的三維姿態(tài)估計以及大規模人群檢測等,相信通過(guò)算法的不斷進(jìn)步,姿態(tài)識別可以被更多的為人類(lèi)生活提供便利。

[1]Max J, Karen S, Andrew Z. Spatial Transformer Networks. arXiv:1506.02025, 2015.

[2] Shih-En W, Varun R, Takeo K, Yaser S. Convolutional Pose Machines.  arXiv:1602.00134, 2016.

[3] Zhe C, Tomas S, Shih-En W, Yaser S. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. arXiv:1611.08050, 2016.

[4] Hao-Shu F, Shuqin X, Yu-Wing T, Cewu L. RMPE: Regional Multi-person Pose Estimation. arXiv:1612.00137, 2016.








版權所有 ?2021. 上海計算機軟件技術(shù)開(kāi)發(fā)中心 All Rights Reserved 滬公網(wǎng)安備 31011202012393號,滬ICP備14033306號-25

亚洲国产欧美不卡在线观看,亚洲欧美日产综合在线网,性欧美乱妇come免费,亚洲国产综合人成综合网站00,中文字幕美谷朱里