[Computer Vision]Pose Estimation

Artificial Intelligence/Deep learning 2021. 7. 31. 13:29

Pose Estimation에 딥러닝을 적용하는 알고리즘이 나오자 빠른 발전을 이루었습니다. Pose Estimation도 2D Pose Estimation, 3D Pose Estimation으로 나뉘는데요 오늘은 2D Pose Estimation을 간략하게 요약해 포스팅해보도록 하겠습니다

Pose Estimation

사람의 신체 관절인 Key Point가 어떻게 구성되어있는지 위치를 측정(Localization)하고 추정(Estimation)하는 문제입니다.
주요 Key Point → Head, Neck, Sholder, Elbow, Wrist, Hip, Knee, Ankle
Pose Estimation의 대표적인 성능평가 지표 성능평가지표는 데이터셋에 따라 조금씩 명칭이 바뀌는 것 같습니다.
- Percentage of Correct Keypoints - PCK특정 threshold 보다 detected-true 간의 차이가 작다면 correct 로 간주하는 평가 지표입니다.
- 기본적으로 PCK @ 0.2 는 threshold 가 0.2 * torso diameter 로써, 여기서 torso는 사람의 몸통(팔다리를 제외한 몸 부분)을 말합니다.
- Detected-joint is considered correct if the distance between the predicted and the true joint is within a certain threshold.
- PCKh @ 0.5 : threshold = 50% of the head segment length(head bone link) threshold 로써 몸통이 아닌 머리 부분의 길이를 사용한 변형 평가 지표입니다.

2D Pose Estimation

Direct regression based

빠르고 직접적으로 end-to-end 방법으로 학습이 가능하고, 3D 이미지에 대해서 큰 변화 없이 적용 가능합니다.
Multi-person에 대해 적용 할 수 없고 현재는 좋은 성능을 얻지 못해서 많이 사용하지 않고 있습니다.
현시점에서는 좋은 성능을 얻지 못해 많이 사용하지 않습니다.

Heatmap based

출력된 heatmap에서 최댓값을 가지는 좌표를 keypoint로 예측하는 방법입니다.
시각화가 쉽고, 보다 복잡한 경우에 적용하기 좋습니다.
Memory 사용양이 많고, 3D 이미지에 대해 적용하기가 어렵습니다.

Top-down

영상에서 사람을 Detection 하고, Bounding Box 내부에서 포즈를 추정하는 방식입니다.
Pose Estimation의 SOAT가 대부분 이 방식의 알고리즘에서 달성됩니다.
Detector가 감지한 Bounding Box를 기준으로 사진을 잘라낸 뒤, 일정한 크기로 리사이즈하고서 pose estimator에 넣어주기에 사람의 상대적 크기에서 자유롭습니다.
먼저 Detection을 하고 사람을 찾기 때문에 Bottom-up 보다는 정확도가 좋지만 속도가 느립니다.

Bottom-up

영상에 포함된 사람의 Key Point를 모두 추정하고, Key Point 간의 상관관계를 분석하여 포즈를 추정하는 방식입니다.
Top-down 방식에 비해 정확도가 떨어집니다.
Detection 과정을 거치지 않기 때문에 빠르다는 장점이 있어서 Real-time 에 적용하기 적합합니다.

2D Pose Estimation Dataset

2D Pose Estimation 분야의 논문에서는 주로 아래와 같은 데이터셋이 많이 사용됩니다. 이중에서도 MPII 데이터 셋과 COCO데이터 셋으로 평가가 많이 이루어집니다.

MPII : 약 4만 명의 인물이 포함된 2만5천 장의 이미지로 구성된 데이터 셋입니다. 이미지는 유튜브 비디오에서 추출이 되었고 각 이미지에는 관절 좌표뿐만 아니라 신체 부분 폐색, 3D torso and head 방향, 410개의 활동 레이블링이 제공됩니다.
COCO : 약 15만 명의 인물이 포함된 6만 장의 이미지로 구성된 데이터 셋이 입니다.
Leeds Sports Post(LSP) : 단일 인물사진들이며 스포츠 경기 이미지를 수집하여 만든 데이터 셋으로 14개의 관절 좌표가 있으며 10,000장의 이미지로 구성된 데이터 셋입니다.

'Artificial Intelligence > Deep learning' 카테고리의 다른 글

[GAN]Generative Adversarial Networks(NIPS 2016) (0)	2021.09.10
[Computer Vision]Object Detection (0)	2021.07.10
[RNN]Recurrent Neural Network(RNN) (0)	2021.06.21
[Deep Learning]Depthwise Separable Convolution (0)	2021.06.14
[Optimizer] Optimizer-경사하강법(Gradient Descent) (0)	2021.05.19

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

EunChan's Tech Blog EunChan's Tech Blog

Pose Estimation

2D Pose Estimation

Direct regression based

Heatmap based

Top-down

Bottom-up

2D Pose Estimation Dataset

'Artificial Intelligence > Deep learning' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

인기포스트

ABOUT ME

Pose Estimation

2D Pose Estimation

Direct regression based

Heatmap based

Top-down

Bottom-up

2D Pose Estimation Dataset

'Artificial Intelligence > Deep learning' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역