-
[Computer Vision]Pose EstimationArtificial Intelligence/Deep learning 2021. 7. 31. 13:29
Pose Estimation에 딥러닝을 적용하는 알고리즘이 나오자 빠른 발전을 이루었습니다. Pose Estimation도 2D Pose Estimation, 3D Pose Estimation으로 나뉘는데요 오늘은 2D Pose Estimation을 간략하게 요약해 포스팅해보도록 하겠습니다
Pose Estimation
- 사람의 신체 관절인 Key Point가 어떻게 구성되어있는지 위치를 측정(Localization)하고 추정(Estimation)하는 문제입니다.
- 주요 Key Point → Head, Neck, Sholder, Elbow, Wrist, Hip, Knee, Ankle
- Pose Estimation의 대표적인 성능평가 지표 성능평가지표는 데이터셋에 따라 조금씩 명칭이 바뀌는 것 같습니다.
- Percentage of Correct Keypoints - PCK특정 threshold 보다 detected-true 간의 차이가 작다면 correct 로 간주하는 평가 지표입니다.
- 기본적으로 PCK @ 0.2 는 threshold 가 0.2 * torso diameter 로써, 여기서 torso는 사람의 몸통(팔다리를 제외한 몸 부분)을 말합니다.
- Detected-joint is considered correct if the distance between the predicted and the true joint is within a certain threshold.
- PCKh @ 0.5 : threshold = 50% of the head segment length(head bone link) threshold 로써 몸통이 아닌 머리 부분의 길이를 사용한 변형 평가 지표입니다.
2D Pose Estimation
Direct regression based
- 빠르고 직접적으로 end-to-end 방법으로 학습이 가능하고, 3D 이미지에 대해서 큰 변화 없이 적용 가능합니다.
- Multi-person에 대해 적용 할 수 없고 현재는 좋은 성능을 얻지 못해서 많이 사용하지 않고 있습니다.
- 현시점에서는 좋은 성능을 얻지 못해 많이 사용하지 않습니다.
Heatmap based
- 출력된 heatmap에서 최댓값을 가지는 좌표를 keypoint로 예측하는 방법입니다.
- 시각화가 쉽고, 보다 복잡한 경우에 적용하기 좋습니다.
- Memory 사용양이 많고, 3D 이미지에 대해 적용하기가 어렵습니다.
Top-down
- 영상에서 사람을 Detection 하고, Bounding Box 내부에서 포즈를 추정하는 방식입니다.
- Pose Estimation의 SOAT가 대부분 이 방식의 알고리즘에서 달성됩니다.
- Detector가 감지한 Bounding Box를 기준으로 사진을 잘라낸 뒤, 일정한 크기로 리사이즈하고서 pose estimator에 넣어주기에 사람의 상대적 크기에서 자유롭습니다.
- 먼저 Detection을 하고 사람을 찾기 때문에 Bottom-up 보다는 정확도가 좋지만 속도가 느립니다.
Bottom-up
- 영상에 포함된 사람의 Key Point를 모두 추정하고, Key Point 간의 상관관계를 분석하여 포즈를 추정하는 방식입니다.
- Top-down 방식에 비해 정확도가 떨어집니다.
- Detection 과정을 거치지 않기 때문에 빠르다는 장점이 있어서 Real-time 에 적용하기 적합합니다.
2D Pose Estimation Dataset
2D Pose Estimation 분야의 논문에서는 주로 아래와 같은 데이터셋이 많이 사용됩니다. 이중에서도 MPII 데이터 셋과 COCO데이터 셋으로 평가가 많이 이루어집니다.
- MPII : 약 4만 명의 인물이 포함된 2만5천 장의 이미지로 구성된 데이터 셋입니다. 이미지는 유튜브 비디오에서 추출이 되었고 각 이미지에는 관절 좌표뿐만 아니라 신체 부분 폐색, 3D torso and head 방향, 410개의 활동 레이블링이 제공됩니다.
- COCO : 약 15만 명의 인물이 포함된 6만 장의 이미지로 구성된 데이터 셋이 입니다.
- Leeds Sports Post(LSP) : 단일 인물사진들이며 스포츠 경기 이미지를 수집하여 만든 데이터 셋으로 14개의 관절 좌표가 있으며 10,000장의 이미지로 구성된 데이터 셋입니다.
'Artificial Intelligence > Deep learning' 카테고리의 다른 글
[GAN]Generative Adversarial Networks(NIPS 2016) (0) 2021.09.10 [Computer Vision]Object Detection (0) 2021.07.10 [RNN]Recurrent Neural Network(RNN) (0) 2021.06.21 [Deep Learning]Depthwise Separable Convolution (0) 2021.06.14 [Optimizer] Optimizer-경사하강법(Gradient Descent) (0) 2021.05.19