ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Computer Vision]Pose Estimation
    Artificial Intelligence/Deep learning 2021. 7. 31. 13:29

    Pose Estimation에 딥러닝을 적용하는 알고리즘이 나오자 빠른 발전을 이루었습니다. Pose Estimation도 2D Pose Estimation, 3D Pose Estimation으로 나뉘는데요 오늘은 2D Pose Estimation을 간략하게 요약해 포스팅해보도록 하겠습니다

     

    Pose Estimation

    • 사람의 신체 관절인 Key Point가 어떻게 구성되어있는지 위치를 측정(Localization)하고 추정(Estimation)하는 문제입니다.
    • 주요 Key Point → Head, Neck, Sholder, Elbow, Wrist, Hip, Knee, Ankle
    • Pose Estimation의 대표적인 성능평가 지표 성능평가지표는 데이터셋에 따라 조금씩 명칭이 바뀌는 것 같습니다. 
      • Percentage of Correct Keypoints - PCK특정 threshold 보다 detected-true 간의 차이가 작다면 correct 로 간주하는 평가 지표입니다.
      • 기본적으로 PCK @ 0.2 는 threshold 가 0.2 * torso diameter 로써, 여기서 torso는 사람의 몸통(팔다리를 제외한 몸 부분)을 말합니다.
      • Detected-joint is considered correct if the distance between the predicted and the true joint is within a certain threshold.
      • PCKh @ 0.5 : threshold = 50% of the head segment length(head bone link) threshold 로써 몸통이 아닌 머리 부분의 길이를 사용한 변형 평가 지표입니다.

     

     

    2D Pose Estimation

    Direct regression based

    • 빠르고 직접적으로 end-to-end 방법으로 학습이 가능하고, 3D 이미지에 대해서 큰 변화 없이 적용 가능합니다.
    • Multi-person에 대해 적용 할 수 없고 현재는 좋은 성능을 얻지 못해서 많이 사용하지 않고 있습니다.
    • 현시점에서는 좋은 성능을 얻지 못해 많이 사용하지 않습니다.

     

    Heatmap based

    • 출력된 heatmap에서 최댓값을 가지는 좌표를 keypoint로 예측하는 방법입니다.
    • 시각화가 쉽고, 보다 복잡한 경우에 적용하기 좋습니다.
    • Memory 사용양이 많고, 3D 이미지에 대해 적용하기가 어렵습니다.

     

    Top-down

    • 영상에서 사람을 Detection 하고, Bounding Box 내부에서 포즈를 추정하는 방식입니다.
    • Pose Estimation의 SOAT가 대부분 이 방식의 알고리즘에서 달성됩니다.
    • Detector가 감지한 Bounding Box를 기준으로 사진을 잘라낸 뒤, 일정한 크기로 리사이즈하고서 pose estimator에 넣어주기에 사람의 상대적 크기에서 자유롭습니다.
    • 먼저 Detection을 하고 사람을 찾기 때문에 Bottom-up 보다는 정확도가 좋지만 속도가 느립니다.

    Bottom-up

    • 영상에 포함된 사람의 Key Point를 모두 추정하고, Key Point 간의 상관관계를 분석하여 포즈를 추정하는 방식입니다.
    • Top-down 방식에 비해 정확도가 떨어집니다.
    • Detection 과정을 거치지 않기 때문에 빠르다는 장점이 있어서 Real-time 에 적용하기 적합합니다.

     

     

    2D Pose Estimation Dataset

    2D Pose Estimation 분야의 논문에서는 주로 아래와 같은 데이터셋이 많이 사용됩니다. 이중에서도 MPII 데이터 셋과 COCO데이터 셋으로 평가가 많이 이루어집니다.

     

    • MPII : 약 4만 명의 인물이 포함된 2만5천 장의 이미지로 구성된 데이터 셋입니다. 이미지는 유튜브 비디오에서 추출이 되었고 각 이미지에는 관절 좌표뿐만 아니라 신체 부분 폐색, 3D torso and head 방향, 410개의 활동 레이블링이 제공됩니다.
    • COCO : 약 15만 명의 인물이 포함된 6만 장의 이미지로 구성된 데이터 셋이 입니다.
    • Leeds Sports Post(LSP) : 단일 인물사진들이며 스포츠 경기 이미지를 수집하여 만든 데이터 셋으로 14개의 관절 좌표가 있으며 10,000장의 이미지로 구성된 데이터 셋입니다. 
Designed by Tistory.