Pose Estimation 의 한 분야이며, 사람의 마디를 정확히 예측한다.
즉 사람의 스켈레톤을 뽑아내는 모델이다.
가장 알려진? openpose 모델은 COCO18, BODY-25, MPII 이다.
세 개 모델은 뽑는 골격의 개수가 다르다. 각각 18개, 25개, 15개의 골격 포인트를 추출한다.
사실 나는 CP-VTON 진행 중 알게된 부분이다.
위 모델에는 다음과 같은 학습 데이터를 필요로 한다.
- 옷 이미지
- 해당 옷을 입은 사람 이미지
- 옷 이미지 segmentation 결과
- 사람의 keypoint
여기서 사람의 keypoint 가 사람의 골격 포인트에 해당한다. 즉 openpose를 사용해서 뽑아야 하는 정보이다.
내가 사용한 CP-VTON 오픈소스 코드에는 테스트용 파일이 들어있는데,
keypoint 가 json 파일로 입력되어 있었으며, 54개의 포인트를 가진다.
keypoint 정보는 3개 정보가 한 쌍을 이루며, (x좌표, y좌표, 신뢰도) 로 이루어져 있다.
(신뢰도는 0~1의 값이다.)
오픈소스 모델은 54의 정보가 존재하므로 18개의 포인트가 추출된 것으로 이해할 수 있다.
즉 COCO18 모델을 사용함을 유추할 수 있다.
나는 새로운 이미지로 cp-vton 학습을 위해선 openpose 모델을 통해 keypoint 정보를 추출해야 하는데,
오픈 코드는 찾았지만 사정상 colab에서 실행해야 하기 때문에 환경 설정이 힘들다.
결과적으론 3개 정보가 한 쌍을 이룬다는 것을 알게 되었으니, 직접 골격 포인트를 잡고 신뢰도는 1을 넣을 예정이다.
찾은 Openpose 코드
참고 링크
- https://mickael-k.tistory.com/m/152
- http://daddynkidsmakers.blogspot.com/2020/07/openpose.html
- https://github.com/CMU-Perceptual-Computing-Lab/openpose/issues/738
- https://github.com/CMU-Perceptual-Computing-Lab/openpose
- https://9521ljh.medium.com/virtual-fitting-feat-cp-vton-c87b3d1341c2
'AI > Model (Study)' 카테고리의 다른 글
[GAN] 다양한 GAN의 이론 설명 (0) | 2022.01.31 |
---|---|
NN/DNN/CNN/RNN - 간단 개념과 사용 용어 (0) | 2021.01.12 |