Summary
기존 78%의 성능을 보이는 **베이스라인 2.0의 약점 분석 및 성능 개선을 수행하였습니다.**
데이터의 **Hierachy 구성 내 대분류(밥류, 국탕찌개류 등)**를 활용하였을 경우 성능 개선이 가능하다는 가설을 세워 검증하였습니다.
Background
기존 베이스라인 CLIP 모델은 약 400여개 클래스에 대한 세밀한 분류에는 힘들어하는 경향을 확인하였습니다. 따라서 CLIP 모델이 세밀한 분류 또한 잘 할 수 있는 바탕을 제공하고자 합니다.
Goals
- 베이스라인 2.0 모델의 성능 및 약점 분석
- Image Encoder의 임베딩 스페이스 분석
- 대분류 기반 hard negative Sampler 개발
- 대분류 → 소분류 관계 기반 2-stage 분류 모델 개발
Non-Goals
- horovod를 활용한 분산 처리 대응
- 아직 multi-gpu 환경이 없으며, 분산 처리에 대한 이해도가 낮다고 판단하여 적용 보류
- Image Augmentation 등을 활용한 학습 데이터 증강
- 지금 현재로써는 단순 학습 데이터 증강보다는 모델의 약점을 판단하고 개선 전략을 세우는 것이 중요하다 판단하여 추가적인 학습 데이터 수집은 수행하지 않음.
Activities
베이스라인 2.0 모델의 성능 및 약점 분석
baseline 2.0 결과 분석