Summary

기존 78%의 성능을 보이는 **베이스라인 2.0의 약점 분석 및 성능 개선을 수행하였습니다.**

데이터의 **Hierachy 구성 내 대분류(밥류, 국탕찌개류 등)**를 활용하였을 경우 성능 개선이 가능하다는 가설을 세워 검증하였습니다.

Background

기존 베이스라인 CLIP 모델은 약 400여개 클래스에 대한 세밀한 분류에는 힘들어하는 경향을 확인하였습니다. 따라서 CLIP 모델이 세밀한 분류 또한 잘 할 수 있는 바탕을 제공하고자 합니다.

Goals

  1. 베이스라인 2.0 모델의 성능 및 약점 분석
  2. Image Encoder의 임베딩 스페이스 분석
  3. 대분류 기반 hard negative Sampler 개발
  4. 대분류 → 소분류 관계 기반 2-stage 분류 모델 개발

Non-Goals

  1. horovod를 활용한 분산 처리 대응
    1. 아직 multi-gpu 환경이 없으며, 분산 처리에 대한 이해도가 낮다고 판단하여 적용 보류
  2. Image Augmentation 등을 활용한 학습 데이터 증강
    1. 지금 현재로써는 단순 학습 데이터 증강보다는 모델의 약점을 판단하고 개선 전략을 세우는 것이 중요하다 판단하여 추가적인 학습 데이터 수집은 수행하지 않음.

Activities

베이스라인 2.0 모델의 성능 및 약점 분석

baseline 2.0 결과 분석