Summary

본격적인 프로젝트 수행에 앞서 팀에서 사용할 Food CLIP 베이스라인을 제작합니다.

Background

오픈소스 CLIP mlfoundations/open_clip 중 사전 학습이 가능한 모델을 선택하여 음식 데이터에 특화된 모델을 제작할 필요가 있었습니다.

관련하여 보다 체계적이고 효율적인 실험을 위해 베이스라인 코드를 제작합니다.

Goals

  1. CLIP 사전 학습을 위한 베이스라인 코드 설계
  2. git을 활용한 버전 관리, 협업, 포맷팅, 컨벤션 정의
  3. 실험 기록을 위한 wandb 세팅
  4. 베이스라인 설정 및 성능 측정
  5. 학습 데이터에 대한 기초적인 EDAAPI 구축
  6. 위 내용들을 바탕으로 앞으로의 task 계획

Non-Goals

  1. horovod를 활용한 분산 처리 대응

    1. 아직 multi-gpu 환경이 없으며, 분산 처리에 대한 이해도가 낮다고 판단하여 적용 보류
  2. 성능을 높이기 위한 여러 학습 테크닉(gradient-accumulation, additional layer 등) 추가 구현

    1. 아직 모델의 높은 성능보다는, 보장된 성능의 베이스라인 코드 개발과 이해를 목표로 함
    2. 따라서 기본적인 모델과 테크닉만 구현