Summary
본격적인 프로젝트 수행에 앞서 팀에서 사용할 Food CLIP 베이스라인을 제작합니다.
Background
오픈소스 CLIP mlfoundations/open_clip 중 사전 학습이 가능한 모델을 선택하여 음식 데이터에 특화된 모델을 제작할 필요가 있었습니다.
관련하여 보다 체계적이고 효율적인 실험을 위해 베이스라인 코드를 제작합니다.
Goals
- CLIP 사전 학습을 위한 베이스라인 코드 설계
- git을 활용한 버전 관리, 협업, 포맷팅, 컨벤션 정의
- 실험 기록을 위한 wandb 세팅
- 베이스라인 설정 및 성능 측정
- 학습 데이터에 대한 기초적인 EDA와 API 구축
- 위 내용들을 바탕으로 앞으로의 task 계획
Non-Goals
-
horovod를 활용한 분산 처리 대응
- 아직 multi-gpu 환경이 없으며, 분산 처리에 대한 이해도가 낮다고 판단하여 적용 보류
-
성능을 높이기 위한 여러 학습 테크닉(gradient-accumulation, additional layer 등) 추가 구현
- 아직 모델의 높은 성능보다는, 보장된 성능의 베이스라인 코드 개발과 이해를 목표로 함
- 따라서 기본적인 모델과 테크닉만 구현