Baseline 2.0 Tech Spec | Notion

Summary

baseline 1.0에서 모델의 학습이 원활하게 이루어지지 않은 점을 해결하였습니다.

Baseline 1.0 Tech Spec

Background

baseline 1.0에서 validation 정확도가 약 8% 정도가 나왔는데, 학습이 되지 않은 것이라고 판단하였습니다. 관련하여 모델이 잘 학습할 수 있도록 베이스라인을 수정하였습니다.

Goals

모델 사이즈 조정
배치 사이즈 조정
샘플러 코드 오류 수정
스케줄러 교체

Non-Goals

horovod를 활용한 분산 처리 대응
1. 아직 multi-gpu 환경이 없으며, 분산 처리에 대한 이해도가 낮다고 판단하여 적용 보류
성능을 높이기 위한 여러 학습 테크닉(gradient-accumulation, additional layer 등) 추가 구현
1. 아직 모델의 높은 성능보다는, 보장된 성능의 베이스라인 코드 개발과 이해를 목표로 함
2. 따라서 기본적인 모델과 테크닉만 구현

Activities

변경 전 후 비교