학습이 완료된 모델을 CLIP에 text encoder에서 특정 batch size 만큼의 label이 주어졌을 때 validation을 수행
이때 검증 데이터는 전체 test 데이터셋 중 10%를 랜덤으로 샘플링하여 실험 수행
batch size | acc (%) |
---|---|
4 | 98.75 |
8 | 97.36 |
16 | 94.86 |
32 | 91.18 |
64 | 84.83 |
128 | 75.30 |
256 | 61.84 |
364 | 53.59 |
text encoder에 전체 label이 주어졌을 때.
acc (%) | |
---|---|
label 전체 사용 | 77.68 |
우리가 풀고자 하는 real world의 문제는 음식 사진이 주어졌을 때 전체 라벨 (약 400여개)의 클래스 중 올바른 클래스를 예측하는 것으로 가정