[2023-01-09] 1회차 멘토링

사전 공유

팀원들이 생각하는 최종 결과물
- 공통적으로 원하는 것.
  - 성능 개선의 측면
    - 단순 모델 성능 개선보다는 모델이 어느 데이터 특징에 취약한지 다각적으로 판단, 이를 위한 대시보드 구축
    - 판단한 결과를 바탕으로 앞으로의 학습 데이터 구축 및 학습 전략 수립
    - 새로운 학습 데이터에 대해서도 빠르게 반영하여 학습시킬 수 있는 파이프라인 구축
  - 코드 퀄리티 측면
    - 단발적인 프로젝트가 아닌 지속적인 제품 개발 및 성장을 위한 효과적인 파이프라인 구축
    - CI/CD 에 코드 퀄리티 평가 기능 추가 (테스트, 프로파일링, 대시보드 등)
- 개인별 정리
  - @용우
    - TB 상당의 큰 데이터셋을 효과적으로 처리할 수 있는 파이프라인 구축
    - 성능 개선에 유의미한 인사이트를 찾고, 앞으로의 성능 개선 전략을 제시
    - 단순 모델 개선보다는 모델이 어느 데이터 특징에 취약하고, 또 새로운 학습 데이터를 빠르게 반영하여 학습시킬 수 있는 파이프라인, 대시보드 구축
    - 현업에서 활용할 수 있는 버전관리, MLOps, 코드 퀄리티, 테스트 코드 구현
  - @우빈
    - 임베딩 벡터를 시각화 했을 때 음식들이 가지는 독립적인 공간이 변화하는 과정 제시.
    - 데이터들을 효율적으로 처리하는 파이프라인 개발 구축
  - @연철
    - 오픈 월드에 강하고 새로운 데이터 학습에도 용이한 사용자 친화적인 모델
    - MLOps를 활용한 모델 취약성 분석 결과, 이를 통한 효과적인 취약점 보완
    - 개선된 추론 효율성을 가진 모델
  - @진명
    - 성능 개선의 측면
      - XX 문제를 YY 방법을 통해 해결하여 수치적으로 ZZ 만큼의 문제가 해결되었고, 이로 인해 RR 라는 사용자 경험을 줄 수 있다. → 라는 문장을 채우고 싶다.
      - 멘토님(현업자)에게 코드 리뷰 받기
    - 코드 퀄리티 측면
      - 테스크과 관계없이 재사용할 수 있는 파이프라인 구축하기
      - 대회기간 동안 했던 테스트, 프로파일링, 대시보드 등 코드 퀄리티 평가 기능을 넣고 CI/CD에 추가하기
  - @Robin
    - 큰 데이터셋을 다루는 방법 탐구
    - 새로운 데이터가 주어졌을 때 모델이 예측을 어려워 할지 예측하는 방법에 대한 연구
    - CLIP이란 multimodal 모델에 대한 깊은 이해
코드베이스
- jaketae/koclip: KoCLIP: Korean port of OpenAI CLIP, in Flax (github.com)
- 위 koclip을 바탕으로 간단하게 프롬프트에 따른 음식 분류를 정성적으로 확인 [LINK]
  - 파스타 VS 국수
  - 돼지고기 김치찌개 VS 참치 김치찌개
  - 육류가 들어간 돼지고기 김치찌개 VS 생선의 종류인 참치가 들어간 참치 김치찌개
  - 간단한 분류에도 힘들어하는 경향을 보임 (ex. 파스타 VS 국수)
  - koclip의 파인튜닝이 불충분하다고 판단 (MS COCO 8만)
  - 또한 한국 음식에 대한 별도의 파인튜닝이 이루어지지 않음
- 또한 임베딩 스페이스 관련 이야기
  - 이미지 벡터를 활용하여 음식 사진의 임베딩 공간을 분석.
  - 참치 김치찌개 및 스팸 김치찌개와 같은 비슷한 음식의 임베딩 공간을 분석.
  - 사용한 모델의 이미지 벡터는 비슷한 음식의 임베딩 공간이 붙어있음.

사전 질문

베이스라인 clip 어떤거 쓰셨는지 궁금합니다!
- 현재 kobert, kogpt와 같이 완전히 한국어로 프리트레인 된 clip 모델은 없는 것으로 알고 있습니다. 관련하여 어떤 clip 베이스 모델을 사용하셨는지 궁금합니다!
기존에 임베딩 스페이스 어떻게 분석하셨는지 궁금합니다!
- 저희 팀의 경우 tsne를 이용하여 정성적으로 쿼리간 거리를 분석을 하였는데, 다른 방법이 있는지 궁금합니다!
프롬프트를 어떻게 주고 계시는지 궁금합니다!
- clip 계열 모델에서 프롬프트 엔지니어링에 따른 성능 향상이 효과적인 것으로 알고 있습니다.
- 관련하여 누비랩 측에서는
음식 데이터의 Hard negative sampling을 어떻게 접근하면 좋을지 궁금합니다!
- 기존에는 음식의 분류를 활용한 negative sampling을 기획했었으나, 분류 정보가 데이터셋에 포함이 되어있지 않다고 들었습니다.
- 그렇다면 기존 누비랩에서는 hard negative sampling을 어떠한 방식으로 접근하신지 궁금합니다!
음식 사진 분류에 대한 human error가 어느정도인지 어떻게 참고할 수 있을지 궁금합니다.
- 논문에서 참고해야할지, 누비랩에서 자체 측정한 지표가 있는지 궁금합니다.
- 또한 누비랩에서 목표하는 분류 정확도가 어느정도인지 궁금합니다!
Github 레포지토리는 부스트캠프에서 제공하는 private repo를 사용해도 되는지 궁금합니다!
- 만약 가능하다면 github에 어디까지 공유가 가능한지 궁금합니다!
- 데이터셋만 제외 or 누비랩에서 제공한 코드도 제외 등등
멘토님의 코드리뷰가 가능한지 궁금합니다!
- 프로젝트 중간중간 주요 코드에 대한 코드 리뷰를 요청드려도 될지 궁금합니다!

멘토링 기록

계획을 좀 더 줄여보자
코드베이스
- 일단 open clip 생각하고 있지만
- 누비랩 코드도 조금 섞어서 생각 (public 신경써서)
베이스라인 clip
- scratch 부터 학습 (아예 처음, fine-tuning 부터 아님)
- tokenizer 문제 때문에