팀원
이강혁 EDA, 논문 리서치, dataset cleaning, model tuning, hyperparameter tuning
강연철 MLflow Customized 서버 구축, 일본어 데이터 전처리, Split & Combine 모델 구현
안진명
박우빈 train valid 데이터 분할, 모델 기능 구현, 앙상블 모델링
송용우 모델 결과 분석, Data Preprocessing, R-BERT 모델링, 팀 발표

프로젝트 개요

EDA

이번 대회에서 사용되는 Relation Extration Task의 KLUE 데이터셋을 살펴보자. Train 데이터는 32470개, test 데이터는 7765개이며 dev 데이터셋은 따로 주어지지 않았다. 저번 대회에서는 train 데이터의 개수가 9,324개로 이번 대회에서 데이터가 3배 넘게 증가된 것을 확인할 수 있으며 같은 모델 크기 기준으로 더 긴 학습시간이 요구될 것을 예측할 수 있다.

각 데이터에는 총 5가지의 특징이 있다:

  1. Sentence(문장)
  2. Subject Entity(주어)
  3. Object Entity(목적어)
  4. Relation Label (관계 라벨)
  5. Source(출처)

<aside> ⭐ 우리가 해결하고 싶은 task는 sentencesubject, object entity pair $(e_{subj},e_{obj})$ 가 주어졌을 때 relation label를 예측하는 것이다.

</aside>

Relation label은 총 30가지이며 18 person-related relations(인간관계), 11 organization-related relations(조직관계), and no_relation(무관계)로 나눠진다.

자세한 설명은 아래 KLUE 논문에서 가지고 온 테이블에서 확인 가능하다.

Untitled

Check for Missing Values

데이터셋에서 null 값은 학습에 방해가 된다. 이번 대회에 사용하는 데이터셋에는 없으며 null 값에 유사한 값들(예시: 비이상적으로 짧은 값) 또한 존재하지 않았다.

다음으로는 데이터셋의 5가지 특징을 분석하겠다.

Sentence Analysis

Repeated Sentences