| 팀원 | |
|---|---|
| 이강혁 | EDA, 논문 리서치, dataset cleaning, model tuning, hyperparameter tuning |
| 강연철 | MLflow Customized 서버 구축, 일본어 데이터 전처리, Split & Combine 모델 구현 |
| 안진명 | |
| 박우빈 | train valid 데이터 분할, 모델 기능 구현, 앙상블 모델링 |
| 송용우 | 모델 결과 분석, Data Preprocessing, R-BERT 모델링, 팀 발표 |
이번 대회에서 사용되는 Relation Extration Task의 KLUE 데이터셋을 살펴보자. Train 데이터는 32470개, test 데이터는 7765개이며 dev 데이터셋은 따로 주어지지 않았다. 저번 대회에서는 train 데이터의 개수가 9,324개로 이번 대회에서 데이터가 3배 넘게 증가된 것을 확인할 수 있으며 같은 모델 크기 기준으로 더 긴 학습시간이 요구될 것을 예측할 수 있다.
각 데이터에는 총 5가지의 특징이 있다:
<aside> ⭐ 우리가 해결하고 싶은 task는 sentence와 subject, object entity pair $(e_{subj},e_{obj})$ 가 주어졌을 때 relation label를 예측하는 것이다.
</aside>
Relation label은 총 30가지이며 18 person-related relations(인간관계), 11 organization-related relations(조직관계), and no_relation(무관계)로 나눠진다.
자세한 설명은 아래 KLUE 논문에서 가지고 온 테이블에서 확인 가능하다.

데이터셋에서 null 값은 학습에 방해가 된다. 이번 대회에 사용하는 데이터셋에는 없으며 null 값에 유사한 값들(예시: 비이상적으로 짧은 값) 또한 존재하지 않았다.
다음으로는 데이터셋의 5가지 특징을 분석하겠다.
Repeated Sentences