프로젝트 개요
다양한 종류의 질문에 대해 올바른 답변을 출력하는 Open Domain Question Answering (ODQA) task 수행. 이때 별도의 지문이 주어지지 않는 open domain 환경으로 retreival-reader 구조로 접근.
EDA
데이터셋 확인
- 학습 데이터는 3952개의 train 데이터와 240 개의 valid 데이터가 있으며, Retriever가 검색할 수 있는 문서들의 목록인 wikipedia_documents.json가 제공됨.
- train과 valid 데이터에는 [title, context, question, id, answers, document_id, index_level_0]로 구성
- 평가 데이터로는 240개의 public 데이터와 360개의 private 데이터가 제공되었으며, 각각의 데이터는 [query, id]의 형태
- wiki_corpus는 60613개의 passage로 구성이 되어있으며 [corpus_source, url, domain, title, author, html, document_id, text_length]로 구성이 됨
데이터 관련
- null값: null 값은 존재하지 않는 것으로 확인
- [UNK]: Extraction-based MRC 모델을 사용했기 때문에 답으로 토큰을 추출하는 것이 아닌 answer span을 출력하기 때문에 다른 대회에 비해 이번 대회에서는 UNK 토큰이 비교적으로 큰 문제가 안되는 것으로 확인
평가 지표
- Exact Match (EM): 모델의 예측과 실제 답이 정확하게 일치할 때만 점수가 주어짐
- 단 띄어쓰기나 문장부호를 제외한 후 정답에 일치하는지 확인
- F1 score: 토큰 단위로 답에 대한 부분 점수를 제공 함