๐๏ธ ๊ฐ๋ฐ ๊ธฐ๊ฐ
23.06.07 - 23.06.22(์ด 16์ผ)
๐ ํ๋ก์ ํธ ์๊ฐ
- ์ง๋ฌธ์ด ์ฃผ์ด์ง์ง ์๊ณ , ์ฌ์ ์ ๊ตฌ์ถ๋์ด ์๋ ๋ฌธ์ ๋ด์์ ์ง๋ฌธ์ ๋ํ ์ ํํ ๋ต๋ณ์ ํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
- ๋ฐ๋ผ์, ์ง๋ฌธ์ ๋ํ ์ ๋ต์ด ํฌํจ๋์ด ์๋ ๋ฌธ์๋ฅผ ์ฐพ๊ธฐ ์ํ Retrieval Model๊ณผ ์ฐพ์ ๋ฌธ์ ๋ด์์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์ฐพ๊ธฐ ์ํ Reader Model๋ก 2-Stage๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
๐ฝย ์ฌ์ฉ ๋ฐ์ดํฐ์
- Train Data : 3,952๊ฐ(train) / 240๊ฐ(validation)
Test Data : 240๊ฐ(public) / 360๊ฐ(private) ๋ก ๋ฐ์ดํฐ๊ฐ ๊ตฌ์ฑ๋์ด ์๋ค.
- Train Data๋
id(์ง๋ฌธ์ ๊ณ ์ id)
, question(์ง๋ฌธ)
, context(๋ต๋ณ์ด ํฌํจ๋ ๋ฌธ์)
, answers(๋ต๋ณ์ ๋ํ ์ ๋ณด)
, document_id(๋ฌธ์์ ๊ณ ์ id)
, title(๋ฌธ์์ ์ ๋ชฉ)
์ปฌ๋ผ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ ,
Test Data๋ id
, question
๋ง ๊ณต๊ฐ๋์ด ์๋ค.
๐ํ๊ฐ ์งํ
- Exact Match(EM) : ๋ชจ๋ธ์ ์์ธก๊ณผ ์ค์ ์ ๋ต์ด ์ ํํ๊ฒ ์ผ์นํ๋ ๋น์จ์ ๋ํ ์ ์์ด๋ค. ํน์๋ฌธ์ ๋ฑ์ ์ ์ธํ๊ณ ์ ํํ๊ฒ ์ผ์นํ๋ฉด 1์ , ์๋๋ผ๋ฉด 0์ ์ ๋ถ์ฌํจ์ผ๋ก์จ ํด๋น ์งํ๋ฅผ ์ธก์ ํ๋ค.
- F1 Score : EM๊ณผ๋ ๋ค๋ฅด๊ฒ ๋ถ๋ถ ์ ์๋ฅผ ์ธก์ ํ๋ค. ์ ํํ ๊ฐ์ ์์น๊ฐ ์๋๋๋ผ๋ ๊ฒน์น๋ ๋จ์ด๊ฐ ์๋ค๋ฉด ๋ถ๋ถ ์ ์๋ฅผ ๋ฐ์ ์ ์๋ค.
๐จโ๐จโ๐งโ๐ง ๋ฉค๋ฒ ๊ตฌ์ฑ ๋ฐ ์ญํ
- ๊ณฝ๋ฏผ์
- Reader ๋ชจ๋ธ ๋ฐ์ดํฐ ์ฆ๊ฐ, Elastic Search ๊ตฌํ ๋ฐ ์ ์ฉ
- ์ด์ธ๊ท
- Retriever ๋ชจ๋ธ(DPR) ๊ตฌํ ๋ฐ ๊ฐ์ , Reader ๋ชจ๋ธ ๊ฐ์
- ์ํ๋ฆผ
- Retriever ๋ชจ๋ธ(BM25) ๊ตฌํ, Context ์ ์ฒ๋ฆฌ
- ์ตํ๋ฏผ
- Reader ๋ชจ๋ธ ๊ฐ์ , Question Generation ๊ตฌํ,ย Ensemble ๊ตฌํ
- ํฉ์ค๊ธฐ
- Retriever ๋ชจ๋ธ(DPR) ๊ตฌํ, Re-Rank ๊ตฌํ
โ๏ธย ๊ธฐ๋ฅ ๋ฐ ์ฌ์ฉ ๋ชจ๋ธ
Retrieval ๋ชจ๋ธ
- ์ ๋ง๊ฐ์ ๋ฌํ๋ ์ํคํผ๋์ ๋ฌธ์ ์ค์์ ์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํ ์ ๋ต์ด ์ ํ์๋ ๋ฌธ์๋ฅผ ํ์ํ๋ค.
- ๊ธ์ ์๋ฒ ๋ฉ ์ ๋ณด๋ฅผ ํ์ฉํ๋
DPR
๋ชจ๋ธ๊ณผ ๊ธ์ ํ๋ฉด์ ์ธ ๋จ์ด์ ์ผ์น ์ฌ๋ถ๋ฅผ ํ์ฉํ๋ BM25
๋ชจ๋ธ์ ์ด์ฉํ๋ค. BM-25
๋ก ์ถ๋ ค์ง ๋ต๋ณ์ DPR
๋ชจ๋ธ์ ์ด์ฉํด Re-Rank ํ๋ค.
Reader ๋ชจ๋ธ
- Retrieval ๋ชจ๋ธ์ ํตํด ์ ํ๋ ๋ฌธ์์ ๋ด์ฉ ์์์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์ฐพ๋๋ค.
klue/roberta-large
๋ชจ๋ธ์ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ํ์ฌ ์ฌ์ฉํ๋ค.
๐๏ธย ํ๋ก์ ํธ ๊ตฌ์กฐ
โโโ Trainer_DPR_Example.ipynb
โโโ arguments.py
โโโ dpr
โย ย โโโ __init__.py
โย ย โโโ cls_Encoder.py
โย ย โโโ trainer_DPR.py
โโโ dpr_retrieval.py
โโโ inference.py
โโโ main.py
โโโ preprocessing
โย ย โโโ dataset_preprocessing.py
โโโ reader.py
โโโ retrieval.py
โโโ train.py
โโโ trainer_qa.py
โโโ utils.py
โโโ utils_qa.py
โโโ Readme.md
โโโ github_utils
ย ย โโโ markdown_to_notion.py
๐ย ๋งํฌ