Open dohnlee opened 3 years ago
python data.py
실행
data/samsum_corpus
디렉토리 생성
data
└── samsum_corpus
├── README.txt
├── licence.txt
├── test.json
├── train.json
└── val.json
다운로드 할 때 train-test split이 되어 있기 때문에 실험 코드에서 따로 split 할 필요 없음
data sample
{'id': '13818513',
'summary': 'Amanda baked cookies and will bring Jerry some tomorrow.',
'dialogue': "Amanda: I baked cookies. Do you want some?\r\nJerry: Sure!\r\nAmanda: I'll bring you tomorrow :-)"}
abstractive summarize task를 위한 paired data 중 하나인 saumsum corpus dataset입니다.