Team-KDA / natural-language-processing

Study NLP topics, Participate in competitions if possible
0 stars 0 forks source link

Data (nlp-kogas) #6

Open lodikim opened 2 years ago

lodikim commented 2 years ago

KoBART의 형식에 맞게 가공한 AIHub의 문서요약 텍스트 데이터셋 (가스・에너지분야 문서요약 모델개발 대회 데이터) 용량이 너무 큰 관계로 구글 드라이브 링크로 공유 https://drive.google.com/file/d/1-f7Xw5BaqdkcXik9y9pEgUuqynYpFfAG/view?usp=sharing

다음과 같은 6가지 file로 구성 (반드시 tsv file 형태로 이용해야 함) train_news.tsv (271093, 2) valid_news.tsv (30122, 2) train_editorial.tsv (63067, 2) valid_editorial.tsv (7008, 2) train_law.tsv (27033, 2) valid_law.tsv (3004, 2)

lodikim commented 2 years ago

csv file의 형태로 시도 시, KeyError 생김 >> tsv file으로 변경