Open NewBornRustacean opened 1 year ago
모두의 말뭉치: 형태 분석 이거 사용하면 되는데, 신청 번거로움..
Korpora project에서 파이썬 프레임워크 만들어놓음(크..)
킹치만 모두의 말뭉치는 국립국어원에서 만든거라 결국 번거로운 신청과정 그대로 해야됨ㅎㅎㅎ
[x] 말뭉치 신청, 다운로드
[x] #10
Morhpheme
Word
Sentence
Document
P(현재품사|이전품사)
P(형태소|품사)
[x] 사전(dictionary) 파일 만들기
.tsv
e.g: 형태소 id 컬럼이 없는 경우
mopheme label ============ 서울 NNP 세계 NNG 만들 VV 겠 EP 다 EF ....
[ ] (생각나면 업데이트)
실제 파일 열어보면 WSD 라는 필드가 있는데 뭔지 모르겠음
WSD
말뭉치 설명에는 metadata 가 NULL로 나오는데, 실제로 nullable인지는 파싱해봐야 알 듯.
metadata
NULL
모두의 말뭉치 정부 사업 최종 보고서
말뭉치 설명
.json 파일 매번 메모리에 올릴 필요 있는지
.json
확률 테이블 tsv 로 만들어서 저장해놓고 쓸지
tsv
말뭉치가 추가되는 경우 수평 확장이 용이한 구조로 만들 필요 있는지
테이블(=품사 전이 확률, 형태소 발생 확률, 형태소 사전) 구성할 때 형태소 id를 어떻게 할 것인지
backgrounds
모두의 말뭉치: 형태 분석 이거 사용하면 되는데, 신청 번거로움..
Korpora project에서 파이썬 프레임워크 만들어놓음(크..)
킹치만 모두의 말뭉치는 국립국어원에서 만든거라 결국 번거로운 신청과정 그대로 해야됨ㅎㅎㅎ
할 일
[x] 말뭉치 신청, 다운로드
[x] #10
Morhpheme
,Word
,Sentence
,Document
등P(현재품사|이전품사)
P(형태소|품사)
[x] 사전(dictionary) 파일 만들기
.tsv
(sep="\t") 형태로e.g: 형태소 id 컬럼이 없는 경우
[ ] (생각나면 업데이트)
말뭉치 파일 구조 및 예시
실제 파일 열어보면
WSD
라는 필드가 있는데 뭔지 모르겠음말뭉치 설명에는
metadata
가NULL
로 나오는데, 실제로 nullable인지는 파싱해봐야 알 듯.모두의 말뭉치 정부 사업 최종 보고서
말뭉치 설명
고려 사항
.json
파일 매번 메모리에 올릴 필요 있는지확률 테이블
tsv
로 만들어서 저장해놓고 쓸지말뭉치가 추가되는 경우 수평 확장이 용이한 구조로 만들 필요 있는지
테이블(=품사 전이 확률, 형태소 발생 확률, 형태소 사전) 구성할 때 형태소 id를 어떻게 할 것인지
.json
파일 구조상으로는 형태소 개별 id는 고유하지 않음(문장 내에서 상대적 위치만 표시하는 듯).tsv
형태의 파일이 3개(=품사 전이 확률, 형태소 발생 확률, 형태소 사전)이고 중복 제거되었다고 가정하므로, 각 파일의 형태소를 PK;PrimaryKey 로 보는 방법(1안)