haven-jeon / NIADic

NIA(National Information Society Agency) Hangul Dictionary
https://www.nia.or.kr/
33 stars 11 forks source link

KAIST 변환 이전의 품사 제공 필요 #13

Open haven-jeon opened 7 years ago

haven-jeon commented 7 years ago

KoNLP활용을 위해 원래의 품사를 제거하고 KAIST 태그로 제공하고 있는 부분에 대해서 세종 태그를 부착해서 데이터를 제공한다.

changwoo commented 7 years ago

👍

품사 외에 우리말샘의 경우 옛말/방언/북한어 여부에 대한 정보도 필요합니다.

haven-jeon commented 7 years ago

해당 내용은 사전 카테고리에 명시되고 있지 않아 표현하기가 어렵습니다만, raw 데이터에서 한번 확인이 필요할거 같습니다.

changwoo commented 7 years ago

표준국어대사전 원본 데이터라면 있을 겁니다. 옛말/방언/북한어의 경우에는 용도에 따라 다르겠지만 보통 불필요하거나 노이즈 데이터가 될 가능성이 높아서 꼭 구분이 필요합니다.

changwoo commented 7 years ago

바라는 게 많아서 죄송하지만 ^^ "...의 잘못"으로 등록된 항목도 우리말샘 데이터에 들어 있는데 이것도 구분할 수 있었으면 좋겠습니다. 예를 들어 "찌게" 항목도 있는데 이건 "찌개의 잘못"이라고 표준국어대사전에 들어 있거든요. 잘못된 단어임을 알 수 있을까요? 대응되는 바른 말의 ("찌개") 레퍼런스 정보가 있으면 금상첨화이고요. ^^

haven-jeon commented 7 years ago

원본에서 구분은 하기 어렵습니다만, 업데이트시 참고하도록 하겠습니다.