stannam / KPNN

A project for the Korean Phonological Neighbourhood Network
GNU General Public License v3.0
2 stars 2 forks source link

특정 품사에 해당하는 단어와 그 정보 추출 #6

Closed sunhoi closed 5 years ago

sunhoi commented 5 years ago

data_cleaning.r 코드의 일부인

extractPOS <- function(data, POS=NULL) { if (!any(class(data)=="data.frame")){ stop("Please input a data.frame or tbl object.") } if (is.null(POS)){ stop("Please enter a value for POS.") }

if (!is.null(data[[POS]])){ options <- as.factor(data[[POS]]) options <- paste(levels(options)[1:5],collapse=" ") print(paste0("Some of your POS codes are: ", options)) whatPOS <- readline(prompt = "Enter a POS code? ") data <- data[grep(whatPOS,data[[POS]]),] }

return(data) } 이 그 기능을 하는 듯한데, 예를 드련 data 가운데 NNG만 추출하려면 어떻게 하는가?

stannam commented 5 years ago

매뉴얼에 추가하였습니다. extractPOS(data, POS) 함수의 argument는 2개인데 data: '코퍼스' POS: 품사정보가 있는 칼럼명 이렇게 2개를 받습니다.

함수를 요청하면, "Some of your POS codes are: x, y, z" 이런 안내 메시지와 함께 Enter a POS code? 라고 사용자에게 어떤 품사만 추출할건지 묻습니다.

이때 문자열을 입력하면, POS열에 그 문자열이 포함된 모든 행을 추출합니다.

하지만 (특정품사 추출) → (genPNN을 돌리기) 를 반복하는 것과, (코퍼스 전체에 genPNN 돌리기) → (igraph object 상에서 특정품사만 대상으로 분석) 중 어떤 것이 효율적일지는 잘 모르겠습니다.

sunhoi commented 5 years ago

매뉴얼은 어디에 있나?

sunhoi commented 5 years ago

해결되었음.

sunhoi commented 5 years ago

<하지만 (특정품사 추출) → (genPNN을 돌리기) 를 반복하는 것과, (코퍼스 전체에 genPNN 돌리기) → (igraph object 상에서 특정품사만 대상으로 분석) 중 어떤 것이 효율적일지는 잘 모르겠습니다>에 대해.

어떤 방식을 취해도 상관 없을 듯하다. 굳이 택하자면, (특정품사 추출) → (genPNN을 돌리기) 이 더 간단할 듯.