aiclaudev / FindMyMate

LIFLOW
0 stars 0 forks source link

토크나이저 관련 논의 #2

Open aiclaudev opened 2 years ago

aiclaudev commented 2 years ago

토크나이저 관련 논의

do-genie commented 2 years ago

토크나이저 속도 관련 페이지: https://iostream.tistory.com/144

토크나이저 결과

원본 문장 : 안녕하세요. 저는 산업경영공학과 19학번 이수진입니다. 반갑습니다.

OKT 형태소 분석 : ['안녕하세요', '.', '저', '는', '산업', '경', '영', '공', '학과', '19', '학번', '이수진', '입니다', '.', '반갑습니다', '.'] OKT 품사 태깅 : [('안녕하세요', 'Adjective'), ('.', 'Punctuation'), ('저', 'Noun'), ('는', 'Josa'), ('산업', 'Noun'), ('경', 'Modifier'), ('영', 'Modifier'), ('공', 'Modifier'), ('학과', 'Noun'), ('19', 'Number'), ('학번', 'Noun'), ('이수진', 'Noun'), ('입니다', 'Adjective'), ('.', 'Punctuation'), ('반갑습니다', 'Adjective'), ('.', 'Punctuation')] OKT 명사 추출 : ['저', '산업', '학과', '학번', '이수진']

Kkma 형태소 분석 : ['안녕', '하', '세요', '.', '저', '는', '산업', '경영', '공학', '과', '19', '학번', '이수', '진', '이', 'ㅂ니다', '.', '반갑', '습니다', '.'] Kkma 품사 태깅 : [('안녕', 'NNG'), ('하', 'XSV'), ('세요', 'EFN'), ('.', 'SF'), ('저', 'NP'), ('는', 'JX'), ('산업', 'NNG'), ('경영', 'NNG'), ('공학', 'NNG'), ('과', 'JKM'), ('19', 'NR'), ('학번', 'NNG'), ('이수', 'NNG'), ('진', 'XSN'), ('이', 'VCP'), ('ㅂ니다', 'EFN'), ('.', 'SF'), ('반갑', 'VV'), ('습니다', 'EFN'), ('.', 'SF')] Kkma 명사 추출 : ['안녕', '저', '산업', '산업경영공학', '경영', '공학', '19', '19학번', '학번', '이수']

Mecab 형태소 분석 : ['안녕', '하', '세요', '.', '저', '는', '산업', '경영', '공학', '과', '19', '학번', '이수진', '입니다', '.', '반갑', '습니다', '.'] Mecab 품사 태깅 : [('안녕', 'NNG'), ('하', 'XSV'), ('세요', 'EP+EF'), ('.', 'SF'), ('저', 'NP'), ('는', 'JX'), ('산업', 'NNG'), ('경영', 'NNG'), ('공학', 'NNG'), ('과', 'JC'), ('19', 'SN'), ('학번', 'NNG'), ('이수진', 'NNP'), ('입니다', 'VCP+EF'), ('.', 'SF'), ('반갑', 'VA'), ('습니다', 'EF'), ('.', 'SF')] Mecab 명사 추출 : ['안녕', '저', '산업', '경영', '공학', '학번', '이수진']

Komoran 형태소 분석 : ['안녕하세요', '.', '저', '는', '산업', '경영', '공학', '과', '19', '학번', '이수진', '이', 'ㅂ니다', '.', '반갑습니다', '.'] Komoran 품사 태깅 : [('안녕하세요', 'NNP'), ('.', 'SF'), ('저', 'NP'), ('는', 'JX'), ('산업', 'NNG'), ('경영', 'NNP'), ('공학', 'NNP'), ('과', 'JC'), ('19', 'SN'), ('학번', 'NNP'), ('이수진', 'NNP'), ('이', 'VCP'), ('ㅂ니다', 'EF'), ('.', 'SF'), ('반갑습니다', 'NNP'), ('.', 'SF')] Komoran 명사 추출 : ['안녕하세요', '산업', '경영', '공학', '학번', '이수진', '반갑습니다']

Hannanum 형태소 분석 : ['안녕', '하', '세', '요', '.', '저', '는', '산업경영공학', '과', '19학번', '이수진', '이', 'ㅂ니다', '.', '반갑', '습니다', '.'] Hannanum 품사 태깅 : [('안녕', 'N'), ('하', 'X'), ('세', 'E'), ('요', 'J'), ('.', 'S'), ('저', 'N'), ('는', 'J'), ('산업경영공학', 'N'), ('과', 'J'), ('19학번', 'N'), ('이수진', 'N'), ('이', 'J'), ('ㅂ니다', 'E'), ('.', 'S'), ('반갑', 'P'), ('습니다', 'E'), ('.', 'S')] Hannanum 명사 추출 : ['안녕', '저', '산업경영공학', '19학번', '이수진']

aiclaudev commented 1 year ago

soynlp가 학습기반이라, 저희가 사용하는 데이터셋 학습한 이후 랜덤으로 뽑아서 토큰화한 결과입니다. 확인한번 해주시고 한번 결정해봐요!! 명사만 추출한다고 하면 수진님이 올려주신 konlpy 내 토크나이저들 중 Mecab, Komoran, Hannanum이 좋겠네요.

soynlp 사용시 학습시간은 전체 문서에 대해 30초~1분정도 소요되고, 토크나이저 시간도 전체 문서에 대해 30초정도 소요되는 것 같습니다!

soynlp토크나이저 사용결과.txt

do-genie commented 1 year ago

서버를 통하지 않고 자체적으로 돌아갈 수 돌아갈 수 있는 토크나이저를 사용하는 게 좋을 것 같습니다! 근데 우려되는 점이 토크나이저 설치 부분에서도 서버를 통한다고 해야 할지에 대해서 궁금합니다 교수님께서 앱 자체에서 구동되는 토크나이저를 사용해보는게 좋을 것 같다고 하셔서 그 부분에 대해 생각해봐야 할 것 같습니다!