from unittest import result
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict
import numpy as np
corpus = ["65세 이상 노인 중 35%는 '나 혼자 산다'통계청 통계개발원에서 발간한 '2021 고령자 통계','국민 삶의 질 2020' 보고서에 따르면 우리나라 65세 이상 고령층 5명 중 약 2명은 독거노인으로 나타났습니다. 혼자 사는 노인은 경제·신체·정서적으로 열악한 환경에 놓여있을 가능성이 높아 가장 취약한 집단으로 꼽힙니다. 또 연령이 높아질수록 다양한 위기 상황에서 도움 받을 곳이 없어 어려움을 겪는데요. 노인 4명 중 1명은 이야기 상대가 필요한데 도움 받을 곳이 없어 정서적인 도움을 받는데 취약한 상태입니다.어르신은 매일 같은 하루를 보냅니다.동트기 전 새벽, 어르신은 눈을 뜨면 창문을 열어 창밖을 바라보면서 하루를 시작합니다. 집 안은 고요하다 못해 삭막한 공기만 가득하고 그 삭막함을 채우는 건 의미 없는 TV소리 뿐입니다. 어르신은 아침 식사하고, TV보고, 창밖을 내다보고, 다시 점심 식사하고, TV를 보는 지루한 일상을 반복하며 살아갑니다. 기상 후 말할 상대가 없어서 입을 뗀 적 없는 어르신에게 몇 마디 여쭙자 목소리가 잠겨서 이야기 하시기기 힘듭니다. 하지만 언제 그랬냐는 듯이 쌓아둔 이야기 보따리를 푸는 어르신입니다. 코로나19로 갈 곳을 잃은 채 매일 반복적인 일상을 보내는 어르신에게 특별한 하루를 선물해보는 어떨까요?어르신이 바라는 건 딱 하나! 외로운 건 싫어요.자식들과 연락이 끊긴 어르신, 세상에 핏줄이라고는 자기 자신 뿐이거나, 자식은 있지만 사정이 좋지 않아 연락하지 못하는 어르신 등 다양한 사정을 가진 어르신들이 많습니다. 하지만 어르신들이 공통적으로 바라는 건 딱 하나입니다.\"외로운 건 싫어요. 누군가랑 말이라도 하고 싶어요.\"'홀로' 어버이날이 아닌 '함께' 하는 어버이날을 만들어주세요. 여러분이 보내주신 응원 댓글은 편지가 되어 어르신에게 직접 전달할 예정입니다. 홀로 외롭게 일상을 보내는 어르신에게 여러분의 마음을 전해주세요.어르신에게 어버이날을 특별한 하루로 만들어주세요.찾아와주는 사람이 없어 늘 외롭지만, 어버이날과 같은 기념일은 어르신을 더욱 더 외롭게 만드는 날입니다. 어르신이 어버이날을 외로운 날이 아닌 더욱 특별한 날로 기억남을 수 있도록 여러분의 도움이 필요합니다. 여러분의 따뜻한 마음을 담은 카네이션 비누 꽃과 참기름&통깨 식료품 세트로 구성된 '웃어 孝' 꾸러미를 저소득 어르신 436명에게 전달하여 어르신의 경제적 부담 절감하고 고독감을 해소하고자 합니다. 어르신의 하루가 특별해질 수 있도록 여러분이 함께 해주세요."]
vectorizer = TfidfVectorizer()
sp_matrix = vectorizer.fit_transform(corpus)
wordToid = defaultdict(int)
for idx, feature in enumerate(vectorizer.get_feature_names()):
wordToid[feature] = idx
result = defaultdict()
for i, sent in enumerate(corpus):
print( [ (token, sp_matrix[i, wordToid[token]]) for token in sent.split() ] )
sorted_matrix = sp_matrix[np.argsort(result)]
print(sorted_matrix)
TF-IDF
결과
간단하게 테스트만 해보았음. KoNLPy 이용해서 명사같은거 분리해주고 조사같은 것들은 빼주고 분석해야 할듯!