wogur0915 / Hot_Place_NLP_Project

맛집 리뷰 감성분석 NLP 프로젝트
MIT License
0 stars 0 forks source link

TF-IDF 특징 알아보기 #11

Closed wogur0915 closed 9 months ago

wogur0915 commented 9 months ago

분류모델의 학습데이터로 변환하는 과정에서 TF-IDF를 사용하기위해 특징 알아보기

wogur0915 commented 9 months ago

단어 빈도와 역문서 빈도의 결합: TF-IDF는 두 가지 구성 요소로 이루어져 있습니다. '단어 빈도(TF)'는 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 측정합니다. '역문서 빈도(IDF)'는 단어가 전체 문서 집합에서 얼마나 희귀한지를 나타냅니다. 이 두 요소의 곱으로 단어의 중요도를 평가합니다.

wogur0915 commented 9 months ago

문맥적 중요성 강조: TF-IDF는 문서 내에서 자주 등장하지만 전체 문서 집합에서는 드물게 나타나는 단어에 높은 가중치를 부여합니다. 이는 해당 단어가 특정 문서 또는 문서 집단의 주제와 밀접하게 관련되어 있음을 의미합니다.

wogur0915 commented 9 months ago

일반적인 단어의 중요도 감소: 자주 사용되는 일반적인 단어(예: 'the', 'is', 'and' 등)는 많은 문서에서 반복적으로 나타나므로 낮은 IDF 값을 갖게 됩니다. 이로 인해 이러한 단어는 TF-IDF 점수가 낮아져 문서의 특징을 파악하는 데 덜 중요하게 여겨집니다.

wogur0915 commented 9 months ago

벡터 공간 모델을 통한 표현: TF-IDF는 문서를 벡터 형태로 변환하는 데 사용됩니다. 이 벡터는 문서 내 각 단어의 TF-IDF 점수로 구성되며, 문서 간의 유사성 측정이나 기계 학습 알고리즘에 사용될 수 있습니다.

wogur0915 commented 9 months ago

다양한 응용 분야: TF-IDF는 정보 검색, 문서 분류, 문서 클러스터링 등 다양한 자연어 처리 작업에 널리 사용됩니다. 이 방법은 텍스트 데이터의 중요한 특징을 추출하는 데 효과적이며, 다른 기계 학습 알고리즘과 함께 사용될 때 특히 유용합니다.