hdonghun / Python_analysis-visualization

practice Kaggle study Myself
1 stars 0 forks source link

비정형 데이터 마이닝 #15

Open hdonghun opened 2 years ago

hdonghun commented 2 years ago

비정형 데이터란 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화 되지 않은 데이터를 말한다. 블로그와 게시판 등 웹에서 폭발적으로 발생하는 비정형 데이터는 그 내용을 통해 여론의 흐름을 파악할 수 있다는 점에서 주목받고 있다. 비정형 데이터 분석방법으로는 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝 등이 있다.

hdonghun commented 2 years ago

텍스트 마이닝(text mining)이란 대규모의 문서(text)에서 의미 있는 정보를 추출하는 것을 말한다. 분석 대상이 비구조적인 문서정보라는 점에서 데이터 마이닝과 차이가 있다. 텍스트 마이닝은 텍스트 분석(text analytics), 텍스트 데이터베이스로부터 지식 발견(KDT, Knowledge Discovery in Textual Database), 문서 마이닝(document Mining) 등으로 불리기도 한다.

텍스트 마이닝은 정보 검색, 데이터 마이닝, 기계 학습(machine learning), 통계학, 컴퓨터 언어학(computational linguistics) 등이 결합된 학제적(interdisciplinary) 분야다(Han et al, 2011). 텍스트 마이닝은 분석 대상이 형태가 일정하지 않고 다루기 힘든 비정형 데이터이므로 인간의 언어를 컴퓨터가 인식해 처리하는 자연어 처리(NLP, natural language processing) 방법과 관련이 깊다.

hdonghun commented 2 years ago

웹 마이닝(web mining)은 인터넷을 이용하는 과정에서 생성되는 웹 로그(web log) 정보나 검색어로부터 유용한 정보를 추출하는 웹을 대상으로 한 데이터 마이닝을 말한다. 웹 마이닝은 전통적인 데이터 마이닝의 분석 방법론을 사용하기도 하지만 웹 데이터의 속성이 반정형 혹은 비정형이고, 링크 구조를 형성하고 있기 때문에 별도의 분석기법이 필요하다.

웹 마이닝은 분석 대상에 따라 웹 구조 마이닝(web structure mining)과 웹 유시지 마이닝(web usage mining), 웹 콘텐츠 마이닝(web contents mining)으로 구분한다(Linoff & Berry, 2001).

웹 구조 마이닝은 웹 사이트의 노드(node)와 연결 구조를 분석하는 기법이다. 웹 페이지가 연결된 구조를 의미하는 하이퍼링크(hyperlink)로부터 패턴을 찾아내거나 웹 페이지 구조를 분석한다.

웹 유시지 마이닝은 인터넷 이용자의 이용경로인 웹서버 로그(web server log) 파일 분석을 통해 웹 사이트 개선이나 고객 특성을 반영한 맞춤형 서비스를 지향한다.

hdonghun commented 2 years ago

[네이버 지식백과] 비정형 데이터 마이닝