aiclaudev / FindMyMate

LIFLOW
0 stars 0 forks source link

분할, 병합, 삭제할 convrsThema에 대한 정확하고 구체적인 논의 #3

Open aiclaudev opened 2 years ago

aiclaudev commented 2 years ago

분할, 병합, 삭제할 convrsThema에 대한 정확하고 구체적인 논의

aiclaudev commented 2 years ago

근거

테스트셋 오분류 카운트.txt

do-genie commented 2 years ago

이미 제가 같은 주제인데 공백문자가 포함되어 다른 주제로 분류된다거나 하는 부분에 대해서는 병합하는 코드를 구현했습니다! 그런데 비슷한 주제를 가진 것들 끼리 합치는데 있어서는 논의를 구체적으로 해 보아야 할 것 같습니다.

import pandas as pd
import os
from google.colab import drive

files = files.replace({'convrsThema' : ' 휴일 '}, '휴일')
files = files.replace({'convrsThema' : '코로나/생활'}, '투병')
files = files.replace({'convrsThema' : '메르스'}, '투병')
files = files.replace({'convrsThema' : '축구선수'}, '축구')
files = files.replace({'convrsThema' : ' 문학 '}, '책')
files = files.replace({'convrsThema' : '독서'}, '책')
files = files.replace({'convrsThema' : '문학'}, '책')
files = files.replace({'convrsThema' : '집값'}, '부동산')
files = files.replace({'convrsThema' : '분양'}, '부동산')
files = files.replace({'convrsThema' : '직업'}, '직장')
files = files.replace({'convrsThema' : '일'}, '직장')
files = files.replace({'convrsThema' : '좋은글,사자성어,좋은글귀,등등 읽으면 도움이되는 글들..'}, '좋은글')
files = files.replace({'convrsThema' : '국제관계'}, '정치')
files = files.replace({'convrsThema' : '제테크'}, '재테크')
files = files.replace({'convrsThema' : '시사/재테크'}, '재테크')
files = files.replace({'convrsThema' : ' 경제/재테크 '}, '재테크')
files = files.replace({'convrsThema' : ' 경제/재태크 '}, '재테크')
files = files.replace({'convrsThema' : ' 자연/휴양지 '}, '자연/여행')
files = files.replace({'convrsThema' : '자동차보험'}, '교통사고/보험')
files = files.replace({'convrsThema' : '교통사고'}, '교통사고/보험')
files = files.replace({'convrsThema' : '운전'}, '자동차')
files = files.replace({'convrsThema' : ' 자동차 '}, '자동차')
files = files.replace({'convrsThema' : '자녀취업'}, '자녀')
files = files.replace({'convrsThema' : '자녀직장'}, '자녀')
files = files.replace({'convrsThema' : '자녀입대'}, '자녀')
files = files.replace({'convrsThema' : '자녀교육'}, '자녀')
files = files.replace({'convrsThema' : '자녀결혼'}, '자녀')
files = files.replace({'convrsThema' : '자녀 취업'}, '자녀')
files = files.replace({'convrsThema' : '자녀 교육'}, '자녀')
files = files.replace({'convrsThema' : '자녀 결혼'}, '자녀')
files = files.replace({'convrsThema' : '일상생활'}, '일상')
files = files.replace({'convrsThema' : '일상 이야기'}, '일상')
files = files.replace({'convrsThema' : '일상대화'}, '일상')
files = files.replace({'convrsThema' : '#일상'}, '일상')
files = files.replace({'convrsThema' : '이사'}, '이사/이민')
files = files.replace({'convrsThema' : '이민'}, '이사/이민')
files = files.replace({'convrsThema' : '먹거리'}, '음식')
files = files.replace({'convrsThema' : '먹거리/건강'}, '음식')
files = files.replace({'convrsThema' : ' 먹거리 '}, '음식')
files = files.replace({'convrsThema' : '육아'}, '육아')
files = files.replace({'convrsThema' : '양육/교육'}, '육아')
files = files.replace({'convrsThema' : '교육'}, '교육')
files = files.replace({'convrsThema' : '운동'}, '스포츠')
files = files.replace({'convrsThema' : ' 스포츠/레저 '}, '스포츠')
files = files.replace({'convrsThema' : '영화관'}, '영화관')
files = files.replace({'convrsThema' : ' 영화 '}, '영화')
files = files.replace({'convrsThema' : '연예인'}, '방송/연예')
files = files.replace({'convrsThema' : ' 방송/연예 '}, '방송/연예')
files = files.replace({'convrsThema' : ' 연애/결혼 '}, '연애')
files = files.replace({'convrsThema' : '여행계획'}, '여행')
files = files.replace({'convrsThema' : '여가생활'}, '여가')
files = files.replace({'convrsThema' : '시댁살이'}, '시집살이')
files = files.replace({'convrsThema' : '시댁'}, '시집살이')
files = files.replace({'convrsThema' : '말씀나누기'}, '대화')
files = files.replace({'convrsThema' : ' 만화 '}, '만화')
files = files.replace({'convrsThema' : '결혼생활'}, '결혼')
files = files.replace({'convrsThema' : '남편'}, '결혼')
files = files.replace({'convrsThema' : '건강/다이어트'}, '다이어트')
files = files.replace({'convrsThema' : ' 건강/다이어트 '}, '다이어트')
files = files.replace({'convrsThema' : '노후준비'}, '노후')
files = files.replace({'convrsThema' : '노후대책'}, '노후')
files = files.replace({'convrsThema' : '넷플릭스'}, '방송')
files = files.replace({'convrsThema' : 'TV'}, '방송')
files = files.replace({'convrsThema' : 'PBS'}, '방송')
files = files.replace({'convrsThema' : '드라마'}, '방송')
files = files.replace({'convrsThema' : ' 군대 '}, '군대')
files = files.replace({'convrsThema' : '건강/교육'}, '건강')
files = files.replace({'convrsThema' : '가족건강'}, '건강')
files = files.replace({'convrsThema' : '가정'}, '가족')
files = files.replace({'convrsThema' : '#인생'}, '인생')
files = files.replace({'convrsThema' : '반려동물,강아지'}, '반려동물')
files = files.replace({'convrsThema' : ' 국가/지역 '}, '국가/지역')
files = files.replace({'convrsThema' : ' 게임 '}, '게임')
files = files.replace({'convrsThema' : '건강식'}, '건강식품')
files = files.sort_values(by='convrsThema' ,ascending=False)
files

classification할때도 합치지 않은 부분에 있어서 정확도가 떨어지는 거라면 비슷한 결을 가진 대화는 전부 합치는게 어떨까요?``

aiclaudev commented 2 years ago

classification할때도 합치지 않은 부분에 있어서 정확도가 떨어지는 거라면 비슷한 결을 가진 대화는 전부 합치는게 어떨까요?``

저도 위와 같은 방법이 괜찮을 것 같습니다! 제가 아까 카톡으로 말씀드렸던 것처럼 그 부분 수행해보고 말씀드릴게요. 아 그리고 올려주신거에서, 가정->가족 이렇게 바뀌는건 수진님이 일일이 수작업 하신건가요? 위 코드 반영한 데이터 올려주시면 감사드리겠습니다!

aiclaudev commented 2 years ago
main_df['convrsThema'] = main_df['convrsThema'].str.replace('코로나/생활', '투병')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('메르스', '투병')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('축구선수', '축구')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 문학 ', '책')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('독서', '책')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('문학', '책')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('집값', '부동산')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('분양', '부동산')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('직업', '직장')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('일', '직장')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('좋은글,사자성어,좋은글귀,등등 읽으면 도움이되는 글들..', '좋은글')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('국제관계', '정치')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('제테크', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('시사/재테크', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 경제/재테크 ', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 경제/재태크 ', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 자연/휴양지 ', '자연/여행')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자동차보험', '교통사고/보험')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('교통사고', '교통사고/보험')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('운전', '자동차')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 자동차 ', '자동차')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자녀취업', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자녀직장', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자녀입대', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자녀교육', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자녀결혼', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자녀 취업', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자녀 교육', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자녀 결혼', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('일상생활', '일상')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('일상 이야기', '일상')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('일상대화', '일상')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('#일상', '일상')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('이사', '이사/이민')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('이민', '이사/이민')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('먹거리', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('먹거리/건강', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 먹거리 ', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('육아', '육아')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('양육/교육', '육아')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('교육', '교육')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('운동', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 스포츠/레저 ', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('영화관', '영화관')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 영화 ', '영화')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('연예인', '방송/연예')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 방송/연예 ', '방송/연예')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 연애/결혼 ', '연애')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('여행계획', '여행')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('여가생활', '여가')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('시댁살이', '시집살이')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('시댁', '시집살이')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('말씀나누기', '대화')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 만화 ', '만화')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('결혼생활', '결혼')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('남편', '결혼')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('건강/다이어트', '다이어트')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 건강/다이어트 ', '다이어트')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('노후준비', '노후')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('노후대책', '노후')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('넷플릭스', '방송')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('TV', '방송')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('PBS', '방송')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('드라마', '방송')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 군대 ', '군대')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('건강/교육', '건강')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('가족건강', '건강')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('가정', '가족')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('#인생', '인생')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('반려동물,강아지', '반려동물')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 국가/지역 ', '국가/지역')
main_df['convrsThema'] = main_df['convrsThema'].str.replace(' 게임 ', '게임')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('건강식', '건강식품')

main_df['convrsThema'] = main_df['convrsThema'].str.replace('수영', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('볼링', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('축구', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('야구', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('배구', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('골프', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('직장상', '직장')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('#직장상', '직장')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('직장화', '직장')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('피시방', '게임')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('요리', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('밥', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('건강식품품', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('건강식품', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('식습관', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('음식점', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('음식/건강', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('영양제', '음식')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('제주도', '여행')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('휴양지', '여행')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('등산', '취미생활')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('캠핑', '취미생활')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('여가', '취미생활')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('게읻트볼', '취미생활')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자전거', '취미생활')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('스쿠버다이빙', '취미생활')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('해외여행', '여행')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('건강검진', '건강')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('연애/결혼', '연애')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('육아', '자녀')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('스포츠/레저', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('재태크', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('부동산', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('경제', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('아파트', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('재개발', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('돈', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('경제/재테크', '재테크')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('방송', '방송/연예')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('영화', '방송/연예')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('영화관', '방송/연예')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('책', '교육')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('교통사고/보험/보험', '교통사고/보험')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('자동차면허', '자동차')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('벌초', '제사')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('장례', '제사')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('학창시절', '친구')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('스포츠/레저', '스포츠')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('여행/건강', '여행')
main_df['convrsThema'] = main_df['convrsThema'].str.replace('여행/자녀', '자녀')
do-genie commented 2 years ago

앗 제가 실수로 main_df['convrsThema'] = main_df['convrsThema'].str.replace('PBS', '방송') 이부분 방송으로 넣었어요 저 코드 빼주세요!

aiclaudev commented 2 years ago

앗 제가 실수로 main_df['convrsThema'] = main_df['convrsThema'].str.replace('PBS', '방송') 이부분 방송으로 넣었어요 저 코드 빼주세요!

네 확인했습니다!