Closed hellojun12 closed 3 years ago
Week1_Jaehwan_analysis_v1.1.ipynb 파일 기준으로 피드백 하겠습니다.
출력 결과가 많이 다른 점이 지수 scoring 방식에 있는지 알았는데 아녔습니다.
연매출액 1000억 이상 기업 선정 때 문제가 생긴 거 같습니다.
filtered_df = filtered_df.query('연매출액>100000000').reset_index().drop('index',axis=1)
위 코드에서 잘못된 점이 연매출액 1000억이상인 부분만 추출해서 filtered_df에 저장하는 점입니다.
연매출액 1000억 이상인 '기업'을 추출해서 그 기업이 가진 모든 데이터를 filtered_df에 저장해야 되는데
연매출액 1000억 이상인 부분만 저장합니다.
[필터링을 통해 나온 기업 "403470"을 예시로 들겠습니다.]
[filtered_df 에서 403470 검색]
[wanted_cps_df 에서 403470 검색]
wanted_cps_df에서는 해당 기업의 전체 데이터가 나오는 반면에 filtered_df에서는 1000억매출을 초과한 년도인 2018년도만 출력됩니다.
따라서 로직은
이런 순으로 되야 할 것 같습니다.
[해당 로직 코드]
※ 월별_직원수 < 1000인 부분도 추가했습니다
필터에 아직 문제가 있었군요 ㅜ 꼼꼼한 검증 감사합니다! 준식님 피드백 반영하여 수정하도록 하겠습니다!
집념의 준식님.. 대단합니다!
준식님 더블 체킹 아니었으면 엉뚱한 결과로 발표 진행할 뻔 했습니다..
Week1_Jaehwan_analysis_v1.1.ipynb 파일 기준으로 피드백 하겠습니다.
출력 결과가 많이 다른 점이 지수 scoring 방식에 있는지 알았는데 아녔습니다.
연매출액 1000억 이상 기업 선정 때 문제가 생긴 거 같습니다.
filtered_df = filtered_df.query('연매출액>100000000').reset_index().drop('index',axis=1)
위 코드에서 잘못된 점이 연매출액 1000억이상인 부분만 추출해서 filtered_df에 저장하는 점입니다.
연매출액 1000억 이상인 '기업'을 추출해서 그 기업이 가진 모든 데이터를 filtered_df에 저장해야 되는데
연매출액 1000억 이상인 부분만 저장합니다.
[필터링을 통해 나온 기업 "403470"을 예시로 들겠습니다.]
[filtered_df 에서 403470 검색]
[wanted_cps_df 에서 403470 검색]
wanted_cps_df에서는 해당 기업의 전체 데이터가 나오는 반면에 filtered_df에서는 1000억매출을 초과한 년도인 2018년도만 출력됩니다.
따라서 로직은
이런 순으로 되야 할 것 같습니다.
[해당 로직 코드]
※ 월별_직원수 < 1000인 부분도 추가했습니다