2개년도 이상 데이터 존재하는 기업 추출할 때 duplicated() 메서드 활용하는 방법

2개년도 이상 데이터가 존재하는 기업을 추출할 때, 다양한 방법들이 있겠지만 pandas의 중복값을 확인하는 duplicated() 메서드를 활용할 수 있습니다.

예를 들어, 아래와 같은 데이터프레임이 존재한다고 가정할 때.

duplicated('컬럼명', keep=False) 를 사용해주시면 해당 컬럼에서 중복되는 값이 존재하는 경우를 모두 확인할 수 있습니다.

단, 반드시 keep=False를 해주셔야 중복되는 모든 값들을 추출할 수 있으며, default 값은 keep=first이기 때문에 keep 파라미터 설정하지 않고 그냥 컬럼명만 지정하시면 중복되는 값들 중 첫번째 행은 계속 누락이 됩니다. 따라서, 저희 분석 목적에는 keep=False를 적용해주시는 게 적합합니다.

kevinpark2021 / team3_wanted_onboarding

2개년도 이상 데이터 존재하는 기업 추출할 때 duplicated() 메서드 활용하는 방법 #26